python+WinRTOCR调用qwen api实现文本标签式自动化操作windows电脑完成任务代码
代码语言:python
所属分类:其他
代码描述:python+WinRTOCR调用qwenapi实现文本标签式自动化操作windows电脑完成任务代码,通过ocr将所有可以点击的元素的位置和内容变成一个数组让文本大模型选择操作哪个元素,然后本地找到元素并进行操作。
代码标签: python WinRTOCR 调用 qwen api 文本 标签 自动化 操作 windows 电
下面为部分代码预览,完整代码请点击下载或在bfwstudio webide中打开
import os import asyncio import cv2 import pyautogui import time from winrtocr import WinRTOCR from openai import AsyncOpenAI # 如果用 Ollama,可改用 aiohttp # ========== 配置 ========== SCREENSHOT_PATH = "screenshot.png" OCR_LANG = "zh-CN" # 替换为你的大模型 API(这里以 OpenAI 兼容 API 为例,如 Ollama、DeepSeek 等) LLM_BASE_URL = "https://dashscope.aliyuncs.com/compatible-mode/v1" # Ollama 示例 LLM_API_KEY = "sk-" # Ollama 用任意字符串 LLM_MODEL = "qwen-max" # 支持中文的模型 # ========== 初始化 ========== ocr_engine = WinRTOCR() llm_client = AsyncOpenAI(base_url=LLM_BASE_URL, api_k.........完整代码请登录后点击上方下载按钮下载查看















网友评论0