python+WinRTOCR调用qwen api实现文本标签式自动化操作windows电脑完成任务代码

代码语言:python

所属分类:其他

代码描述:python+WinRTOCR调用qwenapi实现文本标签式自动化操作windows电脑完成任务代码,通过ocr将所有可以点击的元素的位置和内容变成一个数组让文本大模型选择操作哪个元素,然后本地找到元素并进行操作。

代码标签: python WinRTOCR 调用 qwen api 文本 标签 自动化 操作 windows

下面为部分代码预览,完整代码请点击下载或在bfwstudio webide中打开

import os
import asyncio
import cv2
import pyautogui
import time
from winrtocr import WinRTOCR
from openai import AsyncOpenAI  # 如果用 Ollama,可改用 aiohttp

# ========== 配置 ==========
SCREENSHOT_PATH = "screenshot.png"
OCR_LANG = "zh-CN"
# 替换为你的大模型 API(这里以 OpenAI 兼容 API 为例,如 Ollama、DeepSeek 等)
LLM_BASE_URL = "https://dashscope.aliyuncs.com/compatible-mode/v1"  # Ollama 示例
LLM_API_KEY = "sk-"  # Ollama 用任意字符串
LLM_MODEL = "qwen-max"   # 支持中文的模型

# ========== 初始化 ==========
ocr_engine = WinRTOCR()
llm_client = AsyncOpenAI(base_url=LLM_BASE_URL, api_k.........完整代码请登录后点击上方下载按钮下载查看

网友评论0