python+Umi-OCR调用qwen-vl的api实现数字标注式自动化操作windows电脑完成任务代码

代码语言:python

所属分类:其他

代码描述:python+Umi-OCR调用qwen-vl的api实现数字标注式自动化操作windows电脑完成任务代码,通过ocr将所有可以点击的元素的位置进行标注形成新的图片然后发送给视觉大模型api进行选择并返回第几个元素,怎么操作。

代码标签: python Umi-OCR 调用 qwen-vl api 数字 标注 自动化 操作 windows

下面为部分代码预览,完整代码请点击下载或在bfwstudio webide中打开

import os
import time
import base64
import json
import ctypes
import asyncio
import datetime
import shutil
import re
import requests  # 新增:用于调用 Umi-OCR API
from PIL import Image, ImageGrab, ImageDraw, ImageFont
import pyautogui
import pyperclip
from openai import OpenAI
import cv2
import numpy as np

# ================= DPI 修复 =================
try:
    ctypes.windll.shcore.SetProcessDpiAwareness(1)
except Exception:
    ctypes.windll.user32.SetProcessDPIAware()

# ================= 配置 =================
OPENAI_API_KEY = "sk-"  # 替换为你的 DashScope API Key
client = OpenAI(
    api_key=OPENAI_API_KEY,
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1"
)

# Umi-OCR 配置
UMI_OCR_URL = "http://127.0.0.1:1224/api/ocr"

pyautogui.FAILSAFE = True
pyautogui.PAUSE = 0.3

# ================= 截图工具 =================
def take_screenshot(path="screen.png"):
    screenshot = ImageG.........完整代码请登录后点击上方下载按钮下载查看

网友评论0