python+ Umi-OCR调用qwen api实现文本标签式自动化操作windows电脑完成任务代码

代码语言:python

所属分类:其他

代码描述:python+ Umi-OCR调用qwen api实现文本标签式自动化操作windows电脑完成任务代码,通过ocr将所有可以点击的元素的位置和内容变成一个数组让文本大模型选择操作哪个元素,然后本地找到元素并进行操作。

代码标签: python Umi-OCR 调用 qwen api 文本 标签 自动化 操作 windows

下面为部分代码预览,完整代码请点击下载或在bfwstudio webide中打开

import os
import time
import base64
import json
import ctypes
import asyncio
import datetime
import shutil
import re
import requests  # 新增:用于调用 Umi-OCR API
from PIL import Image, ImageGrab, ImageDraw, ImageFont
import pyautogui
import pyperclip
from openai import OpenAI
import cv2
import numpy as np

# ================= 配置 =================
# Umi-OCR API 地址 (请确保 Umi-OCR 软件已启动并开启了 HTTP 服务)
UMI_OCR_URL = "http://127.0.0.1:1224/api/ocr"

OPENAI_API_KEY = "sk-"  # 替换为你的 DashScope API Key
client = OpenAI(
    api_key=OPENAI_API_KEY,
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1"
)

pyautogui.FAILSAFE = True
pyautogui.PAUSE = 0.3

# ================= DPI 修复 =================
try:
    ctypes.windll.shcore.SetProcessDpiAwareness(1)
except Exception:
    ctypes.windll.user32.SetProcessDPIAware()

# ================= 图像增强 (可选) =================
def enhance_image_for_ocr(input_path, output_path).........完整代码请登录后点击上方下载按钮下载查看

网友评论0