python+WinRTOCR调用qwen-vl的api实现数字标注式自动化操作windows电脑完成任务代码

代码语言:python

所属分类:其他

代码描述:python+WinRTOCR调用qwen-vl的api实现数字标注式自动化操作windows电脑完成任务代码,通过ocr将所有可以点击的元素的位置进行标注形成新的图片然后发送给视觉大模型api进行选择并返回第几个元素,怎么操作。

代码标签: python WinRTOCR 调用 qwen-vl api 数字 标注 自动化 操作 window

下面为部分代码预览,完整代码请点击下载或在bfwstudio webide中打开

import os
import time
import base64
import json
import ctypes
import asyncio
import datetime
import shutil
import re
from PIL import Image, ImageGrab, ImageDraw, ImageFont
import pyautogui
import pyperclip
from winrtocr import WinRTOCR
from openai import OpenAI
import cv2
import numpy as np
from PIL import Image

def enhance_image_for_ocr(input_path, output_path):
    """
    对截图进行 OCR 友好化处理:
    - 转灰度
    - 二值化(增强对比)
    - 去噪
    - 可选:锐化、放大
    """
    # 1. 读取图像(BGR)
    img = cv2.imread(input_path)
    if img is None:
        raise FileNotFoundError(f"无法读取图像: {input_path}")

    # 2. 转灰度
    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

    # 3. 【可选】放大图像(对小字有效)
    scale_factor = 1.5
    gray = cv2.resize(gray, None, fx=scale_factor, fy=scale_factor, interpolation=cv2.INTER_CUBIC)

    # 4. 二值化(强烈推荐!)
    # 方法1:自适应阈值(适合光照不均)
    binary = cv2.adaptiveThreshold(
        gray, 255,
        cv2.ADAPTIVE_THRESH_GAUSSIAN_C,
        cv2.THRESH_BINARY,
        blockSize=15,  # 必须是奇数,越大越平滑
        C=5            # 调整偏移,可尝试 3~10
    )

    # 方法2:全局阈.........完整代码请登录后点击上方下载按钮下载查看

网友评论0