python调用openai兼容api实现视觉识别坐标完成自动化操作电脑示例代码-python代码-BFW代码库

python调用openai兼容api实现视觉识别坐标完成自动化操作电脑示例代码

代码语言：python

所属分类：其他

代码描述：python调用openai兼容api实现视觉识别坐标完成自动化操作电脑示例代码，具体步骤：1. 用户输入任务。2. 截取当前屏幕，3. 将截图和任务描述发送给OpenAI Vision API。 4. OpenAI分析截图和任务，规划下一步操作（例如点击某个坐标、输入文本）。它会以特定的JSON格式返回操作指令。5. 解析OpenAI的指令，使用`pyautogui`模拟鼠标点击或键盘输入。** 6. 重复2-5步，直到OpenAI指示任务完成。

代码标签： python 调用 openai 兼容 api 视觉识别坐标完成自动化操作电脑示例代

下面为部分代码预览，完整代码请点击下载或在bfwstudio webide中打开

#!/usr/local/python3/bin/python3
# -*- coding: utf-8 -*
#pip install openai pyautogui mss Pillow

#`openai`: 用于与OpenAI API交互。
# `pyautogui`: 用于模拟鼠标和键盘操作。
# `mss`: 更高效的屏幕截图库。
#`Pillow`: 处理图像（`mss`通常配合它使用）。

#2.  **获取OpenAI API Key：**
#在 OpenAI 官网 ([https://platform.openai.com/](https://platform.openai.com/)) 获取你的 API Key。

# **MacOS 用户额外设置：**
#确保Python和你的终端应用有“辅助功能”和“屏幕录制”权限：`系统设置` -> `隐私与安全性` -> `辅助功能` / `屏幕录制`，找到你的终端或IDE并勾选。
#如果遇到`pyautogui`错误，可能需要安装`opencv-python`: `pip install opencv-python`

import base64
import json
import time
import pyautogui
import mss
from openai import OpenAI
import re
import os

# --- 配置 ---
OPENAI_API_KEY = os.environ.get("OPENAI_API_KEY") # 建议通过环境变量设置
if not OPENAI_API_KEY:
    print("WARNING: OPENAI_API_KEY not found in environment variables.")
    OPENAI_API_KEY = "YOUR_OPENAI_API_KEY_HERE" # 如果没有环境变量，请直接在这里替换你的API Key

OPENAI_MODEL = "gpt-4o"  # 或 "gpt-4-turbo" (推荐gpt-4o，更具视觉理解能力)

# PyAutoGUI 的一些设置
# pyautogui.FAILSAFE = True  # 启用安全模式，将鼠标移动到屏幕左上角会停止程序
pyautogui.PAUSE = 0.5    # 每个pyautogui调用后暂停的时间，方便观察

# --- 初始化 OpenAI 客户端 ---
client = OpenAI(api_key=OPENAI_API_KEY)

#.........完整代码请登录后点击上方下载按钮下载查看