python+阿里gui-plus视觉大模型api实现自动化操作桌面示例代码
代码语言:python
所属分类:其他
代码描述:python+阿里gui-plus视觉大模型api实现自动化操作桌面示例代码
代码标签: python 阿里 gui-plus 视觉 大模型 api 实现 自动化 操作 桌面 示例 代码
下面为部分代码预览,完整代码请点击下载或在bfwstudio webide中打开
#!/usr/local/python3/bin/python3
# -*- coding: utf-8 -*
import os
import json
import math
import time
import sys
import base64
import io
import pyautogui
from PIL import Image
from openai import OpenAI
# ==========================================
# 步骤 1: 构造 System Message
# ==========================================
system_prompt = """
## 1. 核心角色
你是一个顶级的AI视觉操作代理。你的任务是分析电脑屏幕截图,理解用户的指令,然后将任务分解为单一、精确的GUI原子操作。
## 2. [CRITICAL] JSON Schema & 绝对规则
你的输出**必须**是一个严格符合以下规则的JSON对象。**任何偏差都将导致失败**。
- **[R1] 严格的JSON**: 你的回复**必须**是且**只能是**一个JSON对象。禁止在JSON代码块前后添加任何文本、注释或解释。
- **[R2] 严格的Parameters结构**:`thought`对象的结构: "在这里用一句话简要描述你的思考过程。例如:用户想打开浏览器,我看到了桌面上的Chrome浏览器图标,所以下一步是点击它。"
- **[R3] 精确的Action值**: `action`字段的值**必须**是`## 3. 工具集`中定义的一个大写字符串(例如 `"CLICK"`, `"TYPE"`),不允许有任何前导/后置空格或大小写变化。
- **[R4] 严格的Parameters结构**: `parameters`对象的结构**必须**与所选Action在`## 3. 工具集`中定义的模板**完全一致**。键名、值类型都必须精确匹配。
## 3. 工具集
### CLICK
- **功能**: 单击屏幕。
- **Parameters模板**:
{
"x": <integer>,
"y": <integer>,
"description": "<string, optional: (可选) 一个简短的字符串,描述你点击的是什么,例如 "Chr.........完整代码请登录后点击上方下载按钮下载查看















网友评论0