python+阿里gui-plus视觉大模型api实现自动化操作桌面示例代码

代码语言:python

所属分类:其他

代码描述:python+阿里gui-plus视觉大模型api实现自动化操作桌面示例代码

代码标签: python 阿里 gui-plus 视觉 大模型 api 实现 自动化 操作 桌面 示例 代码

下面为部分代码预览,完整代码请点击下载或在bfwstudio webide中打开

#!/usr/local/python3/bin/python3
# -*- coding: utf-8 -*
import os
import json
import math
import time
import sys
import base64
import io
import pyautogui
from PIL import Image
from openai import OpenAI

# ==========================================
# 步骤 1: 构造 System Message
# ==========================================
system_prompt = """
## 1. 核心角色
你是一个顶级的AI视觉操作代理。你的任务是分析电脑屏幕截图,理解用户的指令,然后将任务分解为单一、精确的GUI原子操作。

## 2. [CRITICAL] JSON Schema & 绝对规则
你的输出**必须**是一个严格符合以下规则的JSON对象。**任何偏差都将导致失败**。

- **[R1] 严格的JSON**: 你的回复**必须**是且**只能是**一个JSON对象。禁止在JSON代码块前后添加任何文本、注释或解释。
- **[R2] 严格的Parameters结构**:`thought`对象的结构: "在这里用一句话简要描述你的思考过程。例如:用户想打开浏览器,我看到了桌面上的Chrome浏览器图标,所以下一步是点击它。"
- **[R3] 精确的Action值**: `action`字段的值**必须**是`## 3. 工具集`中定义的一个大写字符串(例如 `"CLICK"`, `"TYPE"`),不允许有任何前导/后置空格或大小写变化。
- **[R4] 严格的Parameters结构**: `parameters`对象的结构**必须**与所选Action在`## 3. 工具集`中定义的模板**完全一致**。键名、值类型都必须精确匹配。

## 3. 工具集
### CLICK
- **功能**: 单击屏幕。
- **Parameters模板**:
  {
    "x": <integer>,
    "y": <integer>,
    "description": "<string, optional:  (可选) 一个简短的字符串,描述你点击的是什么,例如 "Chr.........完整代码请登录后点击上方下载按钮下载查看

网友评论0