python调用gemini实现自然语言让ai操作电脑完整任务agent示例代码
代码语言:python
所属分类:其他
代码描述:python调用gemini实现自然语言让ai操作电脑完整任务agent示例代码,例如我给它一个任务“打开Windows开始菜单, 搜索并打开记事本(notepad), 输入'你好, Gemini! 这是自动化测试。', 然后通过键盘快捷键Ctrl+S保存文件, 将文件保存在桌面上,文件名为'GeminiTest.txt', 最后关闭记事本。”,他就会自动点击电脑,像人类一样一步一步操作完成任务。
代码标签: python 调用 gemini 实现 自然 语言 让 ai 操作 电脑 完整 任务 agent 示
下面为部分代码预览,完整代码请点击下载或在bfwstudio webide中打开
#!/usr/bin/python3
# -*- coding: utf-8 -*
import os
import json
import time
import google.generativeai as genai
import pyautogui
from PIL import Image
import io # 导入 io 模块用于内存中的二进制流操作
class GeminiAgentOrchestrator:
"""
一个通过“观察-思考-行动”循环来自动化桌面任务的AI代理。
"""
def __init__(self, model_name="gemini-1.5-flash"):
"""
初始化Orchestrator,配置API密钥和Gemini模型。
"""
# 强烈建议使用环境变量来管理 API 密钥
# 你也可以在这里直接赋值: self.api_key = "YOUR_GOOGLE_API_KEY"
self.api_key = os.getenv("GOOGLE_API_KEY")
if not self.api_key:
raise ValueError("请设置 GOOGLE_API_KEY 环境变量, 或在代码中直接赋值。")
genai.configure(api_key=self.api_key)
self.model = genai.GenerativeModel(model_name)
self.history = []
print("✅ Gemini Agent Orchestrator 初始化成功。")
def build_prompt(self, overall_goal: str) -> str:
"""
构建并返回发送给Gemini的完整提示词。
"""
history_steps = "\n".join(f"- {step}" for step in self.history) if self.history else "无"
# 这是整个系统的“灵魂”,一个好的提示词至关重要
prompt = f"""
你是一个专业的 Windows 操作系统自动化助手。你的任务是根据用户的总体目标,逐步完成任务。
我会为你提供三部分信息:
1. [总体目标]: 任务的最终目的是什么。
2. [历史步骤]: 已经执行过的操作JSON列表,用于给你上下文。
3. [当前屏幕截图]: 当前电脑屏幕的实时画面。
你的工作是:
- 分析屏幕截图,结合总体目标和历史步骤。
- 决定出【下一个】最合理、最精确的【单步操作】。
- 必须以严格的 JSON 格式返回你的决定,不要包含任何额外的解释或 markdown 标记。
JSON 格式定义如.........完整代码请登录后点击上方下载按钮下载查看















网友评论0