python调用gemini实现自然语言让ai操作电脑完整任务agent示例代码

代码语言:python

所属分类:其他

代码描述:python调用gemini实现自然语言让ai操作电脑完整任务agent示例代码,例如我给它一个任务“打开Windows开始菜单, 搜索并打开记事本(notepad), 输入'你好, Gemini! 这是自动化测试。', 然后通过键盘快捷键Ctrl+S保存文件, 将文件保存在桌面上,文件名为'GeminiTest.txt', 最后关闭记事本。”,他就会自动点击电脑,像人类一样一步一步操作完成任务。

代码标签: python 调用 gemini 实现 自然 语言 ai 操作 电脑 完整 任务 agent

下面为部分代码预览,完整代码请点击下载或在bfwstudio webide中打开

#!/usr/local/python3/bin/python3
# -*- coding: utf-8 -*
import os
import json
import time
import google.generativeai as genai
import pyautogui
from PIL import Image

class GeminiAgentOrchestrator:
    """
    一个通过“观察-思考-行动”循环来自动化桌面任务的AI代理。
    """

    def __init__(self, model_name="gemini-1.5-pro-latest"):
        """
        初始化Orchestrator,配置API密钥和Gemini模型。
        """
        self.api_key = os.getenv("GOOGLE_API_KEY")
        if not self.api_key:
            raise ValueError("请设置 GOOGLE_API_KEY 环境变量")
        
        genai.configure(api_key=self.api_key)
        self.model = genai.GenerativeModel(model_name)
        self.history = []
        print("✅ Gemini Agent Orchestrator 初始化成功。")

    def build_prompt(self, overall_goal: str) -> str:
        """
        构建并返回发送给Gemini的完整提示词。
        """
        history_steps = "\n".join(f"- {step}" for step in self.history) if self.history else "无"

        # 这是整个系统的“灵魂”,一个好的提示词至关重要
        prompt = f"""
你是一个专业的 Windows 操作系统自动化助手。你的任务是根据用户的总体目标,逐步完成任务。

我会为你提供三部分信息:
1. [总体目标]: 任务的最终目的是什么。
2. [历史步骤]: 已经执行过的操作JSON列表,用于给你上下文。
3. [当前屏幕截图]: 当前电脑屏幕的实时画面。

你的工作是:
- 分析屏幕截图,.........完整代码请登录后点击上方下载按钮下载查看

网友评论0