python调用gemini实现自然语言让ai操作电脑完整任务agent示例代码-python代码-BFW代码库

python调用gemini实现自然语言让ai操作电脑完整任务agent示例代码

代码语言：python

所属分类：其他

代码描述：python调用gemini实现自然语言让ai操作电脑完整任务agent示例代码，例如我给它一个任务“打开Windows开始菜单, 搜索并打开记事本(notepad), 输入'你好, Gemini! 这是自动化测试。', 然后通过键盘快捷键Ctrl+S保存文件, 将文件保存在桌面上，文件名为'GeminiTest.txt', 最后关闭记事本。”，他就会自动点击电脑，像人类一样一步一步操作完成任务。

代码标签： python 调用 gemini 实现自然语言让 ai 操作电脑完整任务 agent 示

下面为部分代码预览，完整代码请点击下载或在bfwstudio webide中打开

#!/usr/bin/python3
# -*- coding: utf-8 -*
import os
import json
import time
import google.generativeai as genai
import pyautogui
from PIL import Image
import io  # 导入 io 模块用于内存中的二进制流操作

class GeminiAgentOrchestrator:
    """
    一个通过“观察-思考-行动”循环来自动化桌面任务的AI代理。
    """

    def __init__(self, model_name="gemini-1.5-flash"):
        """
        初始化Orchestrator，配置API密钥和Gemini模型。
        """
        # 强烈建议使用环境变量来管理 API 密钥
        # 你也可以在这里直接赋值: self.api_key = "YOUR_GOOGLE_API_KEY"
        self.api_key = os.getenv("GOOGLE_API_KEY") 
        if not self.api_key:
            raise ValueError("请设置 GOOGLE_API_KEY 环境变量, 或在代码中直接赋值。")
        
        genai.configure(api_key=self.api_key)
        self.model = genai.GenerativeModel(model_name)
        self.history = []
        print("✅ Gemini Agent Orchestrator 初始化成功。&.........完整代码请登录后点击上方下载按钮下载查看