引言：从“死板 RPA”到“具身智能（Embodied AI）”

在电脑自动化领域，我们经历过两个时代：

而在 2026 年的 AI 时代，我们迎来了第三次范式跃迁：GUI Agent（图形用户界面智能体）。

 得益于多模态大模型（VLM）的爆发，AI 终于长出了“眼睛”。它不再依赖底层的 API 接口或死板的坐标，而是

像人类一样，通过“看”屏幕截图来理解界面，并自主决定鼠标点哪里、键盘敲什么

。你只需用自然语言下达指令，它就能自己看着屏幕，帮你完成复杂的跨软件操作。

一、 核心技术栈：屏幕感知 + 坐标映射 + 动作执行

构建一个 GUI Agent，核心在于打通“视觉理解”到“物理操作”的闭环：

二、 实战演练：构建“看着屏幕操作”的 AI 助手

我们将编写一个 Agent，给它下达一个模糊的指令（例如：“帮我打开系统计算器，计算 89 乘以 45”），它会自主截图、寻找计算器图标、点击打开、输入算式并回车。

# 安装屏幕控制与图像处理库
pip install pyautogui pillow mss openai python-dotenv


注：macOS 用户需在“系统设置 -> 隐私与安全性 -> 辅助功能”中赋予终端或 Python 控制电脑的权限。

 文件（必须使用支持视觉的多模态模型，如 GPT-4o 或通义千问 VL）：

OPENAI_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxxx
OPENAI_BASE_URL=https://api.openai.com/v1


import os
import time
import base64
import pyautogui
import mss
from io import BytesIO
from dotenv import load_dotenv
from openai import OpenAI
import json
import re

load_dotenv()
client = OpenAI()

# 降低 PyAutoGUI 的默认暂停时间，让操作更流畅
pyautogui.PAUSE = 0.5 
# 开启故障保护（鼠标移到屏幕角落时强制中断程序）
pyautogui.FAILSAFE = True 

# ==========================================
# 1. 屏幕感知：极速截图与编码
# ==========================================
def take_screenshot():
    """使用 mss 进行极速全屏截图并转为 Base64"""
    with mss.mss() as sct:
        # 抓取主显示器
        monitor = sct.monitors[1] 
        sct_img = sct.grab(monitor)
        
        # 转换为 PIL Image 并压缩（防止 Token 超标）
        img = sct_img.rgb
        from PIL import Image
        pil_img = Image.frombytes('RGB', sct_img.size, img)
        # 将图片缩放到合适大小，保持比例
        pil_img.thumbnail((1280, 720)) 
        
        buffered = BytesIO()
        pil_img.save(buffered, format="JPEG", quality=75)
        return base64.b64encode(buffered.getvalue()).decode('utf-8'), pil_img.size

# ==========================================
# 2. AI 大脑：多模态意图理解与坐标规划
# ==========================================
def ai_plan_action(task: str, img_base64: str, img_size: tuple):
    """让多模态大模型看屏幕，并输出下一步操作"""
    
    system_prompt = f"""
    你是一个桌面 GUI 自动化专家。你将收到一张当前电脑屏幕的截图（分辨率为 {img_size[0]}x{img_size[1]}）。
    请根据用户的【任务目标】，观察屏幕，决定下一步的鼠标或键盘操作。
    
    【可用动作】:
    1. click: 鼠标左键点击。参数: x, y (图片上的像素坐标)
    2. type: 键盘输入文本。参数: text
    3. hotkey: 组合键。参数: keys (如 ['command', 'space'] 或 ['ctrl', 'c'])
    4. wait: 等待界面加载。参数: seconds
    5. done: 任务已完成。
    
    【输出要求】:
    必须且只能输出一个合法的 JSON 对象，包含 "action" 和 "params"。
    例如: {{"action": "click", "params": {{"x": 500, "y": 300}}}}
    不要输出任何解释或 Markdown 标记。
    """
    
    response = client.chat.completions.create(
        model="gpt-4o", # 必须使用视觉模型
        messages=[
            {"role": "system", "content": system_prompt},
            {"role": "user", "content": [
                {"type": "text", "text": f"任务目标: {task}"},
                {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{img_base64}"}}
            ]}
        ],
        temperature=0.1,
        max_tokens=300
    )
    
    content = response.choices[0].message.content.strip()
    # 清洗可能存在的 markdown 代码块标记
    content = re.sub(r'```json\n|```', '', content).strip()
    return json.loads(content)

# ==========================================
# 3. 物理执行：坐标映射与动作路由
# ==========================================
def execute_action(action_plan: dict, img_size: tuple):
    """将 AI 规划的相对坐标映射为物理屏幕坐标并执行"""
    action = action_plan.get("action")
    params = action_plan.get("params", {})
    
    # 获取真实物理屏幕分辨率
    screen_w, screen_h = pyautogui.size()
    
    if action == "click":
        # 核心：坐标映射 (图片坐标 -> 物理屏幕坐标)
        real_x = int((params["x"] / img_size[0]) * screen_w)
        real_y = int((params["y"] / img_size[1]) * screen_h)
        print(f"🖱️ 执行点击: 物理坐标 ({real_x}, {real_y})")
        pyautogui.click(real_x, real_y)
        
    elif action == "type":
        print(f"⌨️ 执行输入: {params['text']}")
        pyautogui.write(params["text"], interval=0.05)
        
    elif action == "hotkey":
        print(f"⚡ 执行快捷键: {'+'.join(params['keys'])}")
        pyautogui.hotkey(*params["keys"])
        
    elif action == "wait":
        print(f"⏳ 等待 {params.get('seconds', 1)} 秒...")
        time.sleep(params.get("seconds", 1))
        
    elif action == "done":
        print("✅ 任务完成！")
        return True
        
    return False

# ==========================================
# 4. 主循环：感知-决策-执行 (Agent Loop)
# ==========================================
def run_agent(task: str, max_steps=10):
    print(f"🚀 启动 GUI Agent，任务: {task}\n")
    print("⚠️ 警告: 请在 3 秒内将鼠标移到屏幕边缘以防失控 (故障保护)...")
    time.sleep(3)
    
    for step in range(1, max_steps + 1):
        print(f"\n--- 步骤 {step} ---")
        
        # 1. 感知 (截图)
        img_base64, img_size = take_screenshot()
        
        # 2. 决策 (AI 看图规划)
        try:
            plan = ai_plan_action(task, img_base64, img_size)
            print(f"🧠 AI 决策: {plan}")
        except Exception as e:
            print(f"❌ AI 解析失败: {e}")
            break
            
        # 3. 执行 (物理操作)
        is_done = execute_action(plan, img_size)
        if is_done:otterly.cn
            break
            
        # 给系统一点渲染时间
        time.sleep(1) 

if __name__ == "__main__":
    # 测试任务：打开 Mac 的 Spotlight 搜索，输入 calculator 打开计算器，并输入算式
    # (Windows 用户可改为: "按 Win 键，输入 calc 回车，然后计算 89*45")
    user_task = "帮我打开系统的计算器应用，然后输入 89*45 并按下等号。"
    
    run_agent(user_task, max_steps=8)


运行脚本后，你会看到极其魔幻的一幕：

整个过程无需任何底层 API 接入，完全基于“视觉理解”。

三、 从“玩具”到“企业级 RPA”的 4 个高阶策略

上面的代码展示了 GUI Agent 的最小闭环（感知-决策-执行）。但在真实的商业和极客场景中，直接让 AI 看全屏截图存在

等问题。你需要掌握以下高阶技术：

1. 引入 Set-of-Mark (SoM) 视觉提示技术

直接让大模型输出绝对坐标（如 

：在截图送给 AI 之前，用 Python（结合 

 或 UIAutomation 库）识别出屏幕上所有可点击的按钮和输入框，给它们

（如 [1] 确认按钮, [2] 取消按钮）。然后让 AI 输出 

。这能将点击准确率从 70% 飙升到 99%！

2. 构建“局部感知”与“动态裁剪”

全屏截图（1080p/4K）不仅 Token 消耗巨大，还会让 AI 产生“注意力分散”。 

。当任务是“在浏览器中填写表单”时，Python 自动截取当前活动窗口的局部区域，甚至只截取表单所在的 DOM 区块送给 AI。这能让响应速度提升 5 倍以上。

3. 多 Agent 协同：规划者 vs 执行者

让一个模型既做“宏观任务拆解”又做“微观像素点击”，容易导致上下文混乱。 

4. 兜底机制：结合 Accessibility API (无障碍接口)

纯视觉方案在遇到“文字重叠”或“弹窗遮挡”时会死锁。 

 调用 Accessibility API，在 Windows 上使用 

。当视觉 Agent 连续两次点击失败时，自动降级（Fallback）到读取系统的无障碍 DOM 树，通过控件 ID 直接进行底层操作，实现“视觉 + 底层”的双保险。

结语：GUI Agent 是通向 AGI 的必经之路

当我们谈论 AI 改变世界时，很多人想到的是生成文章或画图。但

真正的生产力革命，在于 AI 能否像人类一样操作现有的数字世界

GUI Agent 赋予了 AI 跨越软件壁垒的能力。它不需要目标软件提供 API，不需要编写脆弱的 XPath，只要人类能看懂的界面，它就能操作。这意味着，你过去十年积累的所有内部老系统、复杂的 ERP 软件、甚至没有接口的网银系统，都能在几天内被 AI 自动化接管。

现在，给你的 Python 脚本赋予“视觉”，让 AI 替你完成那些枯燥的“点点点”工作吧。未来的电脑，不再是人类操作的工具，而是 AI 施展拳脚的舞台。

而在 2026 年的 AI 时代，我们迎来了第三次范式跃迁：GUI Agent（图形用户界面智能体）。 得益于多模态大模型（VLM）的爆发，AI 终于长出了“眼睛”。它不再依赖底层的 API 接口或死板的坐标，而是像人类一样，通过“看”屏幕截图来理解界面，并自主决定鼠标点哪里、键盘敲什么。这就是目前科技界最火的 Computer Use（电脑控制） 技术。

极客实战：让 AI 长出“眼睛”和“手”，用 Python 打造桌面级 GUI Agent

架构设计

探索2026年AI时代的GUIAgent技术，通过多模态大模型实现电脑自动化控制。文章详细解析了从屏幕感知到动作执行的技术闭环，并提供了Python实战代码，教你打造能"看"屏幕操作的AI助手。涵盖核心技术栈、坐标映射、高阶优化策略，以及从玩具级到企业级RPA的进阶方案，为自动化办公和跨软件操作提供革命性解决方案。

图像识别

图像处理

智能体

Windows

路由

Python

Agent

JSON

YOLO

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

极客实战：让 AI 长出“眼睛”和“手”，用 Python 打造桌面级 GUI Agent

极客实战：让 AI 长出“眼睛”和“手”，用 Python 打造桌面级 GUI Agent

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐