DeepSeek等秒变操控电脑AI智能体,微软开源用具OmniParser V2.0发布
发布日期:2025-02-20 08:53 点击次数:178
为了粗略更快地推行不同的智能体建造,微软还开源了OmniTool。
IT之家 2 月 17 日音信,微软 OmniParser 是一款基于纯视觉的 GUI 智能体领路和识别屏幕上可交互图处所 AI 用具,此前搭配 GPT-4V 可显耀增强识别智商。
2 月 12 日,微软在官网发布了 OmniParser 最新版块 V2.0,可将 OpenAI(4o / o1 / o3-mini)、DeepSeek(R1)、Qwen(2.5VL)和 Anthropic(Sonnet)等模子,形成不错操控测度机的 AI 智能体。
与 V1 版块比拟,OmniParser V2 使用了更大界限的交互元素检测数据和图标功能标题数据进行了磨砺,在检测较小的可交互 UI 元素时准确率更高、推理速率更快,现货白银交易延长裁汰了 60%。
在高差异率 Agent 基准测试 ScreenSpot Pro 中,V2+GPT-4o 的准确率达到了 39.6%,而 GPT-4o 原始准确率只消 0.8%。
为了粗略更快地推行不同的智能体建造,微软还开源了 OmniTool,这是一个集成了智能体所需一系列基本用具的 Docker 化 Windows 系统,涵盖屏幕长入、定位、作为野心和实施等功能,亦然将大模子形成智能体的关节用具。
IT之家附开源地址:
https://github.com/microsoft/OmniParser
上一篇:对“马斯克总统”的说法怎么看?特朗普一席话,马斯克听了常常点头
下一篇:新股音信 | 沪鸽冲刺港交所 为国内最大的口腔临床类材料制造商