微软 18K star 硬核项目开源!👍️👍️👍️
项目简介
OmniParser
是一个强大的屏幕解析工具。它就像一双智能的眼睛,能够通过屏幕截图识别并理解电脑界面上的每一个可交互元素,比如按钮、输入框、图标等等。无论是Windows弹窗、网页表单,还是Office文档编辑器,甚至是手机APP界面,还可以搭配和 GPT-4o、DeepSeek 等大模型配合进行点击、输入、拖拽等等。
性能特色
- 高精度识别:OmniParser能精准识别小至8×8像素的UI元素,识别准确率高。
- 快速响应:推理速度提升60%,延迟低,确保操作流畅。
- 多模型支持:联动GPT-4o、DeepSeek等大模型,实现多样化操作。
- 开源生态:提供Docker化开发环境,开发者友好,易于定制和扩展。
快速安装使用
1、克隆项目:打开终端,运行以下命令克隆项目到本地:
git clone https://github.com/microsoft/OmniParser.git
cd OmniParser
2、创建 Python 虚拟环境并激活:
conda create -n omni python=3.12
conda activate omni
3、安装项目所需的依赖包:
pip install -r requirements.txt
4、下载模型权重文件(确保下载到 weights
文件夹中):
for f in icon_detect/{train_args.yaml,model.pt,model.yaml} icon_caption/{config.json,generation_config.json,model.safetensors}; do huggingface-cli download microsoft/OmniParser-v2.0 "$f" --local-dir weights; done
mv weights/icon_caption weights/icon_caption_florence
5、运行 Gradio Demo 查看效果:
python gradio_demo.py
完成以上步骤后,打开浏览器访问本地服务(通常是 http://127.0.0.1:7860
),上传一张界面截图,就能看到 OmniParser 的强大功能啦!
小结
是不是觉得 OmniParser
非常厉害?它不仅能够让AI“看懂”电脑界面,还能通过联动大模型完成各种复杂的操作。这简直就是我们办公的神器!
Github地址:https://github.com/microsoft/OmniParser
cnbobo3 天前
发表在:挂机网赚 - Wipter刀哥搞个联系方式交流下呗。
365cent7 天前
发表在:Intel 免费容器 顶级配置 192核/1T内存/5T存储 无需绑卡教程不错,这就去注册
刀客24 天前
发表在:Infini & 刀客 | 联名卡上线@hj01857655:那需要重新注册了...
hj0185765525 天前
发表在:Infini & 刀客 | 联名卡上线大佬,我用的之前的兑换码注册的,怎么办
刀客1 个月前
发表在:Wipter - 全网首发 - 批量多开放大 - 保姆级教程!@cnbobo:现在不行了...之前可以...
cnbobo1 个月前
发表在:Wipter - 全网首发 - 批量多开放大 - 保姆级教程!刀哥,你是如何做到1K开,内存使用在22...
DY1 个月前
发表在:Infini & 五一小惊喜We're a group oof vo...
刀客1 个月前
发表在:Wipter - 全网首发 - 批量多开放大 - 保姆级教程!@cnbobo:E5可以不止200开. ...
刀客1 个月前
发表在:Wipter - 全网首发 - 批量多开放大 - 保姆级教程!@JK:现在Windows客户端有检测了...
cnbobo1 个月前
发表在:Wipter - 全网首发 - 批量多开放大 - 保姆级教程!@cnbobo:我E5 机器 200开,...