本地部署 Qwen2.5-VL 最强的开源视觉大模型!完全免费,相当的给力!!

Qwen2.5-VL 是 Qwen 推出的全新旗舰视觉语言模型,较其前身 Qwen2-VL 有了重大飞跃。该模型不仅能够掌握花、鸟、鱼和昆虫等常见物体的识别,还能分析图像中的复杂文本、图表、图标、图形和布局,为多模态 AI 树立了新标准。

59c929c75e20250214024742

此外,Qwen2.5-VL 被设计为高度代理,并且能够进行动态推理和工具指导——无论是在计算机还是手机上使用。

图片[2]-本地部署 Qwen2.5-VL 最强的开源视觉大模型!完全免费,相当的给力!!-零度博客

该模型的高级功能包括能够理解长度超过一小时的视频、精确定位其中的特定事件,并通过生成边界框或点来准确定位图像中的对象。它还为坐标和属性提供稳定的 JSON 输出,确保需要结构化数据的任务的准确性。

此外,Qwen2.5-VL 支持扫描文档(如发票、表格和表格)的结构化输出,这对金融和商业等行业非常有益。

Qwen2.5 VL 基准和比较。

旗舰模型 Qwen2.5-VL-72B-Instruct 在各种基准测试中均表现出色,展现了其处理各种领域和任务的多功能性。它的表现优于Gemini 2 Flash、GPT-4o和Claude 3.5 Sonnet等领先模型,巩固了其作为顶级视觉语言模型的地位。

本地部署 Qwen2.5-VL :

电脑上先安装好 GitPython 环境,没有的可以自行先去安装, 我用的是Python 3.10.6 版本【点击下载

1.首先克隆 Qwen2.5-VL GitHub 存储库并导航到项目目录:

git clone https://github.com/QwenLM/Qwen2.5-VL

cd Qwen2.5-VL

2.使用以下命令安装 Web 应用程序所需的依赖项:

pip install -r requirements_web_demo.txt

3. 为确保与 GPU 兼容,请安装支持 CUDA 的最新版本的 PyTorch、TorchVision 和 TorchAudio。即使已经安装了 PyTorch,您在运行 Web 应用程序时也可能会遇到问题,因此最好更新:

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124

4. 更新 Gradio 和 Gradio Client 以避免连接和 UI 相关的错误,因为旧版本可能会导致问题:

pip install -U gradio gradio_client

5.下方是模型的下载安装,总共有3个选项:

较小的 3B 模型,建议在 GPU 内存有限的笔记本电脑(例如 8GB VRAM)上使用。

python web_demo_mm.py --checkpoint-path "Qwen/Qwen2.5-VL-3B-Instruct"

显存高于8G的可以选择7B模型,性能更强、效果更好!

python web_demo_mm.py --checkpoint-path "Qwen/Qwen2.5-VL-7B-Instruct"

如果是土豪,手里有专业级别的GPU,那么可以直接上72B的最大模型,性能直冲天花板!

python web_demo_mm.py --checkpoint-path "Qwen/Qwen2.5-VL-72B-Instruct"

我们可以看到,它首先下载了模型,然后加载了处理器和模型,

图片[4]-本地部署 Qwen2.5-VL 最强的开源视觉大模型!完全免费,相当的给力!!-零度博客

现在只需在浏览器上打开本地链接 http://127.0.0.1:7860 就可以正常使用!

图片[5]-本地部署 Qwen2.5-VL 最强的开源视觉大模型!完全免费,相当的给力!!-零度博客

6. 您可以上传带有文本和多个图形的图像,并让模型对其进行解释。即使是较小的 3B 模型也表现出令人印象深刻的性能,可以识别图像中的复杂细节。

图片[6]-本地部署 Qwen2.5-VL 最强的开源视觉大模型!完全免费,相当的给力!!-零度博客

当然如果你的电脑硬件不支持,那么可以直接使用官方的免费平台来使用,当然免费平台是共享GPU,有额度限制。唯一的好处可以直接免费使用 Qwen 2.5 VL 最强的78B模型! Qwen 2.5 VL 免费官方平台点击前往

下方是我的实测效果,非常给力:

图片[7]-本地部署 Qwen2.5-VL 最强的开源视觉大模型!完全免费,相当的给力!!-零度博客

Qwen2.5-VL 3个完整开源版本已经托管在hugging face上,需要的可以自行去下载

开源模型:【点击前往

1396ab257720250214024437

 

如果关闭后下次打开的话,只需通过下方的命令即可重新启动:

注意替换自己的模型

cd Qwen2.5-VL
python web_demo_mm.py --checkpoint-path "Qwen/Qwen2.5-VL-7B-Instruct"
THE END
喜欢就支持一下吧
点赞1621 分享
相关推荐
Windows 11 系统官方正版 iSO镜像下载!中英文官网地址-零度博客

Windows 11 系统官方正版 iSO镜像下载!中英文官网地址

  Windows 11 系统 官方最 iSO镜像下载: 英文官网:【点击前往】 中文官网:【简体】【繁体】 注意:推荐英文官网下载,内置专业工作站版
admin的头像-零度博客admin
2.1W+1682
【零度电脑】硬件配置、视频制作、相机、麦克风、声卡、视频编辑、流程和宝贵经验等!-零度博客

【零度电脑】硬件配置、视频制作、相机、麦克风、声卡、视频编辑、流程和宝贵经验等!

助力创作者快速起航!零度UP主成长指南想成为视频创作者却不知从何入手?零度总结的实战经验,帮你省时省钱,赢在起跑线!核心服务:✅ 硬件配置:高性价比CPU/显卡/声卡/显示器搭配指南✅ 拍...
如何在Edge浏览器上使用 ChatGPT  提供最新支持的 Bing-零度博客

如何在Edge浏览器上使用 ChatGPT 提供最新支持的 Bing

微软刚刚发布了由 ChatGPT 提供支持的新版 Bing。 改进后的 Bing 从今天开始提供有限预览。 您可以将您的名字列入等候名单,立即试用新的 Bing。 如果您将 PC 和浏览器设置为默认使用 Microsoft...
admin的头像-零度博客admin
1.3W+6539
初代iPhone发布15周年,盘点第一代所没有的15项功能!-零度博客

初代iPhone发布15周年,盘点第一代所没有的15项功能!

本周日,是史蒂夫·乔布斯在旧金山的 Macworld 博览会上介绍初代 iPhone 的 15 周年。虽然该设备彻底改变了智能手机行业,但人们很容易忘记 iPhone 从那时起有了多大的改进。为庆祝这一时刻的到...
admin的头像-零度博客admin
1.5W+2251
搭建【零度博客】的同款网站!功能、风格完全一样,含支付对接功能!-零度博客

搭建【零度博客】的同款网站!功能、风格完全一样,含支付对接功能!

如果你想搭建和零度博客一模一样的网站,那么可以直接下单,由零度亲自为你搭建 费用包含:网站程序源码、插件、美化、支付充值插件、人工等 下单购买后,零度会在48小时内帮你搭建成功,安全有...
5个超实用的 Stable Diffusion 大模型!堪称AI绘画必备的神器!! | 零度解说-零度博客

5个超实用的 Stable Diffusion 大模型!堪称AI绘画必备的神器!! | 零度解说

https://youtu.be/3rCO8ulbkLk ====================   1.容华国风大模型下载 :https://bittly.cc/bMtsI 2.超逼真的人物模型下载: https://bittly.cc/oDPXg 3.EpiCRealism 冠军级真人模...
admin的头像-零度博客admin
1.7W+1682
office E5 账号注册链接 和 注意事项-零度博客

office E5 账号注册链接 和 注意事项

  (1)E5申请链接【点击前往】 进入以后,这里建议大家根据自己真实情况进行选择所在的国家或地区 若中途因已登录账号而出现奇怪的问题,可以使用浏览器隐私模式(推荐edge chromium版)...
admin的头像-零度博客admin
1.9W+6540
免费白嫖 Deepseek R1 满血版!这10个平台可以收藏-零度博客

免费白嫖 Deepseek R1 满血版!这10个平台可以收藏

 腾讯元宝:【链接直达】英伟达:【链接直达】百度:【链接直达】Deepinfra:【链接直达】Flowith:【链接直达】Lambda:【链接直达】有道:【链接直达】天工ai:【链接直达】华为小艺ai网页版...
浏览器网页长截图插件 GoFullPage,轻松实现全屏截图!-零度博客

浏览器网页长截图插件 GoFullPage,轻松实现全屏截图!

完整且可靠地捕获当前页面的屏幕截图——无需请求任何额外权限! 下载方式: 1、Chrome 插件【网页长截图】 2、Edge 插件 【网页长截图】
admin的头像-零度博客admin
2.1W+3251