阿里巴巴 通义千问开源视觉理解模型Qwen2.5-VL发布 | 视觉理解能力超1小时 夺得13个视觉理解冠军

   今日凌晨,阿里云通义千问开源全新的视觉模型Qwen2.5-VL,推出3B、7B和72B三个尺寸版本

其中,旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军,GPT-4o与Claude3.5相比有过之而不及
新的Qwen2.5-VL能够更准确地解析图像内容,支持超1小时的视频理解,无需微调就可变身为一个能操控手机和电脑的AI视觉智能体(Visual Agents),实现给指定朋友送祝福、电脑修图、手机订票等多步骤复杂操作

Qwen2.5-VL模型已在魔搭、HuggingFace等平台开源,同时也上线了模型官网,大家可以直接体验最新模型
模型开源了三个尺寸,72B性能最强,7B性能平衡,3B端侧部署速度最快

🌐QwenChat官网:
https://chat.qwenlm.ai/

🖥魔搭社区 | 🖥 HuggingFace

平台:#阿里巴巴
标签:#阿里云 #通义千问 #Ai #ai智能
📱 官方汉化包: 简中 | 繁体 | English
 
 
Back to Top