2024年12月25日,通义千问团队宣布,基于Qwen2-VL-72B构建,推出业界首个开源多模态推理模型QVQ-72B-Preview,显著超越此前阿里云最强开源视觉模型Qwen2-VL-72B,且有效缩小了与其他模型之间的差距,部分评测项甚至有所超越,总体表现与闭源模型满血版OpenAI o1、Claude3.5 Sonnet等推理模型相当。
QVQ“上新”一周后的12月31日,阿里云宣布了年度第三轮大模型降价,通义千问视觉理解模型全线降价超80%。其中Qwen-VL-Plus直降81%,输入价格仅为0.0015元/千tokens,创下全网最低价格;更高性能的Qwen-VL-Max降至0.003元/千tokens,降幅高达85%。
Qwen-VL是阿里云百炼平台增长最快的模型,它能识别不同分辨率和长宽比的图片,能理解20分钟以上长视频,还具备自主操作手机和机器人的视觉智能体能力,可应用于手机、汽车等各类终端视觉识别场景。按照最新价格,1块钱可最多处理约600张720P图片,或1700张480P图片,大幅降低了用户预算。
据HuggingFace发布的2024年年度盘点数据,Qwen2.5-1.5B-Instruct的下载量占比高达26.6%,超过Llama3、Gemma等知名开源模型,证明了其在当前时间节点的强大生命力和发展潜力。
以下为详细解读: