阿里通义千问推出视觉推理模型QVQ-Max

as22 · 发表于 2025-3-28 14:17:35

您需要登录才可以下载或查看，没有账号？立即注册

×

3月38日，通义千问宣布正式推出 QVQ-Max 视觉推理模型的第一版。

这一新版本的模型具备强大的多模态处理能力，它不仅能够“看懂”图片和视频里的内容，还能结合这些信息进行分析、推理，甚至给出解决方案。从数学题到生活小问题，从编程代码到艺术创作，QVQ-Max 都表现出了不俗的能力。

QVQ-Max 的能力可以总结为三个方面：细致观察、深入推理和灵活应用。下面分别来说说它在这些方面的表现。

细致观察：抓住每一个细节

QVQ-Max 对图片的解析能力非常强，无论是复杂的图表还是日常生活中随手拍的照片，它都能快速识别出关键元素。比如，它可以告诉你一张照片里有哪些物品、有什么文字标识，甚至还能指出一些你可能忽略的小细节。

深入推理：不只是“看到”，还要“想到”

仅仅识别出图片里的内容还不够，QVQ-Max 还能进一步分析这些信息，并结合背景知识得出结论。例如，在一道几何题中，它可以根据题目附带的图形推导出答案；在一段视频里，它能根据画面内容推测出接下来可能发生的情节。

灵活应用：从解答问题到创作

除了分析和推理，QVQ-Max 还能做一些有趣的事情，比如帮你设计插画、生成短视频脚本，甚至根据你的需求创作角色扮演的内容。如果你上传一幅草稿，它可能会帮你完善成一幅完整的作品；上传一个日常照片，它可以化身犀利的评论家，占卜师。

QVQ-Max 的应用范围很广，无论是在学习、工作还是日常生活中，它都能派上用场：

职场工具：在工作中，QVQ-Max 可以协助完成数据分析、信息整理、编程写代码等任务。

学习助手：对于学生来说，QVQ-Max 可以帮助解答数学、物理等科目的难题，尤其是那些配有图表的题目。它还能通过直观的方式讲解复杂概念，让学习变得更轻松。

生活小帮手：在生活中，QVQ-Max 也能提供不少实用建议。比如，它可以根据你的衣柜照片推荐穿搭方案，或者根据食谱图片指导你如何烹饪一道新菜。

通义千问表示，目前的QVQ-Max只是第一版，将进行不断的优化。

[人工智能] 阿里通义千问推出视觉推理模型QVQ-Max