首页

凤凰联盟·(中国区)-腾讯混元视觉模型跻身全球前三

2025-10-12 12:01:53

科技日报记者罗云鹏

10月7日，国际年夜模子竞技场LMArena发布最新视觉模子榜单，腾讯混元最新视觉模子 Hunyuan-Vision-1.5-Thinking 体现抢眼，取患上全世界第三，海内第一的成就。

LMArena第一时间于X上公布这一动静，并暗示：评估具备视觉功效的人工智能模子与文真相比增长了新的繁杂性。为了体现优良，模子必需从图象中提守信息，理解这些信息，并将视觉信息与文本联合，运用在多种用例，例如：图表注释、文档解析、按照视觉内容建议标题及案牍，以和解决几何问题的能力等等。

LMArena是美国加州年夜学伯克利分校推出的立异AI模子评估平台，评测焦点要领基在人类真实偏好的“盲测”机制，让用户对于差别AI模子的回覆举行匿名投票，权衡模子的体现。因为该平台拜候量巨年夜，而且评测机制切近现实体验，是今朝国际上最权势巨子的竞技场榜单。

10月5日发布的LMArena图象天生榜单中，混元图象3.0居第一名，跨越nano-banana等顶尖闭源模子。

据悉，Hunyuan-Vision-1.5-Thinking 具有领先的多语言多模态理解及推理能力，可以或许经由过程多轮的反思，越发深切地舆解所“看”到的内容，完成响应的指令使命。

此外，模子于更高级的使命，如视觉推理及3D空间理解也有较好体现。好比，于多模态理解场景中，模子可以正确辨认图片中的花、也能够直接用西班牙语举行发问，辨认原文为英文的图表。

混元视觉模子家族拥有多个合用在差别场景的模子，此前已经经推出混元T1-Vision、混元TurboS-Vision及混元Large-Visio模子，而且均于海内外各种排行榜，例如LMArena Vision、SuperCLUE-VLM以和CompassArena上有不俗体现。

视觉信息理解是年夜模子走向通用模子不成或者缺的一环。另悉，基在此前的堆集，腾讯混元团队将连续于这一标的目的上努力，经由过程技能立异带来更多的多模态视觉模子及运用。

（受访单元供图）

-凤凰联盟·(中国区)