凤凰联盟·(中国区)-腾讯混元视觉模型跻身全球前三

2025-10-12 12:01:53

科技日报记者 罗云鹏

10月7日,国际年夜模子竞技场LMArena发布最新视觉模子榜单,腾讯混元最新视觉模子 Hunyuan-Vision-1.5-Thinking 体现抢眼,取患上全世界第三,海内第一的成就。

LMArena第一时间于X上公布这一动静,并暗示:评估具备视觉功效的人工智能模子与文真相比增长了新的繁杂性。为了体现优良,模子必需从图象中提守信息,理解这些信息,并将视觉信息与文本联合,运用在多种用例,例如:图表注释、文档解析、按照视觉内容建议标题及案牍,以和解决几何问题的能力等等。

LMArena是美国加州年夜学伯克利分校推出的立异AI模子评估平台,评测焦点要领基在人类真实偏好的“盲测”机制,让用户对于差别AI模子的回覆举行匿名投票,权衡模子的体现。因为该平台拜候量巨年夜,而且评测机制切近现实体验,是今朝国际上最权势巨子的竞技场榜单。

10月5日发布的LMArena图象天生榜单中,混元图象3.0居第一名,跨越nano-banana等顶尖闭源模子。

据悉,Hunyuan-Vision-1.5-Thinking 具有领先的多语言多模态理解及推理能力,可以或许经由过程多轮的反思,越发深切地舆解所“看”到的内容,完成响应的指令使命。

此外,模子于更高级的使命,如视觉推理及3D空间理解也有较好体现。好比,于多模态理解场景中,模子可以正确辨认图片中的花、也能够直接用西班牙语举行发问,辨认原文为英文的图表。

混元视觉模子家族拥有多个合用在差别场景的模子,此前已经经推出混元T1-Vision、混元TurboS-Vision及混元Large-Visio模子,而且均于海内外各种排行榜,例如LMArena Vision、SuperCLUE-VLM以和CompassArena上有不俗体现。

视觉信息理解是年夜模子走向通用模子不成或者缺的一环。另悉,基在此前的堆集,腾讯混元团队将连续于这一标的目的上努力,经由过程技能立异带来更多的多模态视觉模子及运用。

(受访单元供图)

-凤凰联盟·(中国区)

分享