推理模型技术竞争白热化 InfoQ报告显示:文心X1 Turbo得分率第一

2025-05-30 15:30 来源:咸宁新闻网
查看余下全文
(审核:王璐瑶)
光影之间
光影之间
记者专栏

信息服务 > 正文

推理模型技术竞争白热化 InfoQ报告显示:文心X1 Turbo得分率第一

2025年05月30日 15:30   来源:咸宁新闻网   rwzh4

5月29日,极客邦科技双数研究院InfoQ研究中心正式发布《2025推理模型评测报告》,基于逻辑推理、数学推理、多步推理、语言推理、及幻觉控制五大维度,对OpenAI O3、文心X1 Turbo、DeepSeek-R1、Kimi k1.5、Doubao-1.5-thinking-pro、Qwen3-235B-A22B等八款国内外主流推理模型展开深度评估。报告显示,文心X1 Turbo以总分第一的成绩领跑国内模型,并在幻觉控制、语言推理等核心维度展现显著优势,成为国内首个在五大评测维度中斩获最多单项冠军的推理模型。

InfoQ研究中心指出,受“推理时计算拓展”与“可验证奖励强化学习”两大技术范式驱动,全球厂商已进入推理模型密集发布期,OpenAI o1、DeepSeek R1、 文心 X1 Turbo、Claude 3.7 Sonnet Reasoning等十余款推理模型相继上线,争夺下一代大模型的“推理入场券”。

根据报告,文心X1 Turbo是本次评测中“单项冠军数量最多”的模型,在五大细分维度中表现亮眼:在幻觉控制方面,文心X1 Turbo以80.56%的得分位列第一,领先DeepSeek-R1、Qwen3-235B-A22B等模型,有效降低模型生成错误或误导性信息的风险;在语言推理方面,文心X1 Turbo以70.31%的得分位列第一,领先Doubao-1.5-thinking-pro、DeepSeek-R1、Qwen3-235B-A22B等模型;在数学推理方面,OpenAI O3以81.25%的得分位列第一,文心X1 Turbo紧跟其后,位居国内第一。

幻觉控制Top 5模型得分情况

语言推理Top 5模型得分情况

报告认为,作为国产推理模型代表,文心X1 Turbo其技术突破不仅标志着国产模型在推理能力上的里程碑式进展,更为AI从“内容生成”向“可验证逻辑执行”的跃迁提供了关键支撑。

随着技术迭代与场景深化,推理模型把大模型从单纯的内容生成器升级为“可验证的逻辑执行器”。伴随着单场景推理深度、跨工具编排广度、在线自进化能力的同步跃升,更多新商业机会正被快速打开。


(审核:王璐瑶)

推荐阅读

中高考即将来临,这份考前“心理指南”请收好

? ?中高考日益临近,有的考生可能会出现紧张、心情压抑、睡眠不佳、食欲异常等情况。专家表示,迎考出现紧张焦虑的情绪属于正常现象,考生和家长应学会接纳自己的情绪,同时通过科学的释压方法积极调节,轻松上阵应对考试。? ?专家提示,家长应保持熟悉的家庭氛围和日常节奏,为考生提供适度关心,不要谨小慎微或予... [详细]

端午节蕴含怎样的“数字密码”?

?端午至,粽飘香。每年农历五月初五既称“五月节”,又称“端午节”。一般认为,“初”与“端”同义,“五”与“午”同音,五月初五便被称作端午。那么,为什么要选择五月初五这个“重日”作为节日?其中蕴含着怎样的“数字密码”? [详细]

“几元绕开限制”,谁在诱导孩子沉迷网游?

一些孩子沉迷网游,学习生活和身心健康受影响。记者在黑猫投诉平台搜索发现,未成年人游戏充值相关投诉达3万多条,不少投诉涉及的充值金额过万元。几元绕开限制不设防畅玩的背后根据相关规定,所有网游必须接入防沉迷实名验证系统,所有网游用户必须使用真实有效身份信息进行游戏账号注册并登录,网游企业不得以任何形式... [详细]