研究发现:AI生成答案超三成“不可靠”

2025-09-19 06:44 来源:参考消息网
查看余下全文
(审核:欧云海)
光影之间
光影之间
记者专栏

首页 > 要闻 > 正文

研究发现:AI生成答案超三成“不可靠”

2025年09月19日 06:44   来源:参考消息网   

参考消息网9月18日报道 据英国《新科学家》周刊网站9月16日报道,生成式人工智能(AI)工具及其驱动的深度研究智能体和搜索引擎经常给出缺乏依据和存在偏见的说法,它们引述的资料并不支持这样的说法。一项分析得出了上述结论,它发现,AI工具提供的答案有大约三分之一缺乏可靠资料的支持。对开放人工智能研究中心(OpenAI)的GPT-4.5来说,这一比例更高,达到47%。

赛富时公司AI研究部门的普拉纳夫·纳拉亚南·文基特和他的同事测试了一些生成式AI搜索引擎,包括OpenAI的GPT-4.5和GPT-5、You.com、“解惑”和微软的必应聊天。此外,他们还测试了5个深度研究智能体:GPT-5的深度研究功能、必应聊天的深度思考选项以及You.com、谷歌“双子座”和“解惑”提供的深度研究工具。

纳拉亚南·文基特说:“我们希望对生成式搜索引擎进行社会技术评估。”目的是确定答案的质量及人类应该如何对待其中包含的信息。

他们要求不同的AI引擎回答303个问题,评价AI的回应使用了8个指标。研究人员把这套指标称为DeepTrace。其设计目的是检测某个答案是否过于片面或自信,它与问题的相关性如何,它引述了什么资料,引述的资料对答案给出的说法有多少支持,以及引述的资料的详尽程度。

问题大致被分成两组:第一组包含一些有争议的问题,以发现AI回应中的偏见;第二组用于检测一系列领域的专业知识,包括气象学、医学和人机交互。

总的来说,AI驱动的搜索引擎和深度研究工具表现得相当差。

研究人员发现许多模型给出了过于片面的答案。必应聊天搜索引擎给出的答案有大约23%包含缺乏依据的说法,而You.com和“解惑”AI搜索引擎的这一比例为31%左右。GPT-4.5给出的缺乏依据的说法更多,为47%,而“解惑”深度研究智能体的该比例高达97.5%。纳拉亚南·文基特说:“看到这样的情况确实让我们很惊讶。”(编译/杨新鹏)


(审核:欧云海)

推荐阅读

专家提醒:牢记“120”口诀 识别中风信号

近日,本市迎来连续降雨,气温明显下降。同时,低温会提高血小板聚集性,导致血液黏度升高,加上血管收缩、降温后活动量减少、饮水量不足等因素,多重风险叠加可大幅增加心脑血管疾病发作概率。加强防护 注意保暖建议市民从生活细节入手加强防护:首先要做好保暖,密切关注气温变化,及时添衣,特别注意头、颈、足部的... [详细]

寒露已至,养生防病正当时

寒露已至,气温下降,秋冬季养生防病成为公众关注的焦点。专家建议,哮喘患者要注意防寒保暖,避免冷空气刺激呼吸道,保持室内空气湿润,避免接触季节性过敏原,坚持规律用药,切勿自行停药或减量,季节性哮喘患者建议提前半个月用药。 [详细]

“一秒生成制服照”? AI岂能如此换装

用户只需上传一张生活照,便可一键生成个人军装照、警察照。9月1日起施行的《人工智能生成合成内容标识办法》要求AI合成内容必须明确标注,但记者在使用多款AI换装应用后发现,用户合成发布的视频并未标注,容易让人产生混淆。 [详细]