声明:本文来自于微信公众号 AIGC开放社区,授权转载发布。
今天凌晨,OpenAI开源了最新基准测试集SimpleQA,可以帮助开发者轻松检测、校准大模型的真实性能力。
目前,很多大模型会出现一本正经胡说八道的问题,例如,你提问NBA历史上得分最多的是谁,它回答是迈克尔乔丹,实际上是勒布朗詹姆斯。包括OpenAI自己发布的GPT-4o、o1-preview、o1mini等前沿模型都有这些“幻觉”难题。
所以,SimpleQA对于开发者来说,可以精准测试大模型能否输出正确的答案,并对模型的说谎能力进行校准然后进行大幅度优化完善模型能力。
开源地址:https://github.com/openai/simple-evals
有网友表示,看了SimpleQA的测试数据才发现,o1-mini和o1-preview的性能差距这么大,o1-mini连GPT-4o都打不过。
令人惊讶的是,SimpleQA 被有意设计用来挑战像 GPT-4这样的高级模型,其中只包括至少有一次模型尝试失败的问题。这种对抗性的基准测试方法感觉像是一种大胆的转变,旨在揭示模型的局限性并推动模型的发展。
多整开源这是好事。别忘了你名字的初衷啊~
这很有趣,会看到更多的模型被测试,以及它们与我在提供的文本上进行的虚构/幻觉基准测试结果的比较。
很想看看o1模型的完整版测试。
完全同意事实性在人工智能中的重要性。SimpleQA 的引入可以显著提升我们对语言模型在这一领域表现的理解。这是一项及时的举措,准确的数据对于信任人工智能系统至关重要。期待看到这个基准测试的影响。
这很重要,因为确保大模型的事实性对于防止错误信息的传播至关重要,而 SimpleQA 提供了一种标准化的方法来评估和改进模型可靠性的这一关键方面。
很棒,重要的更新!
SimpleQA简单介绍
在数据收集阶段,SimpleQA的问题参考答案由两名独立的 AI 训练员确定,并且训练员在创建问题时被要求提供支持答案的网页链接,以确保答案有可靠的依据。
例如,对于 “谁是苹果公司的创始人之一” 这样常识性问题,训练员会根据历史资料和官方信息确定答案为 史蒂夫乔布斯等,并附上如苹果公司官方网站等相关链接作为证据。
同时,问题的设计使得预测答案易于评估,只允许有一个明确且无可争议的答案,避免了模糊性和歧义性。比如 “哪一年 iPhone 首次发布”,答案明确为“2007年”,而不是一个范围或模糊的表述。
SimpleQA的评估问题和答案都非常简短,这使得运行速度快且操作简单。在评估模型回答时,通过 OpenAI API进行评分也十分迅速。数据集中包含4326个问题,能够在一定程度上降低不同次运行之间的方差,使评估结果更加稳定可靠。
例如,在对多个模型进行测试时,不会因为数据集本身的不稳定性而导致结果出现较大波动,从而能够更准确地比较模型之间的性能差异。
SimpleQA的评估集非常多元化。涵盖历史、科学技术、艺术、地理、电视节目等多个领域。这种多样性使得评估结果更具普遍性和代表性,能够全面地检验模型在不同知识领域的事实性回答能力。
另一个好处是它的校准测量功能。通过询问模型对其答案的信心,研究者可以了解模型是否知道它们知道什么,这是一个很重要的校准现象。如果一个模型能够准确地评估自己的信心水平,那么它就是一个校准良好的模型。
OpenAI通过SimpleQA对GPT-4o、o1-preview、o1mini、Claude-3-haiku、Claude-3-sonnet等前沿模型进行了综合测试。结果显示,较大模型通常具有更高的性能,但即使是前沿模型在SimpleQA 上的表现也并非完美。
例如,GPT -4o 在回答一些问题时能够给出较高比例的正确答案,但仍有部分错误回答和未尝试回答的情况。同时,通过测量模型的校准情况,发现模型虽然有一定的信心概念,但普遍存在高估自己信心的问题,模型的信心水平与实际回答的准确性之间存在差距。
文章转载自:业界 非本站原创
11月3日下午,光伏胶膜龙头企业福斯特发布情况说明,11月2日,福斯特安徽生产基地局部仓库发生失火,安徽子公司发现火情后立即启动应急预案,
思泉新材公告,公司持股5.89%的股东深圳市富海新材二期创业投资基金合伙企业(有限合伙)(简称“富海新材”)计划减持公司股份合计不超过11
云南锗业发布股票交易异常波动公告,2024年6月初至10月末,公司主要产品材料级锗产品(主要为区熔锗锭)价格出现快速上涨,根据亚洲金属网公开
中国宝安公告,股东深圳市富安控股有限公司计划在本公告披露之日起15个交易日后的3个月内,以集中竞价方式减持本公司股份不超过25,792,139股,占
民生证券表示,当前的市场特征是做多流动性而非做多财政发力的方向,持续性存疑,变盘在即,单纯做多流动性的交易正进入尾声。此前因为宏观
建发股份公告,鉴于内外部环境的变化,结合公司内部实际情况及发展规划等因素,公司决定终止向原股东配售股份事项并撤回申请文件。文章转载
东吴证券研报称,10月的风格跷跷板状态已经较为极致,科技成长、小市值、题材风格相比于顺周期风格处于超涨状态,因此多只高标在月末,尤其是
爱施德公发股价异动公告,公司是荣耀品牌的线上、线下零售服务商。2020年公司与团队共同斥资6.6亿元参与对荣耀的联合收购。据荣耀官网信息,
航宇科技公告,公司近日与某国际商用航空发动机领域客户(限于保密义务不披露其名称,简称“某海外客户”)签署战略合作协议。基于战略合作
信科移动公告,公司全资子公司大唐移动就与展讯通信(上海)有限公司技术合作开发合同纠纷,向北京市海淀区法院提起诉讼并申请财产保全。诉
立中集团公告,子公司新泰车轮、保定车轮分别收到客户1、客户2、客户3铝合金车轮项目的定点通知。客户1项目预计2026年7月开始量产,项目周期内
长安汽车公告,2024年10月公司销量为25.08万辆,较去年同期的24.1万辆增长4.07%。其中,重庆长安本月销量为10.48万辆,同比下降8.81%;河北长安销量为
润都股份公告,公司近日收到国家药品监督管理局核准签发的硫酸羟氯喹《化学原料药上市申请批准通知书》。该药品适用于类风湿关节炎、青少年
中信证券表示,市场当前正站在年度级别马拉松行情的起跑线上,政策信号、外部信号和价格信号的陆续明朗将成为发令枪,绩优股的加速出清给机
中信证券发文称,2024年10月美国新增非农就业人数低于预期,医疗保健服务和政府部门是主要贡献项,耐用品制造和临时帮助服务是主要拖累项。受
中信证券认为,近年来,政府发布多项政策:1)加快推进门诊统筹等新渠道模式改革,重点改革院外医药零售,有望带动OTC、保健品等品类销售增长
11月3日,据奇安信集团消息,奇安信集团近日中标中海油能源发展股份有限公司网络安全测试检查及系统保障服务项目,项目总额为8624万。文章转载
11月3日,根据恩捷股份投资者关系活动记录表,恩捷股份于10月31日在业绩说明会上表示,公司将持续通过改善客户结构和产品结构来促使盈利改善,
据青岛胶东临空经济示范区消息,11月1日下午,青岛胶东临空经济示范区管委会与中国旅游集团中免股份有限公司举行战略合作协议签约仪式,双方
大家好,小美今天来为大家解答维生素b12的食物和水果排名以下问题,维生素b12的食物和水果蔬菜很多人还不知道,现在让我们一起来看看吧!1、牛
Copyright 2024 看看网,让大家及时掌握各行各业第一手资讯新闻!