首页行业资讯资讯详情

OpenAI发布GDPval测试 GPT-5与Claude Opus 4.1接近行业专家水平

2025/09/26 16:11

    OpenAI发布GDPval测试 GPT-5与Claude Opus 4.1接近行业专家水平
    


    


    OpenAI发布GDPval测试 GPT-5与Claude Opus 4.1接近行业专家水平
    

导读目录


    

        
  • 事件概述


  •     
  • GDPval测试介绍


  •     
  • AI模型表现对比


  •     
  • 测试范围与局限性


  •     
  • 专家评论与解读


  •     
  • 编辑总结


  •     
  • 常见问题解答


  •     

    

事件概述


    

根据 www.Todayusstock.com 报道,当地时间周四(9月25日),OpenAI发布了名为GDPval的新基准测试,用于比较其AI模型与各行业专业人士在经济价值工作上的表现。此次测试是OpenAI评估通用人工智能(AGI)能力的重要尝试,旨在衡量AI系统距离在经济价值岗位超越人类的程度。


    

GDPval测试介绍


    

GDPval基于美国GDP贡献最大的九个行业,涵盖医疗、金融、制造业和政府等领域,涉及44种职业,从软件工程师到护士,再到记者。测试通过邀请资深专业人士对比AI生成报告与人类报告,选出更优成果,以此评估AI在实际工作任务中的表现。


    

在首个版本GDPval-v0中,专业人士需要对比AI生成的报告与行业专家成果,并计算AI在全部44个职业中胜出的平均比例。


    

AI模型表现对比


    
    
    
    
    
    
    
    
    
    
    
    
    
    
    
    
    
    
    
模型胜出或持平行业专家比例说明
GPT-5-high40.6%高算力版本GPT-5,接近行业专家水平
Claude Opus 4.149%得分略高,部分因生成更美观图表

    

OpenAI指出,Claude Opus 4.1得分较高主要原因在于其倾向于生成更易读和美观的图表,而非在核心分析性能上完全优于GPT-5。


    

测试范围与局限性


    

需要说明的是,GDPval-v0仅测试了提交研究报告的能力,而大多数职业的实际工作远不止这一部分。OpenAI承认测试覆盖有限,并计划未来开发更全面的测试体系,包括更多行业和交互式工作流程,以更准确衡量AI对经济价值岗位的潜在影响。


    

专家评论与解读


    

OpenAI首席经济学家Aaron Chatterji表示,GDPval测试表明AI模型能够节省人类在某些任务上的时间,使其专注于更有价值的工作。他指出:“随着模型能力提升,人们可以把部分工作交给模型,去完成潜在更高价值的任务。”


    

OpenAI评估负责人Tejal Patwardhan指出,约15个月前发布的GPT-4o模型得分仅为13.7%,而GPT-5成绩几乎提高三倍,显示AI能力正快速接近行业专家水平,并预计这一趋势将继续。


    

编辑总结


    

OpenAI通过GDPval基准测试对AI在经济价值工作中的能力进行量化评估。结果显示,GPT-5和Claude Opus 4.1在多个职业中已接近或持平行业专家水平,尤其在生成分析报告方面展现出显著潜力。虽然测试覆盖有限,但其进展表明AI在未来可能成为人类工作的重要辅助工具,提高效率和生产力。投资者和企业应关注AI在特定岗位和任务中的实际应用能力,而非短期完全替代的预测。


    

常见问题解答


    

    

问1:GDPval测试的主要目的是什么?答:GDPval旨在评估AI模型在经济价值岗位上的表现,衡量其是否能达到或超越行业专业人士的水平,是OpenAI开发AGI的重要参考。


    

    

    

问2:GPT-5和Claude Opus 4.1的表现差异是什么?答:GPT-5-high在44种职业任务中胜出或持平比例为40.6%,Claude Opus 4.1为49%。Claude得分略高主要因生成更美观图表,而非核心分析能力显著优于GPT-5。


    

    

    

问3:GDPval测试涵盖哪些行业和职业?答:测试基于美国GDP贡献最大的九个行业,包括医疗、金融、制造业、政府等,共涵盖44种职业,从软件工程师到护士及记者。


    

    

    

问4:GDPval测试是否能代表AI取代人类工作?答:不能。当前测试仅覆盖部分任务,如报告生成,无法全面衡量职业工作全流程。AI更多是作为辅助工具,节省人类时间,提高效率。


    

    

    

问5:AI能力提升对工作效率的意义是什么?答:AI可承担重复或标准化任务,使人类专注于更有价值的工作,从而提高整体生产力。随着能力提升,AI可覆盖更多复杂任务,为企业和经济创造潜在更高价值。


    

    

来源:今日美股网


    

1. 欢迎转载,转载时请标明来源为FX168财经。商业性转载需事先获得授权,请发邮件至:media@fx168group.com。

2. 所有内容仅供参考,不代表FX168财经立场。我们提供的交易数据及资讯等不构成投资建议和依据,据此操作风险自负。

相关文章

  • 【欧股收评】欧股反弹收复三周低点,钢铁股与金融股领涨
    2025/09/26 17:55
  • 娃哈哈宗氏家族百亿遗产案再起波澜:香港高院驳回宗馥莉上诉许可
    2025/09/26 16:25
  • Medline计划50亿美元IPO 有望成为2025年美国最大规模上市交易
    2025/09/26 16:11
  • 美股三连跌叠加美元强势 甲骨文重挫5% 特斯拉跌超4% OKLO大跌9%
    2025/09/26 16:11
  • 美股芯片股与加密股承压 鲍威尔警告高估值与政府关门风险打击信心
    2025/09/26 16:11

最新文章

中东局势突传重大突破,黄金无惧稳守4000大关!美联储“三把手”刚刚发声

2025/10/09 09:46

决策分析:中美贸易又有新争议!AI主题完好数十亿美元涌入,中东局势刺激原油

2025/10/09 09:18

黄金年涨52%掀狂潮!4000美元只是起点?

2025/10/09 08:55

港股收评:恒指跌0.29%、科指跌0.66%,高铁基建股普涨,黄金股活跃,半导体芯片股跳水

2025/10/09 08:40

发生了什么?对冲基金正战术性做多美元

2025/10/09 08:35

【日股收评】再创历史新高!日经225强势爆发直逼50000点,两只个股贡献最大

2025/10/09 08:02

A股收评:沪指劲升1.32%!贵金属、核聚变掀涨停潮,影视院线下挫

2025/10/09 07:30

中国这一举措恐惹怒白宫!以色列哈马斯停火重创油价,美国政府停摆数据缺乏

2025/10/09 07:12

黄金大行情一触即发!鲍威尔讲话来袭 FXStreet高级分析师金价交易分析

2025/10/09 06:42

【直击亚市】中国股市有赶超空间!中东和平协议刺激黄金回落,中国强化稀土限制

2025/10/09 05:50

热门文章

【现货黄金】操作策略参考-20240111

2024/01/11 02:29

中东局势突传重大突破,黄金无惧稳守4000大关!美联储“三把手”刚刚发声

2025/10/09 09:46

决策分析:中美贸易又有新争议!AI主题完好数十亿美元涌入,中东局势刺激原油

2025/10/09 09:18

黄金年涨52%掀狂潮!4000美元只是起点?

2025/10/09 08:55

港股收评:恒指跌0.29%、科指跌0.66%,高铁基建股普涨,黄金股活跃,半导体芯片股跳水

2025/10/09 08:40

发生了什么?对冲基金正战术性做多美元

2025/10/09 08:35

【日股收评】再创历史新高!日经225强势爆发直逼50000点,两只个股贡献最大

2025/10/09 08:02

A股收评:沪指劲升1.32%!贵金属、核聚变掀涨停潮,影视院线下挫

2025/10/09 07:30

中国这一举措恐惹怒白宫!以色列哈马斯停火重创油价,美国政府停摆数据缺乏

2025/10/09 07:12

黄金大行情一触即发!鲍威尔讲话来袭 FXStreet高级分析师金价交易分析

2025/10/09 06:42
在线客服开设账户官方app
回到顶部