
随着主要模型的增加,IA编程领域正在经历全球变化。已经出现了各种编程模型和编程工具,通过实际特征(例如自动完成代码和自动纯化)为开发人员的日常任务提供了极大的安慰,并在某种程度上提高了开发效率。但是问题是,这是AI编程工具的影响吗?最近,非营利性AI组织METR进行了一项随机控制的实验,以了解编程工具如何加快经验丰富的开源开发人员的劳动效率。结果非常令人惊讶。开发人员最初认为,使用AI工具后,他们可以将速度提高20%,但他们真的认为速度比没有使用AI工具的速度慢了19%。这个结论在社交网络X中爆炸,几乎超过300万次访问。如下图所示,对计数器探索PrediCTIONS和开发人员直觉,AI编程工具在2025年初放慢了经验丰富的开发人员的开发。在这个随机控制的实验中,有16名具有AI编程经验的开发人员在246个大型和复杂的项目中完成了任务,平均有五年的发展经验。互联网用户对这项研究的反应不同。有些人同情并同意。有些人质疑Metr的测量指标说“完成任务的时间”无法用“生产力”来确定,并且中间体验对于复杂的项目测试而言同样是不良的配置。“我们需要研究普通人(开发人员(开发人员)使用AI创建软件的速度,”一些人提出了这一建议。已经表明,调查的动机有助于对代理的编码/比较评估有助于了解AI的能力。通常,他们根据规模和效率牺牲可靠性。这些任务是自主的,不需要下使用算法评估以前的上下文的地位,无法获得许多重要的特征。这些特征可以使参考点高估AI的能力。同时,参考点在无需努力的情况下实时和实时执行,尽管取得了长足的进步,该模型可能无法完成任务。例如,人类可以轻松地在现实世界阶段修复的小瓶颈。通常,很难将参考分数直接转化为实际效果。 METR表示,在评估AI对软件开发人员生产率的影响时,它在参考点提供了其他证据,并有助于我们了解AI对I AI&D的一般影响。原因,结果和分析直接测量22K+星星和100万行代码),并在多年来贡献了。这些开发人员提供了似乎看起来的真实问题的清单对仓库很有价值(总计246)。这意味着通常在日常工作范围内的任务修复,特征和重构。然后,METR随机为开发者分配每个问题,可以在与他打交道时使用AI。如果允许AI,开发人员可以选择他们喜欢的工具(在研究期间,Pro Cursor主要用于Claude 3.5/3.7十四行诗)。如果被禁止,它们在无生成AI的帮助下起作用。开发人员在完成任务时记录了屏幕(平均为大约2小时),并报告完成了多长时间。当然,METR以每小时150美元的标准参加调查(每小时约1,080人)。结果表明,如果开发人员可以使用AI工具,那么解决问题所需的时间将增加19%。这大大降低了效率,这违背了专家的预测和开发人员的看法。感知之间的差距N和现实令人震惊。开发人员预计AI会增加24%,并认为IIN增加了效率下降,AI可以增加20%。以下是开发人员预测的平均时间列表和观察到的实际实现时间。您可以清楚地看到,如果开发人员可以使用AI工具,则需要很长时间。当允许AI时,开发人员会积极分析编码和信息,将花费更少的时间写快单词,等待AI的生产或审查,然后不活动。 Metr发现,发展进度的放缓是由多种因素而不是单一原因的组合引起的。为了更好地理解这些因素,METR研究了实验环境中的20个特性,发现其中5个可能是导致发育减速的原因,而8种则显示出混合或不明确的影响。在此过程中,Metr排除了许多实验干扰,包括使用前卫模型,AdherenCE到处理分配规则的处理,也没有选择性地放弃问题(被放弃的困难AI的任务减少了不使用AI组的平均难度,并在不使用AI的结果时提交了PR(提取请求)。结果是使用估计方法的估计,或质量数据的数据差异数据数据的数据的估计指标。数据数据的数据,或数据数据的数据的结果,或者不显示媒体,媒体的结果,或执行媒体媒体,或执行媒体媒体,媒体的结果,媒体的结果,交流的结果,或者使其及时的差异均具有详细的研究。ED开源开发人员。但是,在生产率上,在真实环境中需要实验数据。评估方法以更完整的方式描绘AI的当前状况和方向。比参考点更难“播放”。博客地址:https://met.org/blog/2025-07-10-ARLY-2025-AI-ECPERIED-OS-DEV-Study/