为什么不说话| 消化道出血有什么症状| 79年属什么的| 鸡拉稀吃什么药| 苦荞是什么植物| 两个脚脖子肿什么原因| 易烊千玺的爸爸是干什么的| 孕妇吃梨有什么好处| 耦合是什么意思| 先兆流产什么意思| 蛋蛋冰凉潮湿什么原因| 右眼皮一直跳是什么原因| 有什么办法| 牛腩烧什么好吃| roa胎位是什么意思| 为什么眼睛老是流泪| 单活胎是什么意思| 手指尖发麻是什么原因| 黑眼圈挂什么科| 马卡龙为什么这么贵| 大学生村官是什么编制| 双肺纹理增多什么意思| 帛字五行属什么| 卡码是什么意思| 怀孕排卵试纸显示什么| 兵痞是什么意思| 纳豆是什么东西| 痰涎壅盛是什么意思| 肺部硬结灶是什么意思| 为什么会突然不爱了| 乙亥日五行属什么| 1990属马的是什么命| 脑萎缩吃什么药最好| 小腿肚酸疼是什么原因| 舅舅和外甥女是什么关系| 阴道炎挂什么科| 海龙是什么| 脑供血不足有什么危害| 软文什么意思| 腰椎间盘突出不能吃什么食物| 抗核抗体谱检测查什么的| 蚊香对人体有什么危害| 谷维素治什么病| 氯超标是因为什么原因| 梦见来月经是什么意思| 内科检查什么| 梦见大棺材是什么预兆| 三个力念什么| 供血不足吃什么药效果最好| 刚拔完智齿可以吃什么| 草单斤是什么字| 宝宝什么时候开始说话| 温暖如初是什么意思| 夜里2点到3点醒什么原因| 欧字五行属什么| 肠道ct能检查什么| 尿潜血1十是什么原因| 气得什么| 小时的单位是什么| 反复发烧是什么原因| 湿疹长什么样图片| 臭酸是什么| 什么是子宫腺肌症| 边缘视力是什么意思| 脸颊两边长痘痘是什么原因引起的| 感染hpv有什么症状| 阴柔是什么意思| 天高地厚是什么生肖| 子宫腺肌症是什么意思| 安享晚年是什么意思| 梦见蝎子是什么意思| 芹菜可以炒什么| 什么好像什么| 促黄体生成素是什么意思| 健康证需要什么| 玉皇大帝的老婆叫什么| 猫抓病是什么病| 稷字五行属什么| 献血有什么好处| 拉姆是什么意思| 吃什么促进新陈代谢| 免单是什么意思| 大米粉做什么好吃| 南浦是什么意思| 内服什么可以美白全身| 人定胜什么| 含五行属什么| 血压高什么原因| 早上流鼻血是什么原因| 甲硝唑有什么副作用| 什么人不适合做厨师| 劳伦拉夫属于什么档次| 35年属什么生肖| 草鱼喜欢吃什么食物| 9月13日是什么星座| 肋骨骨折吃什么食物好得快| 乔迁送什么花| ct值是什么意思| 抗坏血酸钠是什么| 逻辑性是什么意思| 丰富是什么意思| 身上痣多是什么原因| 孩子吐了吃什么药| 收缩压和舒张压是什么| 泰山石敢当什么意思| mds是什么病的简称| tmc是什么意思| 计算机二级什么时候考| 老鼠的克星是什么| 子宫息肉有什么危害| 质数是什么| 天下乌鸦一般黑是什么意思| 性格内敛是什么意思| 坐卧针毡是什么生肖| her2是什么意思| 耳朵痒是什么原因引起的| 炸鸡翅裹什么粉| 浩浩荡荡是什么意思| 手汗症挂什么科| 排卵日是什么时候| 什么是碱性水| 封建社会是什么意思| 嘴巴下面长痘痘是什么原因引起的| 一起共勉是什么意思| 39岁属什么| 豆汁是什么味道| 甲片是什么| 向日葵为什么会随着太阳转动| 甲醛对人体有什么危害| 湖面像什么| 什么蛋| 李世民是什么民族| 黄鳝吃什么东西长得快| 高血压看什么科室| 除权是什么意思| 肚子疼看什么科| 失眠吃什么食物| 子宫出血什么原因| 界定是什么意思| 什么世什么名| 阳痿是什么意思| 管型偏高说明什么问题| 沙参长什么样子图片| 吃什么食物可以降低尿酸| 叶酸什么时间段吃最好| 宫腔内异常回声是什么意思| 眼袋浮肿什么原因| vogue是什么意思| 81年的鸡是什么命| 血清谷丙转氨酶偏高是什么意思| 天秤座女生什么性格| 麂皮绒是什么材质| 幽默什么意思| 建档挂什么科| 什么是高利贷| 农历五月二十八是什么日子| 尿道口下裂是什么样子| 胆管炎是什么原因引起的| 肝郁气滞吃什么药| 身上带什么可以辟邪| 什么是芝士| 慢性咽喉炎吃什么药| 突然想吐是什么原因| 胃食管反流什么症状| 口气臭吃什么能改善| 责成是什么意思| 转折是什么意思| 策字五行属什么| 营养包是什么| 古灵精怪是什么意思| 阴道干涩用什么药| 五台山求什么最灵| 来例假不能吃什么| 鼓目念什么| 部队指导员是什么级别| 梦见自己相亲是什么征兆| pr是什么职位| 脾的主要功能是什么| 乳腺癌三期是什么意思| 海口有什么好玩的| 分拣员是做什么的| 骨灰盒什么材质的好| 贝壳吃什么食物| 喝酒前吃什么| 贝的偏旁有什么字| 吃小米粥有什么好处| 青年节是什么生肖| 双肾尿盐结晶是什么意思| 什么属相不能挂山水画| 什么是碱性磷酸酶| 童瑶为什么要告黄定宇| 钛对人体有什么好处| 有里面没有两横是什么字| 一直咳嗽吃什么药| 普拉提是什么运动| 属狗的幸运色是什么颜色| n字鞋子是什么牌子| 茵陈是什么植物| kawasaki是什么牌子| 做梦下大雨是什么兆头| 丙氨酸氨基转移酶偏高吃什么药| 肾衰竭五期是什么意思| 支气管舒张试验阳性是什么意思| 便士是什么意思| 3价铁离子是什么颜色| 烫伤了抹什么| 口苦吃什么药最好| 广东省省长是什么级别| 肋骨疼是什么原因| 黄油可以做什么美食| 牛肉炒什么| 什么是反流性咽喉炎| 大便失禁是什么原因| 非萎缩性胃炎是什么意思| 3.13是什么星座| 吹空调喉咙痛什么原因| 肝右叶低密度灶是什么意思| 羊水多了对宝宝有什么影响| 268数字代表什么意思| 轩尼诗是什么酒| 眼睛散光和近视有什么区别| 高血压适合吃什么水果| 瑶浴spa是什么意思| 冠状ct能查什么| 什么啤酒好| 午时是什么时间| 质粒是什么| 戒指丢了暗示着什么| 宝宝什么意思| 牟作为姓氏时读什么| 弯弯的月儿像什么| 什么是美尼尔氏综合症| 狗为什么不吃饭| 痈肿疮疖是什么意思| vera是什么意思| 青金石蓝是什么颜色| 口干什么原因| 睾丸肿大是什么原因| 医生五行属什么| 莳字五行属什么| 一阵什么| 前白蛋白低是什么原因| 独在异乡为异客异是什么意思| 秋收冬藏是什么生肖| 颈椎骨质增生吃什么药效果好| 5月25日是什么星座| 绿豆和什么相克| 大宗物品是什么意思| 干净的什么| 脸色暗沉发黑是什么原因| 嗳腐吞酸是什么意思| 肚子容易饿是什么原因| 转氨酶高吃什么好得快| hr过高是什么意思| 伊朗是什么派| 炸薯条用什么粉| 五月十二号是什么日子| 九月是什么星座| 慢性炎症是什么| 移动迷宫到底讲的什么| 肩胛骨麻麻的什么原因| 2月17日是什么星座| 头总是昏昏沉沉的是什么原因| 肚子突然变大是什么原因| 百度
您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
人工智能 正文
发私信给郑佳美
发送

0

甘肃:15亿元涉农贷款助力乡村振兴

本文作者: 郑佳美   2025-08-04 16:36
导语:「复制训练」或许是一条推动 RL 模型走向通用智能的重要路径。
百度 体育人才具有国际影响力的重大赛事策划人和组织人、著名运动员和教练员、国际级和国家A级裁判员、知名体育解说员和体育节目主持人;优秀体育后备人才。

最近,国外一家 AI 初创公司 Mechanize 的三位创始人联合撰文,提出一个大胆的判断:RL 或许要迎来属于它的 “GPT-3 时刻”,但还需要拥有相当于数千至上万年“模型处理任务所用时间”的训练。

在他们看来,当前的 RL 模型还存在明显短板,比如泛化能力差、难以适应新任务等,这种局面其实很像 GPT-3 出现之前的语言模型——能解决特定问题,但难以迁移和扩展。

为了解决这个问题,他们提出了一种新的训练范式,叫作“复制训练”(Replication Training):让模型在虚拟环境中模拟真实软件的操作过程,比如使用浏览器、编写代码、处理命令行任务等等。

这种训练方式的好处在于任务目标清晰、评分机制明确,同时还能大规模自动生成训练数据,非常适合用在 RL 模型的系统性训练中。当然,它也不是万能的,比如在任务开放性和测试设计方面还有一些挑战。

但他们认为,复制训练是一条能推动 RL 模型走向通用智能的重要路径,有望带来一次类似 GPT-3 那样的能力跃迁。

综上,雷峰网(公众号:雷峰网) AI 科技评论对原文做了不改原意的整理与呈现:

当 RL 遇上 GPT-3 式规模化

GPT-3 向我们展示了一个关键事实:仅靠规模的提升,就能催生出强大、任务无关的 few-shot 能力,甚至在不少任务上超越了精心微调的模型。在此之前,想要在特定任务上取得最优表现,通常需要先用大规模通用语料进行预训练,再针对目标任务进行微调。

今天的强化学习(RL)则还停留在 GPT-3 出现前的阶段:我们依旧先预训练一个大型模型,然后在某些高度特化的环境中进行繁琐的任务级微调。但这一策略存在根本缺陷——泛化能力极弱。一旦模型面临的环境略有变化,性能便迅速崩溃。

最新 AGI 暴论:强化学习的「GPT-3 时刻」实现,还需要 1 万年?

我们认为,RL 也将迎来属于它的 “GPT-3 时刻”。这意味着,训练方式将从在少数环境中微调,转向在成千上万种多样化环境中进行大规模训练,以培育出真正具备 few-shot 能力与任务无关泛化能力的智能体,能够灵活应对全新任务。

但要实现这一跃迁,前提是我们必须构建出规模和多样性远超当前水平的训练环境——这是推动 RL 走向能力爆发的关键。

要实现 GPT-3 级别的 RL 训练,需要多大的规模?

不过,目前的 RL 数据集规模仍然相当有限。

以 DeepSeek-R1 为例,其训练数据大约包含 60 万道数学题。假设每道题人类平均需要 5 分钟完成,总体相当于约 6 年的持续人工劳动。而相比之下,GPT-3 所使用的 3000 亿个 token 语料,若按人类正常写作速度来计算,则需要几十万年才能写完,数量级远不在一个水平。

另一方面,如果想让 RL 的算力投入达到当前最前沿预训练模型的水平,可能需要大约 1 万年的人类任务时间(即模型处理所需的时间,换算成人类完成同样任务所需的时间)。DeepSeek-R1 在 RL 阶段使用了大约 6E23 FLOP,对应约 6 年的模型处理任务时间。如果后续训练保持与 DeepSeek-R1 相近的训练周期与分组规模,那么将训练规模提升到 6E26 FLOP 级别,大致对应约 6000 年的模型处理任务的时间。

当然,随着任务多样性的提高,未来 RL 是否会采用更大或更小的批次规模,或增加训练轮数,目前仍无法确定。由于缺乏相关经验数据,要精确评估所需的模型任务时间仍有一定难度,但 “1 万年” 可能是一个合理的估算级别。

为了便于理解,我们可以将这一训练规模与某些大型软件工程项目进行类比:无论是 Windows Server 2008、GTA V,还是 Red Hat Linux 7.1,它们都被估算耗费了约 1 万年的人类劳动。

值得一提的是,将 RL 训练扩展到这一规模,从经济角度来看是可行的。由于算力支出在整体训练成本中占据主导,将 RL 的训练预算提升至与语言模型预训练相当的水平,有望显著提升模型性能,而不会带来成倍增长的总成本。

而真正的挑战在于:如何构建足够多样且可自动评估的 RL 环境。实现这一点,或许需要我们彻底重新思考 RL 环境的设计与构建方式。

复制训练或是解法?

想象一下,如果每次训练一个语言模型进行下一个词的预测(next-token prediction),都必须手动编写整套训练语料库,那几乎是不可能完成的任务。实际上,我们之所以能够训练出强大的语言模型,正是因为可以直接利用大量现有内容资源 —— 比如书籍、学术论文、博客文章,以及 Reddit 上的讨论等,构建出大规模、高质量的训练数据。

类似地,我们认为,强化学习也有望迎来自己的 GPT-3 时刻,而实现这一点的关键,很可能是一种被我们称为“复制训练”(Replication Training)的新范式。

其核心思想是:让 AI 模型去复现已有的软件产品,或其中的某些具体功能。

起步阶段可以从一些相对简单的命令行工具入手,比如实现某种哈希或加密算法的小程序——这些目标清晰、结构紧凑,适合训练初期使用。随着模型能力的提升,复制训练的任务范围也可以扩展到更复杂的系统,比如网页应用、专业软件,甚至是大型游戏。雷峰网

每一个复制训练任务,都会提供详尽的功能规范和一个参考实现。AI 模型的任务,就是生成一个行为上与参考实现完全一致的版本。这种方式的最大优势在于评估非常直接且客观:模型的输出要么与参考结果完全一致,要么就不一致。清晰的评分标准大大简化了训练过程中的评估机制,也提升了训练效率。

尽管“复制训练”任务在形式上可能与日常软件开发有所不同,但它们瞄准的,正是当前 AI 系统在工程能力上仍显薄弱的一些关键环节。比如,要让模型复现一个复杂算法(如一个包含上万行代码的加解密命令行工具,并要求严格遵循详细规范),就必须具备以下核心能力:

准确阅读并深入理解复杂的技术文档;

严格按照规范执行指令,避免逻辑或实现上的任何偏差;

能够识别并修复早期出现的错误,具备可靠的问题恢复能力;

在长时间、高复杂度任务中保持稳定输出,就像人类工程师连续开发数周一样,成果质量直接由正确性衡量;

面对困难具备足够韧性,不轻易满足于“差不多就行”的半成品。

这些能力的组合,是构建可靠、高质量 AI 工程系统的基础。而“复制训练”的独特价值就在于:通过高强度还原现实复杂系统,为模型提供了系统性磨炼上述能力的路径。这不仅补足了当前 AI 系统的能力短板,也为通用型智能体的训练奠定了关键技术基石。

我们预测,“复制训练”将成为 AI 训练的下一个核心范式。

这一判断源于当前 AI 发展的基本趋势:通过大量已有的人类创作数据,自动构建出丰富的新任务。就像自然语言资源广泛存在于互联网上一样,软件本身也是一种高度结构化且数量庞大的现成素材。复制训练正是基于这一前提,提供了一种可扩展、自动化的方式,能够高效生成复杂任务,推动我们向具备端到端开发能力的 AI 迈进——即那些能够独立完成整个软件项目的智能体。

当然,这一方法也并非没有挑战。比如,如何编写既高效又覆盖全面的测试,仍是一项不小的工程难题,往往需要大量人工投入。此外,从形式上看,复制训练也略显“人工”——在日常软件开发中,完全照搬已有软件的情况并不常见,尽管它在软件移植、遗留系统重构、“洁净室”重写等场景中确实存在。

尽管如此,我们仍认为复制训练提供了一条清晰且具可行性的路径,能够将 RL 训练环境扩展到支持泛化能力所需的海量规模。这种范式很可能成为 RL 实现“GPT-3 时刻”的关键——帮助模型积累成千上万年级别的任务经验,进而具备稳健、任务无关的泛化能力。

那么,复制训练是否就是实现“全自动劳动”的终极路径?我们并不这么认为。虽然它有望催生出能够依据详细设计说明独立完成复杂软件项目的系统,但这类系统仍可能缺乏人类所具备的开放性、灵活性,以及在跨领域场景中进行抽象规划和高阶管理的能力。即便未来 AI 成为顶级程序员,它们也未必能胜任更广泛意义上的决策与协调任务。

不过,我们相信复制训练仍有可能成为通往下一个训练范式的关键“桥梁”——正如在复制训练之前,我们也需要经历预训练这一阶段一样。我们对这一新范式的潜力与前景,充满期待


雷峰网原创文章,未经授权禁止转载。详情见转载须知

最新 AGI 暴论:强化学习的「GPT-3 时刻」实现,还需要 1 万年?

分享:
相关文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说
6月11日是什么星座 沈阳是什么省 治骨质疏松打什么针 什么不什么声 吃藕是什么意思
脸上发麻是什么原因 以身相许什么意思 总价包干是什么意思 小孩呕吐是什么原因引起的 血脂粘稠有什么症状
抑郁症是什么原因造成 急性肠胃炎吃什么 老鸨什么意思 同等学力是什么意思 分心念什么
吃维e有什么好处和副作用 男人是女人的什么 跛脚是什么意思 什么故事 灰指甲是什么样子的
天天都需要你爱是什么歌mmeoe.com 什么盐比较好hcv9jop8ns0r.cn 喝红糖水有什么好处和坏处hcv9jop0ns9r.cn 到底为什么hcv7jop9ns0r.cn 白介素高是什么原因hcv9jop4ns7r.cn
五道杠是什么牌子jingluanji.com 红艳煞是什么意思beikeqingting.com 湿疹有什么症状adwl56.com 头晕是什么原因引起的hcv8jop6ns1r.cn 大姨妈不能吃什么luyiluode.com
资生堂适合什么年龄段hcv8jop1ns8r.cn 金针菇不能和什么一起吃hcv9jop0ns0r.cn 眼睛挂什么科hcv8jop8ns6r.cn 眼白浑浊是什么原因hcv8jop0ns6r.cn 老鼠和什么属相最配对hcv7jop9ns4r.cn
低头族是什么意思hcv9jop3ns4r.cn 吃什么养肝hcv8jop9ns8r.cn 第二名叫什么hcv8jop3ns6r.cn 智齿是什么原因引起的creativexi.com 黉门是什么意思hcv8jop0ns8r.cn
百度