开云体育来写数学题的不同解法-开云·kaiyun(中国)体育官方网站 登录入口
发布日期:2025-07-02 08:18 点击次数:76

出品|虎嗅科技组开云体育
作家|苏子华
剪辑|苗正卿
题图|AI生成
昔日一段时分,“预检修收场”成为了 AI 规模最激烈的征询之一。
OpenAI的GPT系列模子此前大踏步的前进,预检修是中枢推能源。而前 OpenAI 首席科学家 Ilya Sutskever、预检修和scaling law(规模定律)最至意的倡导者,却声称预检修要收场了、scaling law要失效。由此,激发了多数争议。
与之相对应的,是GPT-5被曝研发受阻,一经比预期晚了6个月。似乎印证了Ilya的判断。
大模子公司的将来,是否因此都蒙上了暗影?在刘威看来,所谓的预检修收场对中国的大模子公司影响不大,还不必操心。而据他对Ilya的了解,Ilya的话不成只看名义意旨好奇。
刘威是前混元大模子时期崇拜东谈主之一,腾讯了得科学家,前不久刚刚低调开启AI规模的创业征途。
他于2016年加入腾讯AI Lab,与AI Lab另外两位崇拜东谈成见潼、俞栋一谈,被业内称为“AI Lab三剑客”。在2018年,刘威入选IEEE智能系统10大AI后生科学家;2022年,因对大规模机器学习和智能多媒体的孝顺,得到IEEE Fellow。
在腾讯时期,刘威的责任东如若面向腾讯家具业务的CV基础大模子、多模态分解大模子、文生图、文生视频大模子等。
在刘威看来, Ilya此时这样讲,可能恰正是因为他知谈OpenAI里面遇到了一些时期瓶颈。即便如斯,刘威认为,行业践诺上依旧在奴婢着OpenAI,它仍是引颈者。
那么,该如何分解预检修收场的信得过影响,如何正确看待OpenAI正遇到的瓶颈、国表里大模子公司的处境,以及预判AI进化的下一阶段?
针对这些问题,刘威从科学家和AI创业者的视角,和咱们聊了聊。
以下是对话实录,经剪辑整理,为便于阅读,有所删减:
“预检修收场对中国大模子公司影响不大”
虎嗅:llya最近暗示预检修将会收场,预检修模子需要的海量数据行将清寒。你如何看待他的不雅点?
刘威:按照llya的言语作风,他一般不会把前边的定语、状语说得很显着。是以,“预检修收场”前边的定语和状语是什么呢?实在地说,是文才能域的大语言模子的预检修要收场了,数据清寒、找不到高质地的文本token了。
他的主义是想让有识之士意志到:文才能域的预检修照实是收场了,招呼新的检修范式与新的scaling law。
虎嗅:在这个时分点,他可能看到了什么?若何分解背后的逻辑?
刘威:llya这样说,可能有3个原因。
第一,可能是OpenAI里面遇到了一些时期瓶颈。
按照华尔街日报的报谈,这个时期瓶颈就是指检修GPT-5模子(OpenAI里面代号Orion)的时候,预检修的token不够用了,于是加入了合成的token,终局合成的token终局欠安致使很差,差到可能让整个这个词模子的检修失败。
OpenAI最启动插足多数的合成数据到预检修阶段,终局遇到了很大的费力,这个费力让OpenAI的GPT-5研发6个月莫得大的说明。要分解其中的原因,咱们得搞理会预检修的作用。预检修践诺上是在模拟特定domain的天然数据散布,比喻在文本domain,捕捉与模拟天然语言的散布是什么。是以OpenAI会从许多高质地的网站,比喻维基百科、纽约时报等去获取一些文本数据,这些数据都属于东谈主创作的、真实的语言散布。
而合成数据和真实数据,在概率散布上“长”得相配不一样。举个例子,我之前在腾讯也作念过东谈主脸图像DeepFake检测,咱们发现AI合成的假的东谈主脸图像和真实的东谈主脸图像在高频段的信息特征敷裕不一样,是以咱们研发的东谈主脸打假系长入下子就把假的东谈主脸识别出来了。是以在预检修阶段,如果把真实token的天然散布和合成token的“假”散布混在一谈,喂给模子检修,便可能会让模子检修崩溃或者达到一个“冲口而出”的模子终局。
第二,我臆想,o1可能在GPT-5的预检修中起到了不小的作用,OpenAI可能用o1造了许多代码类、数学类、逻辑类的合成数据,检修GPT-5去学习。关联词,合成数据最大的问题是种种性差。比如,用o1造多数的token,既然是一个模子造的,token的同质化不可幸免,那便不具备种种性。而天然界的真实数据的优点之一就是种种性强,包罗万千。
是以,OpenAI的科学家与工程师们可能意志到了合成数据不成用太多,即就是用了合成数据,也要设法擢升种种性,这样检修终局仍然可能有擢升。基于这个主义,OpenAI去找高档门径员、相配资深的数学老诚或者数学博士,来写数学题的不同解法,以及用不同的方法作念编程题,然后使用这些东谈主类的真实种种性token来检修一个更好的token生成器模子,以擢升合成数据的种种性。
第三,以上措施带来的模子性能擢升仍然不够权臣。从GPT-3.5到GPT-4的擢升是巨大的,从o1到o3的擢升亦然巨大的,关联词从GPT-4到GPT-5,擢升不大。
是以,可能基于以上三个方面,才促使llya说出这样的话。咱们知谈,GPT-3.5到GPT-4巨大的擢升,正是来自于预检修scaling law。既然预检修scaling law到头了,就很难大踏步地擢升下一代模子的详细性能了。
我赞同llya。在文本domain里,预检修照实到头了。但这并不是指模子算法出了问题,而是指检修数据(token)不够用了,跟不上model size的scaling up节律。
虎嗅:也有许多大牛比喻Meta首席东谈主工智能科学家Yann LeCun,说预检修莫得到头。
刘威:许多时候人人是在你说你的,我说我的。Yann LeCun指的是多模态规模的scaling law莫得到头。事实上,多模态规模的预检修若何作念,业界还在探索,还空虚足理会GPT-4o、Gemini-2.0是如何进行预检修的。
在多模态规模,开源社区的作念法和闭源的作念法也不一样。GPT-4o是三个模态(笔墨、图片、语音)的输入和输出,咫尺国产模子还莫得终了对标GPT-4o的三模态分解与生成终局。市面上大部分堪称有多模态才能的大模子,主要才能是多模态分解,欠缺优秀的多模态生成才能,比如优秀的语音生成才能(与 OpenAI 的高档语音模式Advanced Voice Mode比较,大多数语音生成家具在许多才能上仍显不及,包括心境分解、机灵的打断功能、丰富天然的口吻语调、多语言接济、衔接对话才能等)。
无论Google照旧OpenAI,他们都还莫得发表相干的论文。是以,人人不知谈他们是若何作念的。Meta固然发表了一些多模态大模子的论文,但他们发的论文和我方开源的Llama 3模子在多模态检修方法上又不太一样。是以多模态规模的预检修scaling law到底是什么样,人人还在探索。
虎嗅:那么文才能域的scaling law遇到了瓶颈,会对中国的大模子公司有什么影响吗?
刘威:我认为影响不大。对于中国大模子公司来说,token远莫得到用尽的时候。因为OpenAI的时期门道很激进,它的模子参数一经很庞杂。行业内有一些传言,臆想GPT-5可能是10T以上的参数目,这是巨大的。除了OpenAI,应该莫得几个机构在检修10T参数目级的模子。
而咱们知谈GPT-4仅仅1.6-1.7T的参数规模。也就是说,模子参数不错扩大,算力不错增多,然则真实的token量是有上限的。东谈主类唯有一个互联网,高质地文本token量大致不卓绝20T 。按照scaling law的教授公式:GPT系列模子预检修需要的token量与模子参数目,大致呈10倍的线性关系。那么,GPT-5如果是10T的参数规模,咱们很难网罗到100T 高质地token的数据。从这个角度讲,预检修照实到头了。
而以严格的圭臬来说,在多语种的文本domain里,中国还莫得一家国产模子能够达到GPT-4的水准,还有相当的擢起飞间,是以国产模子厂家还无谓操心scaling law到头了。
虎嗅:还有一种说法,数据危境可能会导致发力通用大模子的公司,转向更小、更专科的模子。
刘威:这个和预检修的收场莫得径直关系。人人长期不错研发小模子,在“预检修收场”被提倡之前,微软一直在作念小模子,Meta、苹果也都在作念端侧模子,包括国内的面壁智能也在作念端侧小模子。
虎嗅:之前传闻有几家国内大模子独角兽覆没预检修了,似乎覆没预检修是个很负面的事情?
刘威:这应该是传言,如果属实,大概是被卡脖子的无奈之举,国内清寒最高端的GPU芯片,这天然会相当影响预检修的质地与速率。
预检修很强大,它的作用是先将寰宇学问的散布模拟一遍,然后才有“后检修”。预检修设备了学习的筹备,后检修则是充实了学习的技法。先斟酌,才有技法;先真金不怕火内功,再学招式。
预检修费时吃力,还不一定能检修告捷。国外许多公司,尤其是好意思国硅谷的许多公司,径直接纳Meta开源的Llama底座模子进行微调,连忙推向商场事业用户。从交易上来说,这无可厚非。
虎嗅:都去作念预检修,算是不聪慧吗?
刘威:不仅是中国的公司在追逐OpenAI,模仿他们的时期门道和方法,好意思国的公司如谷歌、Meta、Anthropic也在作念相同的事情,都在作念预检修,而谷歌在推出同类型模子家具上是追逐OpenAI最激进的一个。
虎嗅:什么样的公司稳当去作念预检修?
刘威:无论是在中国、好意思国照旧欧洲,有AGI信仰的公司才能宝石作念预检修。
接下来,AI如何络续进化?
虎嗅:o3出来之后,汇集口碑一般,这个您若何看?咫尺咱们是否处在AI行业的某个分水岭?
刘威:o3在推理、编程、数学、科学方面的才能瑕瑜常强的,我认为在后检修scaling law的门道上,OpenAI咫尺还没到达分水岭。
如果咱们探究OpenAI的全局时期门道,它照实一经跨过了第一个分水岭,即预检修的scaling law。它咫尺正处在探索新的scaling law(后检修或强化学习scaling law)的谈路上,也一经从o1走到了o3。
虎嗅:为什么人人追上OpenAI的速率不错这样快,好像AI公司间的竞争壁垒没那么高?
刘威:这是善事。起初,没东谈主敢说OpenAI的时期门道是错的,人人都在用践诺行径暗示奴婢,OpenAI依旧是引颈者。另外,人人也不但愿行业里出现一个寡头。业界共同鼓舞时期跳跃发展,行业也更健康。
虎嗅:一些大模子独角兽会认为寰宇模子是AI的下一个阶段,若何分解寰宇模子?
刘威:寰宇模子这个词在学术界还莫得理会的界说。有3D重建式的寰宇模子,比喻李飞飞教训的World Labs正在作念的;也有在视频中作念一些自动分解、自动导航式的寰宇模子,比喻Meta的Yann LeCun团队研发的JEPA系列模子;特斯拉和一些国内的新能源车、自动驾驶公司,也在作念自动驾驶场景里的自动打算、自动适度的寰宇模子。
就像AGI在学术界一经流传了多年,但许多学者,举例Yann LeCun就认为不应该叫AGI,应该叫human-level intelligence,是用“东谈主类档次的智能”来替代AGI这样的叫法。
寰宇模子亦然一样,大概将来有更好的定名方式抒发。
按照我的分解,如果一个AI模子学习了全寰宇的东谈主类学问,那么它就不错称为一个基础版的寰宇模子。从学问层面来看,GPT-4可算是文本学问规模的基础寰宇模子。如果从功用层面来看,寰宇模子的界说应该不仅涵盖东谈主类档次的别传读写才能,还包括代替东谈主类在物理寰宇去施行任务。那么,刻下还莫得一个AI模子能称为寰宇模子。
是以,咱们应该把寰宇模子的筹商范围放窄一些,先管制相对容易的问题,庄重再引申筹商范围。我的不雅点是:当咱们筹商寰宇模子的时候,要先去界说什么是咱们要筹商的寰宇,大寰宇或者小寰宇。当笃定了咱们要筹商的寰宇界说域,那么对寰宇模子的筹商限制—学问层面+功用层面—践诺上就会变得更理会。
虎嗅:对于大模子的进化,您之前在访谈里提到过,将来大模子不错通过自博弈的强化学习,来掌捏自动升级的钥匙,无需东谈主工侵犯就能终了迭代,这件事咫尺到什么阶段了?
刘威:这是我对将来大模子时期发展的一个斟酌。我认为大语言模子的升级不错从敷裕东谈主工侵犯逐渐发展到半自动,终末演化为全自动升级。
咫尺大模子的对皆计策主如若与东谈主类对皆,是以有RLHF(东谈主类响应的强化学习)。从公开信息源,咱们发现OpenAI、Google、Meta、Anthropic正在或筹备使用AI对皆计策,如RLAIF(AI响应的强化学习)。
具体来说,这种AI对皆计策体咫尺:监督微调(SFT)中使用一个大语言模子(辅助模子或者前代模子)生成prompt-response格式的语料数据,RL中使用该模子对特定prompt的多个response进行打分或者排序(称为偏好数据)。比如,Meta开源的Llama 3的时期呈报中,明确评释了它的对皆阶段,或者说后检修阶段,会依赖于Llama 3的早期模子版蓝本生成部分SFT语料数据。
OpenAI的12天直播里,展示了一项新时期叫RFT,也就是强化学习微调,这瑕瑜常要津的时期,它不错在线网罗东谈主类的一丝响应,然后让刻下的大语言模子版块模拟这些东谈主类响应而生成更多的响应样本,用东谈主类响应+AI响应进行强化学习,微调刻下模子版块,并不错延续迭代下去。
在对皆层面,将对皆的起源由东谈主类换成了AI,这就是一个跳跃。然则,即使接纳了AI对皆计策,后检修scaling law仍然可能有收场的一天。
因此,我一直在想考能否有比对皆驱动的强化学习更灵验的学习范式。AI如果只和东谈主类对皆,那么智能水平长期不可能卓绝东谈主类,是以我建议尝试扞拒式的自博弈强化学习,即AI和AI扞拒竞争学习,这样AI的智能水平才有可能卓绝东谈主类。
扞拒式自博弈RL,正是 DeepMind的AlphaZero最早提倡的时期,当先有多个有筹备式AI模子版块,让它们两两扞拒PK,谁能赢,谁就survive,一系列以强凌弱之后,得到最强的AI模子。最近,Hinton(被称为AI教父、诺奖得主)在访谈和演讲中提到,他很操心AI越来越强之后,会互相竞争资源;比如,有公司同期检修了几个大语言模子,有的大语言模子会更智能,它可能会主动抢掠其他模子的数据资源和算力资源而变得更强。Hinton指摘的这些,就是自博弈式、扞拒式的强化学习。
虎嗅:听起来有点像一个AI吞并另一个AI。
刘威:将来可能会发生。天然,东谈主类正在制定和完善各式制约、要领、契约等来幸免AI的失控,尽早珍视和根绝AI对东谈主类酿成负面的影响。
虎嗅:咫尺大模子这个行业里,最让您兴隆的是什么呢?
刘威:最让我兴隆的是:何时能把自博弈式的扞拒强化学习,用相配低廉的方式作念出来。
虎嗅:一经看到有东谈主在作念了吗?
刘威:这个还不理会,如果是学术界的一又友,我建议他们去筹商。
这里我想举一个例子。OpenAI在2017年发明了PPO算法,一种在线强化学习算法。GPT-3.5和GPT-4用的就是PPO。而在旧年5月份,斯坦福大学发表了一篇论文,提倡了一个新的离线强化学习算法DPO,即径直偏好优化,它比PPO安适许多、筹备上轻量许多,于是业界都启动接纳这个RL算法。何况,DPO提倡来之后,OpenAI也在使用,它最近发布的强化学习微调就是接纳了DPO。
学术界不错用不同于工业界的视角来筹商许多时期问题,时时能提倡相配微妙的新方法。是以,扞拒式自博弈的强化学习,我嗅觉会有筹备更低廉、算法假想更微妙的管制办法被筹商出来。
虎嗅:那么它会对AI行业的发展产生什么影响?
刘威:会有新的scaling law出身。也就是说,除了预检修的scaling law、强化学习的scaling law还会有一次范式搬动或升级,即自博弈强化学习scaling law。
它是扞拒式的RL,不是对皆式的RL,用它驱动大模子的升级,会比对皆式RL的着力更高。
虎嗅:对于强化学习的scaling law,咫尺人人还莫得达成共鸣吧?
刘威:OpenAI大概一经探索出我方的强化学习scaling law,其他公司可能还需要先去追逐o1,赶上之后方能去探索RL scaling law。
谈竞争
虎嗅:一些有名投资机构斟酌2025年AI运用会爆发,您若何看?
刘威:如果从广义来看,从CV四小龙时期到咫尺的大模子六小虎时期,AI运用一直在茁壮发展。咱们每天都在和AI运用斗争,比如说刷脸。
咱们咫尺温雅的AI运用,比如红杉好意思国的著述里提的AI运用,指的是agent智能体,它算是AI原生的运用。我认为agent是交易软件的将来,致使是SaaS的将来,我也斟酌agentic AI会在2025年爆发。
虎嗅:在您看来,国表里AI创业者作念的事情有什么不同?
刘威:据我了解,好意思国相配好的大学在相配积极、平凡地拥抱AI,这是在学术界;在硅谷的话,有莫得AI,硅谷的创业昂扬也都莫得消退过。可能这一波生成式AI的创业波涛比以前来的更利弊,融资额度也比昔日大,毕竟GPU算力很贵。
从追求AGI上来讲,硅谷和国内的AI行业,作念的事情没什么实质不同。国内可能会模仿硅谷的创业课题,比如对标cursor,作念一些AI代码生成的创业公司。
虎嗅:国表里的AI产业,靠近的挑战会有什么不同?比如,好意思国的AI巨头可能更缺能源,中国的AI独角兽更缺资金?
刘威:很难讲挑战是什么,只可说中好意思的诉求有相反。从一些公开报谈来看,好意思国的几家AI巨头一经订购了多数高端的GPU,在2025年平均一家都有几十万块的英伟达B系列的卡。
在我看来,好意思国这些AI玩家,他们属于激进派,他们的诉求就是看谁能先达到AGI,无论是在囤东谈主才、算力、资金等方面,都在进行武备竞赛。比如,在公开时势,Elon Musk斟酌,AGI最晚在2026年就会来;而Sam Altman斟酌最早在2025年能来,Google的AI一号位Demis Hassabis斟酌AGI在2030年能来。看来人人都认为AGI会在将来几年到来,那就看谁能率先作念出来。
对于中国的AI行业来说,资金不是问题,从中央到所在,从企业到高校,对AI都很接济,何况接济的力度相配大。国内AI产业的诉求,我认为主要照旧看AI能不成的确产生社会价值。
虎嗅:国内大模子公司的竞争,在创业方面有给你什么启发吗?
刘威:要有我方的绝活。就像在大语言模子的赛谈,不成老是随着几家好意思国AI巨头背面去追逐。不错尝试对准巨头作念的不是那么好的赛谈,在这个赛谈以特有的时期成见,找到属于我方的scaling law。
