【導(dǎo)讀】自特斯拉FSD V12率先將端到端大模型引入量產(chǎn)車(chē)以來(lái),"規(guī)則驅(qū)動(dòng)"向"數(shù)據(jù)驅(qū)動(dòng)"的范式轉(zhuǎn)移已成為行業(yè)共識(shí)——?jiǎng)幼魇欠窳鲿?、能否?yīng)對(duì)長(zhǎng)尾場(chǎng)景、決策是否擬人化,取代了傳統(tǒng)的功能清單,成為衡量智能駕駛體驗(yàn)的新標(biāo)尺。在這場(chǎng)由方法論革新引發(fā)的浪潮中,蔚來(lái)經(jīng)歷了從規(guī)則構(gòu)建到數(shù)據(jù)驅(qū)動(dòng)的艱難轉(zhuǎn)身,如今又以"世界模型+閉環(huán)強(qiáng)化學(xué)習(xí)"的全新架構(gòu)重新出發(fā)。當(dāng)技術(shù)路線的迷霧逐漸散去,蔚來(lái)新版NOA能否憑借這套端到端強(qiáng)化學(xué)習(xí)體系,在復(fù)雜的中國(guó)城市場(chǎng)景中實(shí)現(xiàn)真正的"擬人化"突破,重回行業(yè)第一梯隊(duì)?
Part 1、蔚來(lái)的輔助駕駛的轉(zhuǎn)型
在中國(guó)智能駕駛的迭代中,特斯拉提出的端到端一個(gè)拐點(diǎn),在出現(xiàn)了這個(gè)技術(shù)變化之后,城市NOA中擬人化變成了非常重要的評(píng)價(jià)點(diǎn),規(guī)則味比較重,是落后的標(biāo)志。
體驗(yàn)上主要是動(dòng)作機(jī)械、加減速轉(zhuǎn)向不流暢、卡頓,無(wú)法應(yīng)對(duì)各種Corner case, FSD V12、V13 V14 的一路發(fā)展,在方法論上特斯拉是一路牽引整個(gè)行業(yè)的發(fā)展。
在蔚來(lái)的第一代車(chē)型,是圍繞規(guī)則來(lái)構(gòu)建的輔助駕駛,確定變道距離、確定的加減速邏輯、確定的安全邊界。在中國(guó)復(fù)雜的城市場(chǎng)景復(fù)雜度下并不完善。
從規(guī)則開(kāi)始,蔚來(lái)花了很多時(shí)間來(lái)切換技術(shù)路線。轉(zhuǎn)向數(shù)據(jù)驅(qū)動(dòng)過(guò)程中,用模型把規(guī)則“壓縮”進(jìn)參數(shù)里,讓系統(tǒng)通過(guò)學(xué)習(xí)大量真實(shí)駕駛數(shù)據(jù),自己學(xué)會(huì)如何變道、擇道。
數(shù)據(jù)驅(qū)動(dòng)的問(wèn)題是,同一個(gè)場(chǎng)景下,人類(lèi)的行為并不一致。在道路上,人的習(xí)慣和交通流量都會(huì)影響決策,從結(jié)果來(lái)看,能看到不同的駕駛員在不同的位置換道,模型學(xué)到的是一種“折中選擇”,為了安全往往選擇保守跟隨,或者說(shuō)要真正實(shí)現(xiàn)“高效、主動(dòng)通行”,伴隨著不少的小事故。
為了平衡風(fēng)險(xiǎn),引入更強(qiáng)的地圖和路徑引導(dǎo)、采集專(zhuān)家駕駛數(shù)據(jù)并減少行為差異,或者加回一部分規(guī)則邏輯。這些都是中國(guó)在這段時(shí)間走過(guò)的路。
Part 2、蔚來(lái)新版的NOA
蔚來(lái)世界模型在2026年的目標(biāo)是回到行業(yè)的數(shù)一數(shù)二的位置。方法是對(duì)智能輔助駕駛?cè)邪l(fā)迭代方法進(jìn)行調(diào)整,引入世界模型 + 閉環(huán)強(qiáng)化學(xué)習(xí)的模式。
這也是以端到端系統(tǒng)為基礎(chǔ),核心分為三步:
基礎(chǔ)行為習(xí)得:通過(guò)學(xué)習(xí)海量人類(lèi)駕駛行為,讓模型形成駕駛答題本,標(biāo)記各類(lèi)場(chǎng)景下的行為概率,習(xí)得駕駛基本肌肉記憶;
環(huán)境深度理解:模型從當(dāng)前時(shí)刻出發(fā),預(yù)測(cè)自身下一步多種動(dòng)作,并推演不同動(dòng)作對(duì)周?chē)h(huán)境的影響,及環(huán)境變化對(duì)自身行為的反作用,實(shí)現(xiàn)長(zhǎng)達(dá)數(shù)分鐘的長(zhǎng)時(shí)序思考,這是核心運(yùn)行機(jī)制;
閉環(huán)強(qiáng)化校準(zhǔn):在虛擬「駕駛考場(chǎng)」中,通過(guò)數(shù)上億輪專(zhuān)業(yè)場(chǎng)景訓(xùn)練和評(píng)估反饋,讓模型精準(zhǔn)理解「好行為與差行為的區(qū)別」,基于駕駛常識(shí)和人類(lèi)經(jīng)驗(yàn)校準(zhǔn)行為「答題本」,這一過(guò)程即為閉環(huán)強(qiáng)化學(xué)習(xí)。
這里要回答幾個(gè)關(guān)鍵問(wèn)題,強(qiáng)化學(xué)習(xí)到底解決了什么問(wèn)題?這是給結(jié)果打分,讓模型自己學(xué),模型輸出行為后,系統(tǒng)會(huì)根據(jù)結(jié)果給予正向或負(fù)向反饋,讓模型在反復(fù)嘗試中學(xué)會(huì)什么是“更優(yōu)解”,過(guò)程本身就是一種自我校正。
在實(shí)際訓(xùn)練中,通過(guò)獎(jiǎng)勵(lì)評(píng)估機(jī)制直接給行為打分;利用真實(shí)人類(lèi)行為反饋,反推出獎(jiǎng)勵(lì)信號(hào), 模型在其中會(huì)經(jīng)歷自監(jiān)督學(xué)習(xí),逐步形成穩(wěn)定的決策偏好。
舉例來(lái)說(shuō)先構(gòu)建一個(gè)仿真環(huán)境,在其中設(shè)定一條“目標(biāo)線”,車(chē)輛如果順利完成左轉(zhuǎn)并線,就得到獎(jiǎng)勵(lì);完成得越快、越平順,獎(jiǎng)勵(lì)越高。
在此基礎(chǔ)上,只保留少量必要的約束,比如壓實(shí)線會(huì)被扣分,但不再寫(xiě)復(fù)雜規(guī)則。在哪個(gè)位置變道、如何跨越三條車(chē)道、怎樣兼顧效率與安全,全部交給模型在仿真環(huán)境中自行探索。
在這樣的基礎(chǔ)上不需要為每一個(gè)特殊路口單獨(dú)采集數(shù)據(jù)。只要仿真環(huán)境中構(gòu)建出“相似結(jié)構(gòu)”的場(chǎng)景,模型就能遷移能力,避免了為成百上千個(gè)復(fù)雜路口重復(fù)采數(shù)據(jù)的低效過(guò)程。目標(biāo)簡(jiǎn)單、約束少,讓模型自己找路徑。
規(guī)則一旦極簡(jiǎn),反而更穩(wěn)定、更通用。
Part 3、實(shí)際的體驗(yàn)
在我們的實(shí)際體驗(yàn)中,換道策略、導(dǎo)航選道,在道路中的剎車(chē)控制都有很大的改善。
偏航和復(fù)雜路口,是需要“提前判斷”的場(chǎng)景,NOA的系統(tǒng)在快到路口才反應(yīng)一般感受會(huì)很差或者就錯(cuò)了(要么壓實(shí)線要么錯(cuò)了),需要在更早的階段就意識(shí)到,模型會(huì)提前接收到“未來(lái)懲罰”,從而主動(dòng)調(diào)整決策。
實(shí)際上,在擬人化抉擇上,比如判斷安心感充足時(shí)果斷切入,不魯莽擠壓旁車(chē);目標(biāo)車(chē)道擁堵時(shí),緩慢前行并持續(xù)尋找變道空隙;通過(guò)蠕行尋找通行空隙,這些行為都是挺大的改善。
結(jié)論
蔚來(lái)的探索揭示了一個(gè)核心趨勢(shì):智能駕駛的下半場(chǎng)競(jìng)爭(zhēng),本質(zhì)上是"學(xué)習(xí)效率"與"泛化能力"的較量。世界模型賦予系統(tǒng)長(zhǎng)時(shí)序推演能力,讓車(chē)輛能夠"預(yù)見(jiàn)"而非"反應(yīng)";閉環(huán)強(qiáng)化學(xué)習(xí)則通過(guò)虛擬考場(chǎng)中的億級(jí)輪次訓(xùn)練,使模型在極少規(guī)則約束下自主尋優(yōu),實(shí)現(xiàn)從"學(xué)會(huì)開(kāi)車(chē)"到"開(kāi)好車(chē)"的躍遷。實(shí)際體驗(yàn)中換道策略的果斷、復(fù)雜路口的提前預(yù)判、擁堵場(chǎng)景下的蠕行尋隙,都是這一技術(shù)路線落地的直觀印證。







