主辦方:媒體管家合作
官方網(wǎng)站:http://www.lzzqv.com
商湯絕影CEO王曉剛發(fā)布“與世界模型協(xié)同交互的端到端自動駕駛路線R-UniAD”
“端到端自動駕駛本質是通過海量高質量人類駕駛數(shù)據(jù),模仿學習最佳人類駕駛實驗效果。端到端大模型的數(shù)據(jù)輸入是各種高質量人類駕駛數(shù)據(jù),多個攝像頭采集到的視頻,輸出就是人類駕駛行為的軌跡。通過這樣的模仿不斷更新端到端大模型,提升駕駛能力?!鄙虦^影CEO、商湯科技聯(lián)合創(chuàng)始人、首席科學家王曉剛在日前舉行的2025GDC全球開發(fā)者先鋒大會上表示,商湯絕影的與世界模型協(xié)同交互的端到端自動駕駛路線R-UniAD與DeepSeek技術創(chuàng)新思路同歸一源。
記者注意到,這一自動駕駛路線通過強化學習加速智駕跨越式演進,并且將在今年4月的上海車展完成實車部署。
據(jù)了解,在端到端方面,特斯拉通過700萬臺高階智駕量產(chǎn)車和超10萬P算力,已經(jīng)跨越了這個門檻,同時也構筑了與國內車企具有數(shù)量級差距的基礎設施壁壘。
而這與人工智能的發(fā)展歷程非常相似。隨著互聯(lián)網(wǎng)上的數(shù)據(jù)紅利被“榨干”,大模型性能的提升只能依靠進一步擴大算力規(guī)模和增加模型參數(shù)。人工智能技術的發(fā)展遇到了瓶頸,一定程度上變成了算力的比拼,一部分人認為,尺度定律(Scaling laws)失效了。
在此背景下,如何突破瓶頸顯得尤為重要。多階段的強化學習訓練方法成為突破瓶頸的方法之一。據(jù)介紹,商湯絕影這一多階段強化學習的端到端自動駕駛技術路線,具體分為三個階段:首先是依靠冷啟動數(shù)據(jù)通過模仿學習進行云端的端到端自動駕駛大模型訓練;其次基于強化學習,讓云端的端到端大模型與世界模型協(xié)同交互,持續(xù)提升端到端模型的性能;最后云端大模型通過高效蒸餾的方式,實現(xiàn)高性能端到端自動駕駛小模型的車端部署。
從性能上限來看,純強化學習訓練讓端到端智駕模型有望通過在提升性能的同時,充分探索多元場景和駕駛風格。未來,端到端智駕體驗的上限不再是“類人”,而是可以擁有超越人類的駕駛表現(xiàn)。
王曉剛表示,在這一過程中,端到端的模仿可以預測不同軌跡行為,世界模仿也可以模擬仿真出各種不同周邊環(huán)境的變化?!胺抡嫫魍ㄟ^一個reward function(獎勵函數(shù)),根據(jù)不同軌跡、不同環(huán)境的變化打分,找到最佳的駕駛行為?!?/p>
“在強化學習范式下,通過小樣本、多階段地學習,去降低數(shù)據(jù)門檻?;趶娀瘜W習長的思維鏈,生成軌跡的序列、環(huán)境變化的序列類似長的思維鏈,充分探索多元場景里面不同的駕駛風格。背后關鍵的要素就是要有一個很強大的世界模型支撐,能夠預測和模擬動態(tài)的駕駛環(huán)境,去支持在線的閉環(huán)訓練?!蓖鯐詣傔M一步表示。
基于此,商湯絕影發(fā)布了R-UniAD。據(jù)了解,該款端到端自動駕駛技術路線,以絕影量產(chǎn)智駕方案和“開悟”世界模型為核心,實車采集的真實數(shù)據(jù)和云端生成的仿真數(shù)據(jù)在“車云一體”的新范式下進行閉環(huán)流轉,使得端到端智駕系統(tǒng)的訓練更加全面、高效,大幅縮短了研發(fā)周期,降低了成本。
商湯絕影方面表示,上述量產(chǎn)端到端智駕方案預計將在年底交付,“開悟”世界模型也正式用于數(shù)據(jù)生產(chǎn),已經(jīng)搶占新技術路線的先機。
“依托商湯大裝置算力基礎設施,商湯絕影能夠建立強大的云端自動駕駛大模型,蒸餾得到可以部署在更小算力芯片的端到端模型,助力車企合作伙伴基于更小數(shù)量級的數(shù)據(jù),超越特斯拉依靠百萬臺量產(chǎn)車數(shù)據(jù)回流的自動駕駛方案?!鄙虦^影方面表示,在今年4月的上海車展,將會展示“與世界模型協(xié)同交互的端到端自動駕駛方案”的實車部署。