撰文 | 李信馬
題圖 |?百? ?度
時隔多年后,百度創(chuàng)始人李彥宏又一次為自動駕駛上車“站臺”。
4月15日,他和極越 CEO 夏一平來了一次線上直播。一輛極越01上,自動駕駛系統(tǒng)接管了司機的職責(zé),兩人則發(fā)揮了人類的強項,全程互動講解。
在深圳的城市道路上,差不多一小時的旅程中,幾乎沒有接管,自動駕駛的表現(xiàn)不說超越人類司機,也是相差不大,絕對沒有“翻車”。
夏一平的對此評價是“純視覺地表最強智駕”,李彥宏則認為足以“對標(biāo)”特斯拉,甚至在中國還優(yōu)而勝之——“中國它(特斯拉)不太敢開吧?!?/p>
特意提到特斯拉,是因為兩家車企,有著同樣的純視覺技術(shù)路線。這一技術(shù)路線是讓攝像頭成為自動駕駛車輛主要或者唯一的“眼睛”,通過人工智能識別,然后進行自動駕駛。
在自動駕駛的賽道,有多個技術(shù)路線。純視覺的優(yōu)點是,相比激光雷達、毫米波雷達、超聲波傳感器等,攝像頭的成本相對較低,但缺點就是,攝像頭容易受到光照條件的影響。在逆光、起霧、大雪等情況下,攝像頭的辨識能力可能就會下降,特斯拉曾經(jīng)的多起事故,就是在類似的情況下發(fā)生的。此外,在生成三維空間上,純視覺方案是通過二維圖像來生成的,在精準(zhǔn)度和魯棒性上“先天不足”。
自動駕駛需要絕對的安全,因此,很長一段時間以來,多傳感器融合的技術(shù)方案要更具競爭力一些,最大的問題則是傳感器價格過于昂貴,業(yè)界寄希望于通過技術(shù)進步和量產(chǎn),來將這些傳感器的價格降低到足以大規(guī)模應(yīng)用。
有趣的是,人工智能,尤其是神經(jīng)網(wǎng)絡(luò)和大模型的發(fā)展速度,要比硬件成本價格下降的更快,這也讓我們看到了純視覺方案成為自動駕駛主流技術(shù)路線的趨勢。
一、引領(lǐng)純視覺技術(shù)路線
在這條路線上,特斯拉可以說是開創(chuàng)者和領(lǐng)頭羊。2024年3月是一個重要的時間節(jié)點,在13日,特斯拉開始推送 FSD v12.3 的軟件更新,特斯拉 CEO 埃隆?馬斯克稱其是一次相當(dāng)于大版本更新的“重大發(fā)布”。這一版本在算法層面做了較大的改動,從以往依賴手動編碼規(guī)則和機器學(xué)習(xí)模型的方法,轉(zhuǎn)向采用端到端的神經(jīng)網(wǎng)絡(luò)系統(tǒng)。
從目前的測評視頻來看,這一版本在自動駕駛能力上有著明顯的進步,已經(jīng)接近L4級別的自動駕駛。馬斯克特意開放了為期一個月的免費試用,足以證明他對這一版本的信心。不過目前在國內(nèi),我們暫時還體驗不到該服務(wù),而且中國道路環(huán)境也與美國有明顯差異。
也因此,同樣走純視覺技術(shù)路線的極越,可以說是最接近特斯拉的國內(nèi)車企了。在25日,極越也發(fā)布了 OTA V1.4.0 新版軟件,并宣布2024年,在百度地圖LD(車道級導(dǎo)航)的支持下,極越PPA智駕即將實現(xiàn)全國都能開。
極越的純視覺采取的是“BEV+OCC+Transformer”(即B.O.T)的技術(shù)方案,新版本中,重點升級的是OCC占用網(wǎng)絡(luò),讓感知能力大幅提升,在達到激光雷達厘米級3D模型刻畫的基礎(chǔ)上,對障礙物的識別種類再度增加,包括施工牌、圍欄、路障、防撞桶等單個靜態(tài)障礙物,還有道路臨時施工的圍欄、靠邊??康墓收宪囕v、臨時堆放的大垃圾桶等障礙物。
OCC感知能力的提升,又帶動了點到點領(lǐng)航輔助PPA能力的大幅升級,可以應(yīng)對更復(fù)雜的行車場景。比如在路況復(fù)雜、臨時施工的路口主動繞行和及時剎停,合理規(guī)劃路線等。在李彥宏的直播中,這些能力也基本得到了體現(xiàn)。
二、大模型帶來智駕提升
自動駕駛發(fā)展了數(shù)十年,為什么純視覺技術(shù)方案的落地速度突然加快?答案是大模型。
研究顯示,真正的自動駕駛系統(tǒng)想要達到量產(chǎn)應(yīng)用條件,至少需要經(jīng)過約170億公里的道路驗證。原因在于 ,即使現(xiàn)有技術(shù)已經(jīng)能夠應(yīng)對95%以上的常見駕駛場景,但最后5%的Corner Case依舊有可能會出現(xiàn)問題(自動駕駛的Corner case是指模型之前沒有見過,會導(dǎo)致模型識別異常的場景)。
一般學(xué)習(xí)一個新的Corner Case需要收集超過一萬的樣本,整個周期在2周以上。即使一個團隊擁有100輛自動駕駛車輛,24小時不間斷的進行道路測試,積累數(shù)據(jù)所需要的時間也是以“百年”為單位——這顯然是不切實際的。
ChatGPT的橫空出世,讓我們看到了大模型各行各業(yè)的巨大潛力,而自動駕駛也在其中。在這里,有關(guān)具體的技術(shù)就不進一步展開了,引用不久前發(fā)布的華為盤古汽車大模型對其效果的描述:“盤古汽車大模型重塑自動駕駛的訓(xùn)練,可將行車數(shù)據(jù)進行重建,生成能夠靈活編輯的虛擬空間,如視頻中生成的華為東莞園區(qū)的道路空間,可在指定的行車路徑中,增加對向行駛的車輛。模型基于超車線路構(gòu)建不同的光照、天氣、建筑,快速生成近百個樣本,讓模型更好學(xué)習(xí)如何應(yīng)對復(fù)雜超車場景的Corner case?!?/p>
通過大模型快速進行真實場景還原,并各種復(fù)雜場景生成Corner case用于模型訓(xùn)練,盤古汽車大模型讓自動駕駛的Corner Case閉環(huán)周期從兩周以上縮短到兩天內(nèi)。
作為吉利與百度合作推出的高端汽車品牌,極越的自動駕駛能力來自百度,25日當(dāng)天,百度也發(fā)布了百度Apollo自動駕駛視覺大模型VTA(Vision Takes All),大模型大幅升級了自動駕駛的動靜態(tài)檢測、時序跟蹤、實時建圖、場景理解等能力,據(jù)百度智能駕駛事業(yè)群組首席研發(fā)架構(gòu)師、IDG技術(shù)委員會主席王亮所說:“基于大模型,百度打造了行業(yè)第一的智駕數(shù)據(jù)生產(chǎn)線、LLM賦能的自動駕駛數(shù)據(jù)索引,與此同時,通過生成式AI技術(shù),百度也具備高效處理長尾數(shù)據(jù)的能力,這些都是推動端到端自動駕駛技術(shù)發(fā)展的重要數(shù)據(jù)引擎?!?/p>
而大模型對自動駕駛落地很重要的一點在于,在硬件不升級的情況下,依舊可以靠軟件升級來提高智能水平,這對本身成本就較低的純視覺路線來說,無疑是很有利的。相比其他傳感器,攝像頭的成本最低,也就是說最容易得到普及和形成規(guī)模效益,而搭載純視覺解決方案的車輛越多,成本和性能優(yōu)勢就也越明顯。
在此,我們摘錄部分李彥宏直播對話中的描述:
“這個因為是online upgrade,所以它會越來越智能,越來越聰明?!?/p>
“一旦跑起來的話,很多數(shù)據(jù)再反饋回來正循環(huán)。這個車,應(yīng)該你每天開都是一個新版本的車,是這種感覺,就像每天買了一輛新車一樣?!?/p>
“以后它還學(xué)你的各種各樣信息,你的喜好,會完全變成一個特別懂你,特別了解你的機器人?!?/p>
當(dāng)然,硬件上省的錢,未來可能會以軟件收費的形式花出去。比如特斯拉的 FSD ,目前在美國的售價為1.5萬美元,或者每月199美元。但在自動駕駛發(fā)展的長期預(yù)想中 ,對個人收費主要存在于過渡階段,無人共享出租車才是最可能的行業(yè)最終形態(tài)。
在這個領(lǐng)域,百度和特斯拉同樣位于領(lǐng)頭羊的位置,前者的蘿卜快跑項目在穩(wěn)步推進,后者也剛剛透露了新的計劃進展。而純視覺,綜合來看,是目前最接近距離實現(xiàn)這一目標(biāo)的技術(shù)路線了。?
圖片來源:X