“硬剛”特斯拉！中國頂尖AI大牛TOP 2，正在車圈All in端到端

2024-10-09 15:16:49 作者：houxianyong

端到端，當前智能駕駛行業最火熱的詞匯；特斯拉，智能駕駛領域的標桿企業。不想當將軍的士兵不是好士兵，同樣的，總有一些企業，是想要超越第一，成為第一，小鵬、蔚來等企業都在做著這樣嘗試。而有一家企業在端到端技術上不不弱于特斯拉，甚至幾度領先。

2022年，在全行業都沒有關注端到端之時，這家公司就提出了行業首個感知決策一體的端到端智駕方案。在FSD V12版本也就是特斯拉的端到端方案面世之前，這家公司端到端方案已經斬獲CVPR最佳論文。

這家公司就是商湯絕影，它背后站著一位世界級的AI大牛。

被引用次數超過12萬次、H因子高達151、學科H因子139、出版著作150+……

在最新的計算機科學家排名中，這樣的學術成績，是中國第二。

這位AI大牛就是商湯科技聯合創始人、首席科學家、商湯絕影事業群總裁王曉剛。如今，王曉剛帶著他的團隊在智駕領域All in端到端，UniAD端到端智駕方案明年即將量產落地，正面“硬剛”即將入華的特斯拉FSD。

中國TOP 2，怎么評出來的

知名學術平臺Research.com剛剛公布了計算機科學全球頂尖科學家名單，其中商湯的王曉剛博士排名中國第2，世界第37。

Research.com的榜單中，從2022年開始王曉剛就一直是中國計算機科學TOP 3的“leader”學者。總被引用次數125264次，從2016年之后算，被引用次數也達到了92560次。

因為是細分的計算機科學排名，所以Research.com使用了較為準確的D-index，及學科內H因子作為依據，細化到被調查學科的論文和引用值，王曉剛博士的這一數據為139。

作為對比，深度神經網絡之父Geoffrey Hinton的D-index為166。

王曉剛博士被引用次數前三的論文，分別是Pyramid scene parsing network（15490次引用）、Deep learning face attributes in the wild（9381次引用）、Residual attention network for image classification（4386次引用）。

尤其是2017年他和團隊提出的PSPNet，深刻影響了后續圖像語義分割的發展。其核心思想是利用金字塔池化（Pyramid Pooling Module）模塊，通過使用不同尺度的池化核對輸入特征圖進行池化操作，有效地獲取多尺度的上下文信息。所以網絡能夠更全面地理解圖像中的語義信息，從而提高語義分割的準確性和魯棒性。

類似的成果還有很多，從內容上看，王曉剛的學術成果覆蓋模式識別、機器學習、特征提取和計算機視覺，涉及卷積神經網絡、深度學習、人臉識別系統、人臉和判別模型，均屬于人工智能范疇。

模式識別、大語言模型、計算機視覺技術等交叉領域的探索，正是目前自動駕駛領域最熱門、最被看好的方向之一——端到端自動駕駛。

所以，在商湯科技成長為平臺型AI公司之后，王曉剛也順理成章帶領團隊向難度更大、落地場景更復雜、規模潛力更大的汽車工業發起沖擊。

不過在介紹王曉剛目前的工作之前，先簡單說一下他的經歷。

誰是王曉剛

王曉剛是中國科技大學少年班出身，2001年畢業。2004年又獲得香港中文大學信息工程碩士學位。2009年獲得麻省理工學院人工智能實驗室計算機博士學位，同年加入香港中文大學電子工程系，2020年起擔任教授。

學術方面，王曉剛在頂級的國際期刊和會議發表超過300篇論文，其論文在Google Scholar上的引用超過120000次，h-index = 151。

他還是國際頂級計算機視覺會議CVPR 2017, ICCV 2011, ICCV 2015, ICCV 2017, ECCV 2014, ECCV 2016, ACCV 2014和ACCV 2015的領域主席。

產業層面，2014年同樣出身中科大、MIT，任教港中文的世界級AI科學家湯曉鷗，帶領王曉剛、徐立、楊帆等人創辦了商湯科技。

2016年起王曉剛任商湯研究院院長，整體負責商湯科技的研發工作，建立起包括計算機視覺、自然語言理解、語音識別、混合現實、人工智能內容生成、智能影像、通用人工智能、決策智能、智能芯片、人工智能傳感器和人工智能大裝置等眾多領域在內的研發體系。

近幾年間，商湯研究院在全球計算機視覺頂級期刊和會議上（如CVPR、ICCV、ECCV等）共發表600余篇關于深度學習和計算機視覺的研究論文，在世界所有科研機構和公司排名第一，在各類國際人工智能比賽中獲得超過70項冠軍。

2022年，商湯將成立智能汽車事業群，命名為“絕影“公開亮相，王曉剛為總裁。絕影目前已經和30多家國內外車企攜手合作，產品覆蓋超100款車型，累計交付260萬輛智能汽車。

與其他AI公司押注智艙或智駕的單一業務模式不同，絕影依靠商湯在計算機視覺、大算力轉裝置、大模型基礎架構方面的先行優勢，智能駕駛、智慧車艙、車路協同各個技術路線上不斷拿出量產上車成果。

而今年被點燃的“端到端”浪潮，王曉剛和絕影團隊不但all in，其方案UniAD還“血統純正”、上車在即，據傳明年即將入華的特斯拉FSD勢必將會遇到這個強勁的對手。

王曉剛如何All in端到端

在2023年8月馬斯克直播試駕特斯拉的端到端智駕方案FSD V12之前，商湯絕影的端到端方案UniAD就已經榮獲當年國際計算機視覺與模式識別會議（CVPR）最佳論文，引領端到端智駕的風潮。當地時間10月10日，特斯拉將舉辦“Robotaxi Day”，其端到端方案的最新進展值得期待。而作為端到端智駕的引領者，從去年CVPR 2023最佳論文到現在整整一年時間，商湯絕影做了這么幾件事。

首先是一段式端到端自動駕駛大模型的產品化、工程化不斷推進，已經從幾千行代碼，UniAD完成了向符合汽車工業標準規范的量產產品的演變。

對于一般的自動駕駛公司來說，這一步可能就是目標和終點，也是最難、最緊迫的挑戰。能全力交付端到端的產品，就能活到下一輪出牌，至于功能、體驗，都可以后期OTA。

但商湯絕影不止步于交付一個單一的自動駕駛模型，更進一步，提出了兩個新的技術和應用：

自動駕駛大模型DriveAGI，和車載AI Agent，幾個月前北京車展期間就曾提及，剛剛結束的WAIC人工智能大會上，又被王曉剛教授著重強調。

同出一源，都是商湯原生多模態大模型，同時又都以UniAD端到端大模型為基礎，和自動駕駛、智能座艙的功能、體驗深度關聯。

比如UniAD，在無高精地圖，甚至是針對某種類型目標0樣本學習的前提下，也能僅依靠視覺感知實際道路情況，準確地完成包括大角度轉向、避讓占道車輛及施工區域、繞行跑步行人等一系列高難度操作，做到“像人一樣開車”：

而DriveAGI在路上遇到救護車還可以自動避讓；遇到潮汐車道或公交車道時，它能根據限行規則自動規避：

除此之外，它也可以切換不同的駕駛風格，當需要趕時間時，你可以告訴DriveAGI開得更快⼀些；如果是想要放松⼀下，你還可以讓它開得平穩⼀些。

對于智駕，多模態大模型相當于一個“點讀機”，圖像、視頻數據哪里不會點哪里，不理解的目標場景，都能給出準確的解釋。

商湯絕影對于端到端的描述和布道，已經和業內主流思路有了底層的區別：從應對自動駕駛挑戰，上升到了AGI在車端應用。這其實和特斯拉的思路不謀而合，在即將到來的Robotaxi Day，無論是無人駕駛出租車還是類人機器人，都是具身智能的場景落地，都離不開AGI的底層技術支持。從這個角度來說，商湯絕影和特斯拉都在向著AGI的未來進發。

王曉剛認為現在談AGI上車，時機剛好，甚至還有點緊迫，因為AGI應該是端到端的必要條件和前提。

所謂端到端，就是駕駛全流程的AI化，傳感器信息輸入，直接輸出決策數據信號。直接的好處，就是可以讓AI模型直接學習成熟的駕駛行為，理論上具備和人一樣的駕駛能力。

端到端對傳統自動駕駛技術范式的降維打擊，是用數據驅動替代規則驅動，解決系統能力上限被鎖死，以及后期無休止高投入、維護難的問題。

這樣的誘人前景讓現在所有玩家都跟進押注。但無論是出于成本考慮還是技術實力所限，現實的情況是大部分產品實現端到端，都是靠“兩段式”方法，即感知模型后面，串一個決策和規控模型。

但商湯絕影堅持搞“純粹”的一段式端到端模型：輸入一段視頻，輸出一段預測的軌跡。

王曉剛給出的理由是兩段式首先解決不了信息丟失的問題，但更致命的是后串決策規控模型，“實際上規模很小”。

小模型永遠無法激發出應對復雜場景的通用能力，永遠無法產生自動駕駛的ChatGPT。

端到端天然就應該是原生大模型，也只有這樣，才能解決自動駕駛從感知向認知轉變的問題。

所以商湯絕影的DriveAGI誕生，把商湯原生多模態大腦能力應用在車端，能夠同時輸入、處理多種數據類型的模型，可以是文本、語音、圖像、視頻等等。

實際上相當于給端到端自動駕駛系統，安裝了一個和人類基本認知能力相同的大腦。

底層的思路是這樣：既然大語言模型的學習、認知能力已經和人類差別不大了，那為什么不能用語言模型基礎的范式框架去處理其他數據類型的任務呢？

實際上就是用大模型語義理解能力去看、去分辨圖像、視頻或者任何類型的數據。

現在都說只有端到端才能真無圖，沒有無圖就沒有端到端…這樣的觀點背后暗含著系統能夠“認知”世界的前提，但這是狹義端到端模型本身完成不了的任務。

實際上幾乎所有和智能車參考交流過的業內人士，都說現在根本不存在絕對的無圖，各家方案都或多或少要用到相關信息。

或者說“端到端”這個大黑盒，決策過程、思維能力等等開發者根本就無從知曉，“菩提本無樹”。

現階段，商湯絕影根據歷史研發積累和技術發展趨勢給出的最佳解決方案，就是利用多模態大模型展現出的通用AI能力，解決自動駕駛的認知問題。

Research.com，權威嗎？

這兩年間Research.com名氣越來越大，他們的學校、學科、學者排名也被越來越多的從業者和媒體引用參考。

按照Research.com的介紹，它們本質上是一家有經營性質的公司，主要服務對象是四處求學的國際生。

所以它們連續推出各種榜單排名也合情合理。

Research.com賺錢的路子有兩個，一是直接和留學培訓機構合作，收取咨詢費，二是靠網站廣告位賺錢。

可能也是因為不靠任何學校或研究所冠名贊助，Research.com的榜單含金量被認可程度越來越高。

它們有一支60多人的專家組，包括各個學科的著名學者，但在評選時不依賴某一組選定科學家的意見，也不會直接發調查問卷，而是依賴硬性數據進行排名。

數據要么是公開的，要么來自擁有多年數據收集經驗的知名、可信的組織。比如有關學院、招生、畢業、校園設施的一般信息基于最新版本的 IPEDS 和 Peterson數據庫。有關學者的信息取自谷歌學術、College Scorecard 數據庫等等。

One more thing

根據被引用次數、H因子、出版物等等客觀公開數據進行排名，王曉剛博士是中國計算機科學No.2。

那第一呢？

正是湯曉鷗博士，商湯科技的創始人，王曉剛的老師兼創業伙伴。

所以計算機視覺領域，學術水平和綜合應用中國實力最強是誰，應該沒有爭議。

（轉載來自：智能車參考）

>>點擊查看今日優惠<<

本文導航