天天觀察:商湯王曉剛:AGI能為智能汽車提供更好的駕乘體驗

版權聲明:本文版權為網(wǎng)易汽車所有,轉(zhuǎn)載請注明出處。


(資料圖)

網(wǎng)易汽車4月3日報道 2023中國電動汽車百人會論壇期間,商湯科技聯(lián)合創(chuàng)始人、首席科學家、絕影智能汽車事業(yè)群總裁王曉剛表示,智能汽車是通用人工智能實現(xiàn)閉環(huán)的一個非常好的場景,我們已經(jīng)有人機共駕。未來我們希望車和模型之間能夠產(chǎn)生更有效的互動,那就完成了從人到車,到模型這樣的一個互動的閉環(huán),能夠讓通用人工智能為我們提供更好的駕乘體驗,解鎖無限的想象空間。

以下為王曉剛演講實錄:

各位同仁、各位嘉賓,大家上午好!我是商湯科技王曉剛,新年伊始,像ChatGPT,還有GPT-4掀起了通用人工智能的熱潮,這是一場新的技術革命。今天我也是非常有幸能有這個機會跟大家一起探討,通用人工智能和多模態(tài)大模型給智能汽車帶來的機遇和挑戰(zhàn)。

從2012年開始,過去十年,人工智能的技術革命是以深度學習不斷去突破工業(yè)應用的紅線為起點的,誕生了一系列的AI+場景的應用。那么基于每個場景都有不同的專屬的模型,其中的研發(fā)成本比較高,周期比較長。

從2022年開始,新的通用人工智能,它是以非常高效的方式去解決海量的開放式任務,更加接近人的智能,而且能夠產(chǎn)生有智慧的內(nèi)容,它也帶來了新的研究范式,即基于一個非常強大的多模態(tài)基模型,通過強化學習和人的反饋,不斷解鎖模型新的能力。

什么是通用人工智能呢?我們可以跟現(xiàn)有的人工智能系統(tǒng)做一個比較?,F(xiàn)有的人工智能也能夠接收多模態(tài)的數(shù)據(jù),但是它輸出的任務都是事先定義好的。如果我想給這個系統(tǒng)去增加一個新的任務,我就要對系統(tǒng)進行重新設計,還要采集大量樣本。

在通用人工智能時代,我們通過輸入提示詞和多模態(tài)內(nèi)容,它就可以去生成多模態(tài)的數(shù)據(jù),更重要的是,它可以用自然語言去生成對任務的描述。自然語言即可以用非常靈活的方式去覆蓋大量的長尾問題和開放性的任務,甚至包括一些主觀描述。

比如說,在之前我們做一些特定場景的檢索任務時,一個人工智能系統(tǒng)可能是有幾十個標簽。我們做過實驗,如果要是用自然語言描述,我們可能有一萬多個詞,通過它們的組合去描述各種任務,實際上是非常強大,而且是靈活的。

那么,這里面舉一個在自動駕駛中遇到的一個例子。給定一個圖片,我們想去問我們是否需要減速?在我們現(xiàn)有的AI的系統(tǒng)里面,我們首先要做物體的檢測,能夠檢測物體框,里面做文字的識別,最后做這樣的一個決策。那么,其中所有的過程里面的每一個模塊都是事先定義好的任務。

在通用人工智能下,給定圖像,我們只需要用自然語言去問這個圖像的問題,比方說,這個圖標是什么意思,我們應該做什么?這個模型本身不會發(fā)生變化,它輸出就會通過自然語言的方式,能夠給我們一系列的這種邏輯的推理,最后給我們結(jié)論。比如說,它可以告訴我們這里面的限速是30公里每小時,前面100米是學校的區(qū)域,有小孩,你應該去小心,能夠?qū)④囁俳邓俚?0公里每小時以下等等這一些??梢钥吹?,這都是一些開放式的新的任務,可以對我們?nèi)斯ぶ悄芟到y(tǒng)產(chǎn)生一個非常大的變革。

通用人工智能還有非常強的一點,它能夠產(chǎn)生內(nèi)容,而且是有智慧的內(nèi)容。智能駕駛,或者自動駕駛汽車里面我們有“數(shù)據(jù)飛輪”的說法,我們的模型能夠從駕駛終端采取高質(zhì)量的數(shù)據(jù),對模型進行更新,然后再去從終端提升數(shù)據(jù)的量和質(zhì)。

在通用人工智能時代,它會有一個智慧的飛輪,這里面人和模型會產(chǎn)生互動,人會給模型輸入什么呢?去輸入Align With Human Intention,就是這個模型是很強大的,但是它其實不知道人需要它什么樣的能力。通過人的反饋,它就更好的能夠去理解人需要它展示什么樣的能力,而去解鎖這個模型更多的技能。同時,這個模型給人輸出的是什么呢?是有智慧的一個內(nèi)容。我們都知道,這些內(nèi)容會激發(fā)人的各種創(chuàng)作和智慧的產(chǎn)生,所以這其中又會產(chǎn)生智慧的飛輪。

但是,AGI對算力的需求是非常大的。ChatGPT具備1750億參數(shù), 需要3000~5000張A100訓練卡,而我們也可以看到ChatGPT一次訓練的成本是上千萬的美金。此外,今天它的推理的成本每天也有幾百萬美金高昂的成本在。

商湯從2021年在上海的臨港建立了我們AIDC的超算中心,實際上是在這方面也有提前的這樣的一個布局。SenseCore AI大裝置基于2.7萬塊GPU的并行計算系統(tǒng)實現(xiàn)了5.0 exaFLOPS的算力輸出,可支持最多20個千億參數(shù)量超大模型(以千卡并行)同時訓練。

從2019年開始,商湯從10億參數(shù)的視覺模型研發(fā),到今天有320億全球最大規(guī)模的通用視覺的模型。在NLP領域,商湯當前也有接近2000億參數(shù)的大模型,包括亦有能力去訓練1800億參數(shù)的多模態(tài)的模型。所以,未來通用人工智能基于多模態(tài)的基模型可以做視覺的感知,語言的理解、內(nèi)容的生成和決策的推理。

商湯絕影是商湯下面做智能汽車的業(yè)務板塊,我們堅持駕艙云三位一體的發(fā)展策略。我們希望能夠通過駕艙融合,帶來更好的駕乘體驗;AI云能夠去為自動駕駛提供數(shù)據(jù)閉環(huán)的服務,能夠通過提供豐富的產(chǎn)品功能讓智能座艙成為真正的第三生活空間。同時,商湯的AI云也為通用人工智能實現(xiàn)智能駕駛和智能座艙打下了非常強大的基礎。

我們可以看到,在自動駕駛領域,BEV是我們當前主流的技術路線,未來可以朝多模態(tài)、通用人工智能的方向發(fā)展。我們通過AIGC可以去生成困難的樣本,我們模型去輸入多模態(tài)的這樣的一些數(shù)據(jù)。其中,自動駕駛多模態(tài)的大模型可以做到感知和決策的一體化,輸出則對3D的環(huán)境進行重建實現(xiàn)環(huán)境的可視化理解,我們的行為解碼可以生成完整的路徑的規(guī)劃。同時,我們動機的解碼器可以用自然語言去描述我們推理的過程,進而使我們自動駕駛的系統(tǒng)變得可以解釋。

我們也是基于這些多模態(tài)的大模型可以做到數(shù)據(jù)的感知的閉環(huán)和決策的閉環(huán),從前端自動的去采集高質(zhì)量的數(shù)據(jù),利用大模型自動的數(shù)據(jù)的標注,包括產(chǎn)品的檢測,能夠幾百倍的去提升我們模型迭代的效率并降低它的成本。

在智能座艙板塊,通用人工智能使我們基模型具備空間環(huán)境的理解、用戶狀態(tài)的感知,多模態(tài)的指令,還有多輪對話,內(nèi)容生成等一系列的能力。它就可以去賦能,作為我們情緒的感知,智能助手,基于情感的對話、創(chuàng)意、內(nèi)容的生成,個性的交互等等這一系列功能,不斷地去提升我們的個性化的體驗。也使我們的場景從上車、行車、停車、離車,進而拓展到娛樂、辦公、購物、休息,這里面有很多的可以去探索的應用的場景。

實際上,智能汽車是通用人工智能實現(xiàn)閉環(huán)的一個非常好的場景,我們已經(jīng)有人機共駕。未來我們希望車和模型之間能夠產(chǎn)生更有效的互動,那就完成了從人到車,到模型這樣的一個互動的閉環(huán),能夠讓通用人工智能為我們提供更好的駕乘體驗,解鎖無限的想象空間。

最后,這個月商湯也在通用人工智能方面會有我們的技術日,去介紹一系列的多模態(tài)的大模型,包括語言的大模型、感知的大模型等等。我們希望去與我們的客戶和合作伙伴共同邁向通用的人工智能,謝謝大家!

關鍵詞:
圖片版權歸原作者所有,如有侵權請聯(lián)系我們,我們立刻刪除。
新化月報網(wǎng)報料熱線:886 2395@qq.com

相關文章

你可能會喜歡

最近更新

推薦閱讀