商湯絕影許亮:和汽車"商量" 創(chuàng)建艙內場景新生態(tài) 世界報資訊

版權聲明:本文版權為網易汽車所有,轉載請注明出處。


(資料圖片僅供參考)

網易汽車4月21日報道4月18日,以“擁抱汽車行業(yè)新時代”為主題的2023第二十屆上海國際汽車工業(yè)展覽會正式拉開帷幕。網易汽車邀請各位高端行業(yè)精英走進訪談間,共同探討汽車產業(yè)轉型下的品牌破局與新生,把脈行業(yè)發(fā)展新趨勢。今天來到網易汽車訪談間的是商湯絕影智能車艙副總裁許亮。

商湯絕影智能車艙副總裁許亮

以下為訪談實錄:

網易汽車:各位網友大家好,這里是2023年上海車展網易汽車訪談間的現(xiàn)場,今天我們有幸邀請到的是商湯絕影智能車艙副總裁許亮,許先生您好,跟我們的網友打個招呼吧。

許亮:大家好,我是來自于商湯絕影的許亮。

網易汽車:這次上海車展商湯絕影特別打造了一個智能的未來展示艙,您可以給我們介紹一下有哪些亮點嗎?

許亮:其實我們?yōu)槭裁唇形磥碚故九摚恳驗樵谡麄€商湯絕影的發(fā)展過程中,我們最近的研發(fā)有了重大突破,所以我們這次上海展覽給大家?guī)砹烁嗟男碌漠a品體驗。所以圍繞著智能車艙我們有兩個方面的闡述,一個是我們在這里面加了很多新品發(fā)布的最新功能,包括我們的六大新品,像我們的air touch,就是隔空手勢,包括我們的AR K歌,在座艙里面去唱卡拉OK,包括我們的智能屏保,還有一些娛樂的全新功能,都帶來了現(xiàn)場。整個我們座艙里面是把這些新品融入到了我們接下來可能會實現(xiàn)大規(guī)模產業(yè)化的這樣一個創(chuàng)新的體現(xiàn)。 第二是大家知道,最近人工智能的大模型這個領域內是非常火的,那我們商湯科技在4月10號也舉辦了技術交流日,公布了我們最新的日日新大模型體系,圍繞這個模型我們有很多垂直領域內的細分的應用。比如說像我們語言大模型、包含多輪的對話能力,叫做商量,商量商量都能解決。其實在座艙內,我們今年就把這樣一個多輪對話的體系商量帶到了座艙內,大家感興趣可以到我們現(xiàn)場去體驗。除了這個以外,在內容生成方面,我們推出了這個產品叫秒畫,秒畫就是在很短的時間內,用一些關鍵詞就可以生成一些跟關鍵詞非常貼切的圖片。我們也把這樣的能力帶到了我們的座艙內,這個就是將最新的研發(fā)成果和我們的座艙相結合,我相信這兩類創(chuàng)新在我們的未來座艙內都可以看到,也歡迎大家到我們的展臺來。

網易汽車:我也了解到已經有很多車型搭載了我們商湯絕影智能車艙產品,有沒有哪些車型可以給我們舉一兩個例子呢?

許亮:那非常多了,首先我是非常高興的,因為智能汽車的發(fā)展也給了我們人工智能企業(yè)快速把我們的創(chuàng)新成果落到汽車內,實現(xiàn)產業(yè)化的基礎。在過去幾年內,我們商湯絕影一共開發(fā)了三十多款全新的產品,為智能汽車座艙特別定制的產品。在此過程中我們也得到了很多客戶的認可,我們?yōu)閲鴥热嗉铱蛻籼峁┝瞬煌慕鉀Q方案。那么以這次車展為例,像我們重要的合作伙伴之一蔚來汽車,他就有很多新品發(fā)布,以ES7為例,這上面有很多的解決方案都是我們商湯絕影提供的。大家知道蔚來是非常注重客戶體驗的車企,那在我們開發(fā)這樣的座艙產品視覺算法的時候,我們更多會考慮它的用戶需求和產品定義。比如我們在里面會實現(xiàn)管柱自標定這樣的一個全新的技術,因為我們的相機是固定在方向盤管柱上面的,那么在整個轉動方向盤的過程中,我們必須保證算法的可靠性,這個在行業(yè)內其實都是很優(yōu)秀的。

除了這個以外呢,比如說我們另外的合作伙伴像長安,長安逸達(參數(shù)丨圖片)的產品,其實我們每年除了提供完整的智能車艙的駕駛員的保護系統(tǒng)之外,我們還創(chuàng)新的把我們的健康檢測系統(tǒng),就是用相機來判定駕駛員的健康狀態(tài),比如他的心率、呼吸頻率,整個在駕駛過程中給你一些保護,如果發(fā)現(xiàn)一些異常情況就會給你一些提醒,或者說及時的就醫(yī)。除了這個以外,我們也有比較炫酷的像手勢,包括美顏相機這樣的產品,也帶到了長安逸達上面去。類似的案例非常多,我們最重要的一點就是,人工智能的發(fā)展速度非常快,我們這三十多種創(chuàng)新的產品真正是找到了一些比較好的合作伙伴,實現(xiàn)了大規(guī)模的產業(yè)化落地。我相信在接下來的兩到三年之內,我們會在市面上看到越來越多的產品搭載了我們商湯絕影的解決方案,這是非常令人高興的事。

網易汽車:剛才您也提到了一個唇語唇動的識別功能,能跟我們網友們介紹一下這個功能是怎么體現(xiàn)的嗎?

許亮:唇語唇動相對來說在行業(yè)內還是比較新的,我可以簡單講一下它的背景和目標,以及它的技術原理。從背景上來講,我們現(xiàn)在座艙內的交互體驗大規(guī)模的采用了語音識別的技術,這個技術的產業(yè)化發(fā)展已經十幾年了,相對比較成熟了。但是這個中間有一個比較大的痛點,就是我們在開車過程中,如果我窗戶降下來背景噪音比較大,或者說艙內頻繁有人說話互相干擾的時候,它的語音識別相對來說就會有降低精度的可能。我們做過一些簡單的測算,在一些背景噪音比較大的情況下,它的召喚率可能只有40%,為了提高用戶的進一步交互體驗,需要去解決這個痛點,所以就給唇語唇動帶來了這樣一個新的機會。

那唇語唇動的價值是,比如說我們可以識別到座艙內的位置,具體是哪一個位置的人在說話?包括他說了什么話?這個其實是有很多交互的。以駕駛員為例,即使旁邊有很大的噪音,或者說是窗外的風噪、胎噪很大,召喚率40%多的時候,我們加上唇語唇動的識別,加上語音的識別這樣一個技術,我們可以把我們的召喚率提升到80%以上。在一些特定情況下,常用的快速短語我們甚至可以做到90%以上,這個就可以大大的提高我們的產品力。

最后講一下我們的原理,其實唇語唇動的技術就是應用人工智能深度學習的算法,其實它分成唇動檢測和唇語檢測兩類。那么唇動檢測就是我們檢測到座艙內,以駕駛員為例,他嘴唇在變化,有說話的起始時間點,到他說話結束的時間點,我們檢測到了唇語,那就說明他在說話,那么這就是第一個模型要完成的任務,叫做唇動模型。第二個就是這段時間內,所有的內容我們都會用另外一個唇語的模型來做檢測,來判定你在中間說了什么話。這個技術其實還是有一定的難度,你也知道其實我們中國的語言使用環(huán)境,一個是受方言的局限性,因為大家會有一些方言夾雜在說話的過程中。第二個每個人在說話的過程中,他的口腔開張程度也不太一樣,語速也不太一樣,所以說我們需要有訓練大量的模型,有大量的數(shù)據讓我們的模型變得更準。在這個過程中,將我們現(xiàn)在支持座艙內的三十多種拓展到八十多種,這是我們的目標,有很多種常見的短語都可以實現(xiàn)精準的識別,當下行業(yè)存在的對現(xiàn)有的語音識別不足的問題,我們提供了更好的解決方案。

網易汽車:其實現(xiàn)在市面上智能座艙產品也特別多,您覺得我們商湯絕影的優(yōu)勢,或者差異化的優(yōu)勢是怎么樣的?

許亮:其實AI相對來說,雖然時間不長,但是大家都覺得這是一個重要的賽道,我相信這個智能學習的視覺技術作為一個公司的主營產品,甚至在座艙內去做布局,還是有很多企業(yè)都做了嘗試。我覺得在這樣的一個環(huán)境中,大家的目標都是一致的,怎么樣利用快速的AI行業(yè)發(fā)展的最新技術,把它變成一個座艙內可實現(xiàn)的產品,同時實現(xiàn)產業(yè)化。你會發(fā)現(xiàn)在這個過程中,我們商湯絕影就建立了三種優(yōu)勢,第一個是我們自己的創(chuàng)新體系,因為商湯科技是亞洲最大的人工智能軟件公司,我們的產品線非常豐富,同時我們自己本身對創(chuàng)新的速度和效率都有很高的要求。你會看到在過去幾年內,我們絕影一共發(fā)布了三十多種新產品,這個速度是非??斓?。我們認為一個非常好的創(chuàng)新體系和帶來的創(chuàng)新速度,這個是我們獲得客戶認可的第一步。第二你也知道,汽車的產品它更多是要求一些工程化的內容,所以從創(chuàng)新的實現(xiàn)到整個實現(xiàn)汽車大規(guī)模的產業(yè)化,中間有一個非常重要的工業(yè)化的過程。那么這個工業(yè)化里面覆蓋到了你的體系、流程、交付、測試等方方面面的環(huán)節(jié),所以我們整個商湯絕影在建立座艙這個業(yè)務,包括團隊的起始時間,我們就把這些內容的建設作為重要的一點。你會發(fā)現(xiàn)在過去幾年內,我們是行業(yè)內第一家完成各種體系認證的公司,幫助我們從模型到產業(yè)化路徑。

第三個我認為比較重要的一點是說,商湯絕影在推進業(yè)務的過程中秉承的理念是合作共贏,其實商湯科技的價值觀是正信恒勇合,所以我們在跟所有的客戶合作過程中,我們更多的是想到客戶現(xiàn)在的需求是什么?我們有什么辦法利用我們的技術幫他做一些提升?我們是一個合作共贏的理念,很多的客戶就愿意跟我們合作,他們會有很多個性化的需求和個性化的產品定義,用我們的研發(fā)資源和我們的能力去幫助完成這樣一個性能的提升。在這樣的過程中建立了很好的基礎,客戶就愿意跟我們合作。那我相信這也是我們漸漸的走向市場,成為一個市場主流的玩家,甚至引領這個市場最重要的一個環(huán)節(jié)。

網易汽車:現(xiàn)在整個行業(yè)都在講行泊一體、艙駕一體,智能座艙能在這些方面發(fā)揮怎樣的作用?

許亮:這個從兩個角度去看,一個是從技術角度,就是我們知道智能座艙在最近幾年相對比較火,最重要的原因是我們座艙內的電子架構發(fā)生了一個比較大的變化。我們是從傳統(tǒng)的MCA的架構轉變?yōu)橛蚩氐募軜?,在這個里面關于智能汽車出來了兩個最重要的架構,一個就是智能座艙,一個就是智能駕駛。

但是這兩個追求的目標和它的應用場景是不一樣的,比如說以座艙為例,座艙更追求它產品的多樣性,我們要保證速度。這些類似于互聯(lián)網的生態(tài),手機的生態(tài),是不是能夠跟車上做遷移和融合?讓我在手機上體驗到的功能,在座艙內都能體驗到,這個我們叫用戶體驗,在這個過程中追求的是速度和多樣性。

但是智能駕駛不一樣,智能駕駛更多的是考慮安全性,所以它會考慮我們在行車過程中,怎么樣保證我們的車安全駕駛是我們的最核心理念,所以對它的軟件算法也好,對它的硬件架構也好,都會提很多跟安全相關的要求。所以這樣的架構就決定了在過去的一段時間內,所有的行業(yè)的智能駕駛和智能座艙是分開去發(fā)展的,因為你的目標不一樣。車廠其實也是兩個組織,我們在行業(yè)內同時去支持兩個業(yè)務的玩家,也是按照不同的需求去配置的。那我覺得現(xiàn)在出現(xiàn)了一個新的機會,為什么?因為現(xiàn)在一個是座艙的算法芯片,這是咱們看的第二點,就是座艙的芯片、算力有了大量的突也破,給了自動駕駛和智能座艙兩域融合的一個硬件基礎。

第二在整個發(fā)展過程中,大家對于這個行業(yè)的經驗有了很高的積累。那我們會覺得我在做自動駕駛的解決方案的算法和決策依據的時候,我需不需要更多的知道座艙內有幾個人?是老人還是小孩兒?甚至說有沒有一些特殊群體?現(xiàn)在的狀況是否適合采取緊急的制動?所以這個過程中你會發(fā)現(xiàn),有大量的場景融合出來了,所以我們現(xiàn)在在看到很多的車廠在思考,兩域融合帶來的最大的價值,是怎么把座艙內的精確的感知信號作為一個輸入,給到自動駕駛,幫助它形成一個大腦的概念,決定所有的駕駛行為。比如舉個簡單的例子,如果我們檢測到座艙內有低齡兒童或者年齡比較大的老人,其實不太適合采用激進的駕駛模式,因為對這類人群更需要舒適的乘坐體驗。但在傳統(tǒng)駕駛方式過程中,我們可能不太會針對人群去做區(qū)分,那么我相信域控融合接下來肯定是一個重大的趨勢。

如果從決定來說呢,我們最大的優(yōu)勢是說,我們除了提供座艙的很多視覺的產品,我們在自動駕駛這個領域也提供了很多的解決方案,像L2+的解決方案。那我們在同時處理兩個解決方案的內容,我們其實都有一些比較好的產品思路和產品的實踐,一旦真的走向兩域融合的時候,我們商湯絕影在其中還是可以為行業(yè)做出更多貢獻的。

網易汽車:我最后一個問題是目前Chat GPT的概念和技術都比較火,在您看來未來它和汽車行業(yè)能有怎樣的融合?以及有怎樣的趨勢?以及您覺得智能車艙的未來發(fā)展趨勢會是怎樣的?還有哪些想象空間?

許亮:這個想象空間,其實這是一個非常開放的話題,最近這段時間Chat GPT也非?;?,在中國領域內很多公司都在嘗試著往大模型方向去研發(fā),那我們商湯其實在這里也有很深的積累,我們是從2019年開始研發(fā)我們的大模型。比如說我們視覺類的大模型,現(xiàn)在可以做到320億參數(shù),在2022年我們把我們視覺大模型做了發(fā)布的時候,在行業(yè)內其實純視覺領域內還是有很多的領先性,那我們在自然語言類的大模型上,最新的研發(fā)成果,就是我們剛才提到的技術交流日上我們推出的“日日新”大模型體系,在行業(yè)內都是非常領先的。除了這個以外,我們還發(fā)布了大量的內容生成類的模型,就剛才提到像秒畫這樣的功能。在行業(yè)的發(fā)展過程中,首先是一個AI行業(yè)技術的突破,帶來了很多應用的場景。比如說我們以聊天類的機器人為例,我們叫Chat類的機器人,那么這個機器人它的產品是什么?如果你發(fā)現(xiàn)一個人工智能的設備具備了多人對話的價值,它能夠回答你問到的所有跟知識類相關的問題,甚至可以幫助你創(chuàng)作,比如說幫你寫詩,幫你寫一些比較好的這種故事,甚至幫你整理會議記要,那你會發(fā)現(xiàn)你的生活、生態(tài)完全改變了。這也就是整個行業(yè)內為什么為之欣喜,覺得這樣的一個時代如果真的來臨了,它會顛覆掉,甚至說大大的提升我們現(xiàn)有的很多的產品體系、產品架構。

那么以座艙為例,咱們回到座艙,視覺類的大模型、語言類的大模型一旦進到座艙內,像Chat類的我們叫商量,我們針對座艙內的場景就完全的形成了一個新的生態(tài)。就是現(xiàn)有的座艙大家都知道,我們的交互體驗更多是半主動式的,就是我給了一個指令,這個車載的大腦會幫你做執(zhí)行,我覺得冷了,你把我溫度調高一點,我覺得熱了,你把溫度調低一點,這是半指令式的。但是你沒有辦法問這個車,比如說勾股定理是什么?什么是葫蘆娃的故事?這些車載很多時候是不能回答你的,因為這中間帶了一些知識和內容生成的故事。所以在這個點上,一旦像我們商量這樣的語言大模型能夠進入到座艙內,它就會顛覆掉現(xiàn)有的生態(tài)。我們會發(fā)現(xiàn)座艙內有了一個全新的伙伴,它能夠陪伴你每次的駕駛,能夠幫你推薦很多你喜歡的美食,推薦你感興趣的知識,甚至說我遇到疑問我可以向他求助,或者心情好的時候,讓它幫我講幾個小笑話,講一些詩詞。那這樣的一個生態(tài)就會徹底顛覆掉我們現(xiàn)在的所有認知,我覺得這個生態(tài)一旦來臨,會有很多的想象空間。

所以整個行業(yè)都是非常期待大模型能夠進入到座艙內,我們商湯絕影這次最大的優(yōu)勢就是我們不知道是不是第一個,但是我們是把我們語言類的大模型商量和我們內容生成的秒畫,這樣一個制圖的大模型真正的帶到座艙內,而且實現(xiàn)了我們的智能化,我相信大家如果感興趣的話,可以到我們的展臺去看一下。

網易汽車:非常感謝您的分享,我也收獲很多,那我們這一時段的采訪就到這里,謝謝您!

許亮:謝謝大家!

關鍵詞:
圖片版權歸原作者所有,如有侵權請聯(lián)系我們,我們立刻刪除。
新化月報網報料熱線:886 2395@qq.com

相關文章

你可能會喜歡

最近更新

推薦閱讀