天天觀察：商湯王曉剛：AGI能為智能汽車提供更好的駕乘體驗(yàn)

來(lái)源：網(wǎng)易汽車 2023-04-03 18:46:49

版權(quán)聲明：本文版權(quán)為網(wǎng)易汽車所有，轉(zhuǎn)載請(qǐng)注明出處。

(資料圖)

網(wǎng)易汽車4月3日?qǐng)?bào)道 2023中國(guó)電動(dòng)汽車百人會(huì)論壇期間，商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家、絕影智能汽車事業(yè)群總裁王曉剛表示，智能汽車是通用人工智能實(shí)現(xiàn)閉環(huán)的一個(gè)非常好的場(chǎng)景，我們已經(jīng)有人機(jī)共駕。未來(lái)我們希望車和模型之間能夠產(chǎn)生更有效的互動(dòng)，那就完成了從人到車，到模型這樣的一個(gè)互動(dòng)的閉環(huán)，能夠讓通用人工智能為我們提供更好的駕乘體驗(yàn)，解鎖無(wú)限的想象空間。

以下為王曉剛演講實(shí)錄：

各位同仁、各位嘉賓，大家上午好！我是商湯科技王曉剛，新年伊始，像ChatGPT，還有GPT-4掀起了通用人工智能的熱潮，這是一場(chǎng)新的技術(shù)革命。今天我也是非常有幸能有這個(gè)機(jī)會(huì)跟大家一起探討，通用人工智能和多模態(tài)大模型給智能汽車帶來(lái)的機(jī)遇和挑戰(zhàn)。

從2012年開(kāi)始，過(guò)去十年，人工智能的技術(shù)革命是以深度學(xué)習(xí)不斷去突破工業(yè)應(yīng)用的紅線為起點(diǎn)的，誕生了一系列的AI+場(chǎng)景的應(yīng)用。那么基于每個(gè)場(chǎng)景都有不同的專屬的模型，其中的研發(fā)成本比較高，周期比較長(zhǎng)。

從2022年開(kāi)始，新的通用人工智能,它是以非常高效的方式去解決海量的開(kāi)放式任務(wù)，更加接近人的智能，而且能夠產(chǎn)生有智慧的內(nèi)容，它也帶來(lái)了新的研究范式，即基于一個(gè)非常強(qiáng)大的多模態(tài)基模型，通過(guò)強(qiáng)化學(xué)習(xí)和人的反饋，不斷解鎖模型新的能力。

什么是通用人工智能呢？我們可以跟現(xiàn)有的人工智能系統(tǒng)做一個(gè)比較。現(xiàn)有的人工智能也能夠接收多模態(tài)的數(shù)據(jù)，但是它輸出的任務(wù)都是事先定義好的。如果我想給這個(gè)系統(tǒng)去增加一個(gè)新的任務(wù)，我就要對(duì)系統(tǒng)進(jìn)行重新設(shè)計(jì)，還要采集大量樣本。

在通用人工智能時(shí)代，我們通過(guò)輸入提示詞和多模態(tài)內(nèi)容，它就可以去生成多模態(tài)的數(shù)據(jù)，更重要的是，它可以用自然語(yǔ)言去生成對(duì)任務(wù)的描述。自然語(yǔ)言即可以用非常靈活的方式去覆蓋大量的長(zhǎng)尾問(wèn)題和開(kāi)放性的任務(wù)，甚至包括一些主觀描述。

比如說(shuō)，在之前我們做一些特定場(chǎng)景的檢索任務(wù)時(shí)，一個(gè)人工智能系統(tǒng)可能是有幾十個(gè)標(biāo)簽。我們做過(guò)實(shí)驗(yàn)，如果要是用自然語(yǔ)言描述，我們可能有一萬(wàn)多個(gè)詞，通過(guò)它們的組合去描述各種任務(wù)，實(shí)際上是非常強(qiáng)大，而且是靈活的。

那么，這里面舉一個(gè)在自動(dòng)駕駛中遇到的一個(gè)例子。給定一個(gè)圖片，我們想去問(wèn)我們是否需要減速？在我們現(xiàn)有的AI的系統(tǒng)里面，我們首先要做物體的檢測(cè)，能夠檢測(cè)物體框，里面做文字的識(shí)別，最后做這樣的一個(gè)決策。那么，其中所有的過(guò)程里面的每一個(gè)模塊都是事先定義好的任務(wù)。

在通用人工智能下，給定圖像，我們只需要用自然語(yǔ)言去問(wèn)這個(gè)圖像的問(wèn)題，比方說(shuō)，這個(gè)圖標(biāo)是什么意思，我們應(yīng)該做什么？這個(gè)模型本身不會(huì)發(fā)生變化，它輸出就會(huì)通過(guò)自然語(yǔ)言的方式，能夠給我們一系列的這種邏輯的推理，最后給我們結(jié)論。比如說(shuō)，它可以告訴我們這里面的限速是30公里每小時(shí)，前面100米是學(xué)校的區(qū)域，有小孩，你應(yīng)該去小心，能夠?qū)④囁俳邓俚?0公里每小時(shí)以下等等這一些?？梢钥吹?，這都是一些開(kāi)放式的新的任務(wù)，可以對(duì)我們?nèi)斯ぶ悄芟到y(tǒng)產(chǎn)生一個(gè)非常大的變革。

通用人工智能還有非常強(qiáng)的一點(diǎn)，它能夠產(chǎn)生內(nèi)容，而且是有智慧的內(nèi)容。智能駕駛，或者自動(dòng)駕駛汽車?yán)锩嫖覀冇小皵?shù)據(jù)飛輪”的說(shuō)法，我們的模型能夠從駕駛終端采取高質(zhì)量的數(shù)據(jù)，對(duì)模型進(jìn)行更新，然后再去從終端提升數(shù)據(jù)的量和質(zhì)。

在通用人工智能時(shí)代，它會(huì)有一個(gè)智慧的飛輪，這里面人和模型會(huì)產(chǎn)生互動(dòng)，人會(huì)給模型輸入什么呢？去輸入Align With Human Intention，就是這個(gè)模型是很強(qiáng)大的，但是它其實(shí)不知道人需要它什么樣的能力。通過(guò)人的反饋，它就更好的能夠去理解人需要它展示什么樣的能力，而去解鎖這個(gè)模型更多的技能。同時(shí)，這個(gè)模型給人輸出的是什么呢？是有智慧的一個(gè)內(nèi)容。我們都知道，這些內(nèi)容會(huì)激發(fā)人的各種創(chuàng)作和智慧的產(chǎn)生，所以這其中又會(huì)產(chǎn)生智慧的飛輪。

但是，AGI對(duì)算力的需求是非常大的。ChatGPT具備1750億參數(shù), 需要3000~5000張A100訓(xùn)練卡，而我們也可以看到ChatGPT一次訓(xùn)練的成本是上千萬(wàn)的美金。此外，今天它的推理的成本每天也有幾百萬(wàn)美金高昂的成本在。

商湯從2021年在上海的臨港建立了我們AIDC的超算中心，實(shí)際上是在這方面也有提前的這樣的一個(gè)布局。SenseCore AI大裝置基于2.7萬(wàn)塊GPU的并行計(jì)算系統(tǒng)實(shí)現(xiàn)了5.0 exaFLOPS的算力輸出，可支持最多20個(gè)千億參數(shù)量超大模型（以千卡并行）同時(shí)訓(xùn)練。

從2019年開(kāi)始，商湯從10億參數(shù)的視覺(jué)模型研發(fā)，到今天有320億全球最大規(guī)模的通用視覺(jué)的模型。在NLP領(lǐng)域，商湯當(dāng)前也有接近2000億參數(shù)的大模型，包括亦有能力去訓(xùn)練1800億參數(shù)的多模態(tài)的模型。所以，未來(lái)通用人工智能基于多模態(tài)的基模型可以做視覺(jué)的感知，語(yǔ)言的理解、內(nèi)容的生成和決策的推理。

商湯絕影是商湯下面做智能汽車的業(yè)務(wù)板塊，我們堅(jiān)持駕艙云三位一體的發(fā)展策略。我們希望能夠通過(guò)駕艙融合，帶來(lái)更好的駕乘體驗(yàn)；AI云能夠去為自動(dòng)駕駛提供數(shù)據(jù)閉環(huán)的服務(wù)，能夠通過(guò)提供豐富的產(chǎn)品功能讓智能座艙成為真正的第三生活空間。同時(shí)，商湯的AI云也為通用人工智能實(shí)現(xiàn)智能駕駛和智能座艙打下了非常強(qiáng)大的基礎(chǔ)。

我們可以看到，在自動(dòng)駕駛領(lǐng)域，BEV是我們當(dāng)前主流的技術(shù)路線，未來(lái)可以朝多模態(tài)、通用人工智能的方向發(fā)展。我們通過(guò)AIGC可以去生成困難的樣本，我們模型去輸入多模態(tài)的這樣的一些數(shù)據(jù)。其中，自動(dòng)駕駛多模態(tài)的大模型可以做到感知和決策的一體化，輸出則對(duì)3D的環(huán)境進(jìn)行重建實(shí)現(xiàn)環(huán)境的可視化理解，我們的行為解碼可以生成完整的路徑的規(guī)劃。同時(shí)，我們動(dòng)機(jī)的解碼器可以用自然語(yǔ)言去描述我們推理的過(guò)程，進(jìn)而使我們自動(dòng)駕駛的系統(tǒng)變得可以解釋。

我們也是基于這些多模態(tài)的大模型可以做到數(shù)據(jù)的感知的閉環(huán)和決策的閉環(huán)，從前端自動(dòng)的去采集高質(zhì)量的數(shù)據(jù)，利用大模型自動(dòng)的數(shù)據(jù)的標(biāo)注，包括產(chǎn)品的檢測(cè)，能夠幾百倍的去提升我們模型迭代的效率并降低它的成本。

在智能座艙板塊，通用人工智能使我們基模型具備空間環(huán)境的理解、用戶狀態(tài)的感知，多模態(tài)的指令，還有多輪對(duì)話，內(nèi)容生成等一系列的能力。它就可以去賦能，作為我們情緒的感知，智能助手，基于情感的對(duì)話、創(chuàng)意、內(nèi)容的生成，個(gè)性的交互等等這一系列功能，不斷地去提升我們的個(gè)性化的體驗(yàn)。也使我們的場(chǎng)景從上車、行車、停車、離車，進(jìn)而拓展到娛樂(lè)、辦公、購(gòu)物、休息，這里面有很多的可以去探索的應(yīng)用的場(chǎng)景。

實(shí)際上，智能汽車是通用人工智能實(shí)現(xiàn)閉環(huán)的一個(gè)非常好的場(chǎng)景，我們已經(jīng)有人機(jī)共駕。未來(lái)我們希望車和模型之間能夠產(chǎn)生更有效的互動(dòng)，那就完成了從人到車，到模型這樣的一個(gè)互動(dòng)的閉環(huán)，能夠讓通用人工智能為我們提供更好的駕乘體驗(yàn)，解鎖無(wú)限的想象空間。

最后，這個(gè)月商湯也在通用人工智能方面會(huì)有我們的技術(shù)日，去介紹一系列的多模態(tài)的大模型，包括語(yǔ)言的大模型、感知的大模型等等。我們希望去與我們的客戶和合作伙伴共同邁向通用的人工智能，謝謝大家！

關(guān)鍵詞：

圖片版權(quán)歸原作者所有，如有侵權(quán)請(qǐng)聯(lián)系我們，我們立刻刪除。
新化月報(bào)網(wǎng)報(bào)料熱線：886 2395@qq.com

相關(guān)文章