辦公系統(tǒng)
個(gè)人會(huì)員
單位會(huì)員
首頁(yè) 新聞中心 新聞資訊 正文

【W(wǎng)RC大咖論道】北京具身智能機(jī)器人創(chuàng)新中心總經(jīng)理熊友軍:《具身智能:打造人機(jī)共生的新時(shí)代》

2024-10-24

2024世界機(jī)器人大會(huì)以“共育新質(zhì)生產(chǎn)力 共享智能新未來(lái)”為主題,為期三天的主論壇和26場(chǎng)專題論壇上,416位國(guó)內(nèi)外頂尖科學(xué)家、國(guó)際組織代表、院士和企業(yè)家聚焦前沿技術(shù)、產(chǎn)業(yè)動(dòng)向和創(chuàng)新成果,深入研討人工智能與機(jī)器人技術(shù)深度融合帶來(lái)的新趨勢(shì)、新機(jī)遇,共同打造了一場(chǎng)十分精彩的機(jī)器人領(lǐng)域前沿觀點(diǎn)盛宴!

在8月24日下午的主論壇上,北京具身智能機(jī)器人創(chuàng)新中心總經(jīng)理熊友軍以《具身智能:打造人機(jī)共生的新時(shí)代》為主題發(fā)表演講。


數(shù)說(shuō)2024世界機(jī)器人大會(huì)


論壇


26 家國(guó)際支持機(jī)構(gòu)

3 大主題 26 場(chǎng)專題論壇

416 名國(guó)內(nèi)外頂尖科學(xué)家、國(guó)際組織代表、院士和企業(yè)家

74 位國(guó)外嘉賓及港澳臺(tái)嘉賓參會(huì)

線上線下聽(tīng)眾達(dá) 160萬(wàn) 人次


展覽


27 款人形機(jī)器人集中亮相

首發(fā)新品 60 余款

近 170 家參展企業(yè) 600 余件參展產(chǎn)品

參觀人數(shù)近 25萬(wàn) 人次


大賽


全球 10 余個(gè)國(guó)家和地區(qū)的 7000 余支賽隊(duì)

 13000 余名參賽選手

每天參賽人數(shù) 4000 余人



媒體關(guān)注


近 400 家國(guó)內(nèi)外媒體

短視頻平臺(tái)話題播放量達(dá) 2.9億



1730085895139112.jpg

熊友軍(北京具身智能機(jī)器人創(chuàng)新中心總經(jīng)理)

以下是對(duì)話內(nèi)容實(shí)錄 

非常高興能夠參加世界機(jī)器人大會(huì),受益匪淺,見(jiàn)到了很多老朋友,也結(jié)識(shí)了很多新朋友。大家到最后都會(huì)談到一個(gè)問(wèn)題,就是具身智能相關(guān)的問(wèn)題。大家都在談具身智能這個(gè)技術(shù)的進(jìn)步,談具身智能對(duì)未來(lái)社會(huì)價(jià)值的體現(xiàn)。在我看來(lái),具身智能實(shí)際上就是人工智能和機(jī)器人深度的結(jié)合,具身智能是長(zhǎng)了身體的智能,將會(huì)是技術(shù)的一個(gè)非常巨大的進(jìn)步。

今天我想跟大家匯報(bào)一下我們創(chuàng)新中心在具身智能這方面的工作,首先我覺(jué)得具身智能應(yīng)該是第4次工業(yè)革命新階段,我們?nèi)祟悘?8世紀(jì)以來(lái)經(jīng)過(guò)了幾次技術(shù)的迭代,每一次技術(shù)的迭代都帶來(lái)社會(huì)極大的進(jìn)步,都帶來(lái)技術(shù)極大的提升,給人的生產(chǎn)生活帶來(lái)很大的變化。

第一次工業(yè)革命,蒸汽機(jī)的發(fā)明,將人類從生產(chǎn)勞動(dòng)中解脫出來(lái)。

第二次工業(yè)革命,電力的發(fā)明,帶來(lái)了電氣化時(shí)代。

第三次工業(yè)革命,計(jì)算機(jī)和互聯(lián)網(wǎng)的到來(lái),以及信息化時(shí)代。

第四次工業(yè)革命,人工智能大規(guī)模的應(yīng)用、人工智能的進(jìn)步為體現(xiàn)的。

這一代的人工智能更多體現(xiàn)在認(rèn)知、決策和方案,它對(duì)人類物理世界的改變是間接的,但是具身智能有一個(gè)特點(diǎn),它跟物理世界有直接的交互,它能夠給人類帶來(lái)更多更直接的體現(xiàn),直接給物理世界帶來(lái)更多的改變,尤其是它對(duì)生產(chǎn)力的,因?yàn)樗哂猩眢w,帶來(lái)物理世界的改變,所以會(huì)帶來(lái)生產(chǎn)力極大的提升,同時(shí)也會(huì)改變我們生產(chǎn)生活方式的一些重構(gòu)。

我們覺(jué)得具身智能是人工智能的一個(gè)新的范式,它有幾個(gè)特點(diǎn)。

特點(diǎn)一,它跟物理世界能夠直接進(jìn)行交互。

它像人一樣有身體,能夠直接影響我們的環(huán)境,能夠直接影響我們周邊的事物。我們?cè)缙谌斯ぶ悄芨嗍窃跀?shù)字空間和虛擬空間、信息空間的交互,中國(guó)有句俗話,“讀萬(wàn)卷書(shū),行萬(wàn)里路”,我們?cè)缙诘娜斯ぶ悄芨嗍亲x萬(wàn)卷書(shū),今天的具身智能因?yàn)橛懈嗟奈锢斫换?,具身智能是有一定物理空間的,它不能脫離這個(gè)物理空間,不能夠說(shuō)我今天在北京,明天就跑到天南海北。人工智能上下五千年,天南海北各種各樣的信息都可以跟它進(jìn)行交互,這是具身智能第一個(gè)特點(diǎn),它跟物理世界有直接的交互。

特點(diǎn)二,具身智能是一種自主學(xué)習(xí)的方式,它跟人比較像,它因?yàn)橛猩眢w,所以可以直接跟環(huán)境進(jìn)行交互。這種自主的學(xué)習(xí)行為實(shí)際上可以更加主動(dòng),更加積極,其實(shí)也更加有創(chuàng)造性。

具身智能也不能夠脫離傳統(tǒng)的人工智能范式,具身智能也一樣需要傳統(tǒng)人工智能給它進(jìn)行決策,做規(guī)劃,我們覺(jué)得具身智能融合了符號(hào)主義、連接主義和行為主義的一種新范式。

具身智能現(xiàn)在其實(shí)也剛剛開(kāi)始,它面臨著很多的挑戰(zhàn),我們覺(jué)得主要有4個(gè)方面的挑戰(zhàn)。

挑戰(zhàn)一,它缺少高性能的具身智能本體。現(xiàn)在無(wú)論是各種具身智能的傳感器、執(zhí)行器還是它的整個(gè)身體,我們覺(jué)得還有很多需要去完善的地方。

挑戰(zhàn)二,具身智能的運(yùn)動(dòng)能力是不足的,尤其體現(xiàn)在它的各種對(duì)環(huán)境的適應(yīng)性方面,體現(xiàn)在它的操作能力上面,運(yùn)動(dòng)能力還有很大改進(jìn)的空間。

挑戰(zhàn)三,具身智能大模型和多模態(tài)大模型算法的能力是不足的,這實(shí)際上跟我們?nèi)斯ぶ悄馨l(fā)展的范式有關(guān)系,我們現(xiàn)在看到了更多的具身智能,看到了機(jī)器人很多都是把現(xiàn)在人工智能的一些算法直接塞到機(jī)器人里面去,實(shí)際上它不能真正的理解世界上的環(huán)境,也不真正能夠理解行為智能,后面還有很大的發(fā)展空間。

挑戰(zhàn)四,缺乏具身智能這個(gè)領(lǐng)域里面統(tǒng)一的通用數(shù)據(jù)集。就像傳統(tǒng)人工智能一樣,我們現(xiàn)在傳統(tǒng)人工智能大量的語(yǔ)音智能或者是視覺(jué)智能這方面,得益于互聯(lián)網(wǎng)上大量語(yǔ)音的數(shù)據(jù)還有文字的數(shù)據(jù)。同樣在具身智能這個(gè)領(lǐng)域,我們也需要大量操作的數(shù)據(jù),需要大量行為的數(shù)據(jù)來(lái)豐富我們具身智能的算法,甚至是具身智能數(shù)據(jù)集的標(biāo)準(zhǔn)實(shí)際上都是缺的。

基于上面這四種不足,我們開(kāi)展了在“天工”通用的人形機(jī)器人硬件母平臺(tái)的研究,以及在“開(kāi)物”多具身智能體軟件母平臺(tái)的研究,后面我在這兩個(gè)方向分別介紹。

這是我們發(fā)布了第一代的通用機(jī)器人的母平臺(tái)“天工”,我們覺(jué)得這個(gè)母平臺(tái)是一個(gè)開(kāi)源開(kāi)放的平臺(tái),我們希望“天工”能夠給大家提供比較好用的具身智能的硬件智能,什么叫好用呢?我覺(jué)得有幾個(gè)標(biāo)準(zhǔn)。

第一,需要有多種傳感器,能夠比較全面的感知周?chē)沫h(huán)境,能夠具有多模態(tài)具身感知的能力。

第二,需要有強(qiáng)的運(yùn)動(dòng)能力,非常強(qiáng)悍的運(yùn)動(dòng)能力。

第三,需要開(kāi)源開(kāi)放的環(huán)境。

對(duì)我們“天工”來(lái)說(shuō),我們具有多種傳感器的融合,它可以支持更高級(jí)的人機(jī)互動(dòng)。多種傳感器首先在視覺(jué)這個(gè)領(lǐng)域里面有4個(gè)深度視覺(jué)感知的攝像頭,能夠感知各種視覺(jué)的信息,同時(shí)它也有聲源定位的麥克風(fēng)陣列,同樣它有各種力覺(jué)的傳感器,比如說(shuō)在它的手、每個(gè)關(guān)節(jié)能感受到各種力,然后在手部操作的過(guò)程中實(shí)際上也可以感覺(jué)到各種接觸力、觸覺(jué)、力覺(jué)等等,便于他能夠做很精準(zhǔn)的操作,這是感知方面。

另外在復(fù)雜場(chǎng)景的通過(guò)能力方面,我們實(shí)際上也做了非常多研究的工作,主要是它除了在平地上能夠獨(dú)立行走以外,我們基于狀態(tài)記憶的預(yù)測(cè)性強(qiáng)化模仿學(xué)習(xí)的方式,我們按“天工”,按這個(gè)機(jī)器人能夠適應(yīng)各種不同的環(huán)境,包括像草地、沙地、石子路等等,讓它能夠在各種復(fù)雜的環(huán)境里面比較穩(wěn)定的快速的去通過(guò),我覺(jué)得這對(duì)機(jī)器人未來(lái)適應(yīng)各種各樣的場(chǎng)景具有非常重要的作用。

我們非常關(guān)注硬件精細(xì)的操作能力,包括上肢在各種不同的環(huán)境,比如說(shuō)超市、危險(xiǎn)的場(chǎng)景還有一些特別的場(chǎng)景,精細(xì)的操作能力,它跟環(huán)境的交互、精細(xì)的操作和感知能力。

剛才是硬件方面,在軟件方面在多具身智能體這個(gè)母平臺(tái)方面,我們也希望能打造一個(gè)“一腦多機(jī)”、“一腦多能”的具身智能體,“一腦多機(jī)”我們是希望具身智能體要能夠適應(yīng)各種形態(tài)的具身智能機(jī)器人,包括輪式還有其它的一些類型的機(jī)器人,“一腦多能”是希望具身智能體和我們的機(jī)器人能夠在不同的環(huán)境里面比較好的完成它的一些工作。

在多具身智能體方面,我們實(shí)際上正在致力于四個(gè)方面技術(shù)的突破。

1、在長(zhǎng)行程規(guī)劃方面進(jìn)行用戶的拆解,做任務(wù)的理解和規(guī)劃,尤其是像一些粗向的任務(wù)質(zhì)量,比如說(shuō)我要機(jī)器人去幫我拿一杯水甚至是往后規(guī)劃20來(lái)步的長(zhǎng)行程,其實(shí)對(duì)機(jī)器人的智能處理要求非常高。

2、希望它有規(guī)劃能力,當(dāng)機(jī)器人所面臨的環(huán)境變化的時(shí)候,它需要去重新進(jìn)行規(guī)劃,而且這個(gè)頻率要求蠻高的。

3、操作的多樣性,我們希望說(shuō)具身智能體能夠讓機(jī)器人適應(yīng)各種不同的環(huán)境,能夠滿足多場(chǎng)景、多任務(wù)全面的操作能力,甚至是少樣本或者是零樣本的學(xué)習(xí),都能夠很好的去適應(yīng)未來(lái)環(huán)境的變化。

4、比較好的執(zhí)行效率和精度。尤其是在一些特定的工作場(chǎng)景,像工業(yè)場(chǎng)景可能需要精準(zhǔn)的操作,希望它有能夠比較快的節(jié)奏、節(jié)拍,能夠滿足生產(chǎn)工作任務(wù)的需求。

實(shí)現(xiàn)路徑怎么樣呢?我們會(huì)采用分布式部署的方式,在云端利用好大的算力還有超強(qiáng)知識(shí)庫(kù)的作用,然后把大模型部署在云端,在邊端可以兼顧效果和效率兩個(gè)方向,所以我們可以把一些能夠做規(guī)劃、能夠做用戶理解的這些大模型放在邊端,至于機(jī)型本體端,因?yàn)樗軌虿渴鸬乃懔κ欠浅S邢薜模晕覀兿M岩恍└哳l的用戶或者是需要少算力的微模型、小模型都放在機(jī)器人本體端,通過(guò)分布式的實(shí)現(xiàn),能夠很好的去部署,這是不同任務(wù)的完成。

為了達(dá)到以上的效果,我們還要做兩個(gè)基礎(chǔ)的工作,首先是數(shù)據(jù)的收集。我們希望構(gòu)建一個(gè)信息稠密度,大規(guī)模的,具有通用性的數(shù)據(jù)集。2024年4月份我們就發(fā)布了具身智能數(shù)據(jù)集方案,我們說(shuō)數(shù)據(jù)集可以用金字塔的方式來(lái)表達(dá)數(shù)據(jù)集結(jié)構(gòu)。底層是大量互聯(lián)網(wǎng)數(shù)據(jù),中層是仿真數(shù)據(jù),上層是高質(zhì)量真機(jī)操作數(shù)據(jù)。

建這個(gè)數(shù)據(jù)集是希望更多采用仿真數(shù)據(jù)或者真實(shí)場(chǎng)景數(shù)據(jù),同時(shí)構(gòu)建數(shù)據(jù)搜集母機(jī)。剛才說(shuō)人形機(jī)器人平臺(tái)天宮還有其他的合作伙伴已經(jīng)聯(lián)合十幾家合作伙伴共同打造具身智能數(shù)據(jù)的母機(jī)還有數(shù)據(jù)應(yīng)用。最終希望通過(guò)數(shù)據(jù)生態(tài)建設(shè)能夠支持后面具身智能應(yīng)用落地。也構(gòu)建了像家庭商用的特種環(huán)境,工業(yè)應(yīng)用場(chǎng)景,讓不同的機(jī)器人在這個(gè)場(chǎng)景中不斷運(yùn)行,搜集這樣的數(shù)據(jù)集。

另外一方面也建了虛實(shí)結(jié)合仿真技術(shù),使具身智能數(shù)據(jù)集快速迭代。因?yàn)檎鎸?shí)的機(jī)器人操作實(shí)際上搜集數(shù)據(jù)成本比較高,而且速度很慢。但是虛擬的仿真環(huán)境,它可以大規(guī)模、低成本地搜集各種各樣的數(shù)據(jù)。所以我們利用已有資產(chǎn)構(gòu)建了大量的虛擬仿真環(huán)境數(shù)據(jù)搜集場(chǎng)景。比如說(shuō)抓取、分揀、搬運(yùn)等等場(chǎng)景建了很多場(chǎng)景,讓機(jī)器人在虛擬仿真環(huán)境運(yùn)行,可以快速搜集各種各樣數(shù)據(jù)。

機(jī)器人運(yùn)動(dòng)方面也構(gòu)建了虛擬仿真環(huán)境,利用上千個(gè)機(jī)器人在這個(gè)場(chǎng)景進(jìn)行強(qiáng)化學(xué)習(xí)、模仿學(xué)習(xí)方式,快速迭代機(jī)器人運(yùn)動(dòng)控制算法。由于構(gòu)建虛實(shí)結(jié)合的仿真環(huán)境都是來(lái)自于實(shí)際場(chǎng)景需求,所以有很多接近實(shí)際情況的場(chǎng)景。在這種場(chǎng)景訓(xùn)練出來(lái)再導(dǎo)入實(shí)際真機(jī)上,效率就很高。

去年達(dá)到同樣的效果,虛擬環(huán)境下這個(gè)效果是真機(jī)訓(xùn)練效果的上千倍,其實(shí)具身智能現(xiàn)在剛剛起步,還有非常多的工作非常多的問(wèn)題等著我們解鎖,我們也希望借著這個(gè)平臺(tái)可以和國(guó)際上更多合作伙伴交流、交互。也希望和大家一起打造國(guó)際通用具身智能標(biāo)準(zhǔn),包括數(shù)據(jù)標(biāo)準(zhǔn)、檢測(cè)標(biāo)準(zhǔn)等等。正在聯(lián)合合作伙伴建立開(kāi)源開(kāi)放的平臺(tái),包括操作系統(tǒng)、工具鏈等等。

同時(shí),借鑒了其他領(lǐng)域成功經(jīng)驗(yàn),比如自動(dòng)駕駛、智能汽車(chē)的具身智能發(fā)展經(jīng)驗(yàn),希望建立跨學(xué)科跨領(lǐng)域融合創(chuàng)新的模式。最終希望共同拓展全人類的應(yīng)用場(chǎng)景。馬斯克也說(shuō)過(guò),未來(lái)的社會(huì)機(jī)器人和人的數(shù)量比可能是一比一甚至二比一三比一,機(jī)器人的數(shù)量可能遠(yuǎn)遠(yuǎn)超過(guò)人類。我們未來(lái)面臨的是硅基生命與碳基生命共存的社會(huì),這個(gè)可能也面臨著生產(chǎn)力結(jié)果變化,還有公眾心態(tài)轉(zhuǎn)變。實(shí)際上我們希望機(jī)器人應(yīng)用在生產(chǎn)力結(jié)構(gòu)變化方面,希望機(jī)器人盡快導(dǎo)入高危場(chǎng)景,對(duì)人類有傷害或者容易造成工傷的生產(chǎn)場(chǎng)景里。

另外,人形機(jī)器人法律法規(guī)方面?zhèn)惱淼赖路矫嬉蚕M懈嗪痛蠹医涣魈接懙倪^(guò)程,可以逐步完善法律法規(guī)的建設(shè),給到更多的建議。以上是我要給大家匯報(bào)的內(nèi)容,謝謝大家。


(本文根據(jù)錄音整理)

返回列表頁(yè)

加入會(huì)員

學(xué)會(huì)官微