辦公系統(tǒng)
個人會員
單位會員
首頁 新聞中心 新聞資訊 正文

【W(wǎng)RC大咖論道】宇樹科技創(chuàng)始人、首席執(zhí)行官兼首席技術官王興興:《具身智能指明了實現(xiàn)AGI的方向》

2024-10-25

2024世界機器人大會以“共育新質生產(chǎn)力 共享智能新未來”為主題,為期三天的主論壇和26場專題論壇上,416位國內外頂尖科學家、國際組織代表、院士和企業(yè)家聚焦前沿技術、產(chǎn)業(yè)動向和創(chuàng)新成果,深入研討人工智能與機器人技術深度融合帶來的新趨勢、新機遇,共同打造了一場十分精彩的機器人領域前沿觀點盛宴!

在8月24日下午的主論壇上,宇樹科技創(chuàng)始人、首席執(zhí)行官兼首席技術官王興興以《具身智能指明了實現(xiàn)AGI的方向》為主題發(fā)表演講。


數(shù)說2024世界機器人大會


論壇


26 家國際支持機構

3 大主題 26 場專題論壇

416 名國內外頂尖科學家、國際組織代表、院士和企業(yè)家

74 位國外嘉賓及港澳臺嘉賓參會

線上線下聽眾達 160萬 人次


展覽


27 款人形機器人集中亮相

首發(fā)新品 60 余款

近 170 家參展企業(yè) 600 余件參展產(chǎn)品

參觀人數(shù)近 25萬 人次


大賽


全球 10 余個國家和地區(qū)的 7000 余支賽隊

 13000 余名參賽選手

每天參賽人數(shù) 4000 余人



媒體關注


近 400 家國內外媒體

短視頻平臺話題播放量達 2.9億


1730086061917093.jpg

王興興(宇樹科技創(chuàng)始人、首席執(zhí)行官兼首席技術官)

以下是對話內容實錄 

各位領導,各位專家,各位學者大家下午好,很榮幸在此分享。在展開這個話題之前想分享一個小故事。Marc Raibert先生,我當時差不多10歲讀小學就看到過您做的小的雙足機器人包括還有后空翻機器人。這當時是在中國引進的科技紀錄片里,算算時間現(xiàn)在差不多20幾年了,時間真的很快。我們公司2016年成立到現(xiàn)在也有8年時間,最近幾年具有身智能很熱,所以我主要分享具身智能和AGI的方向。

OpenAI最早的目標就是實現(xiàn)AGI,并且早些年他們也投入不少人做機器人方向,但是后來GPT發(fā)展速度更快,所以他們反而在機器人發(fā)展方向投入資源比較少。但是我反而堅信,目前具身智能反而是更好的實現(xiàn)AGI的方向。我們公司最早2013年到2015、2016年的時候我個人讀碩期間做的Xdog這款機器人。做的初衷比較簡單,我一個學生沒有那么多的資源做很大的機器人,所以一直想能不能用簡單方法就能實現(xiàn)低成本,運動性能很好的方案?

所以當時就想用盤式無刷電機再加上自己開發(fā)的電機驅動板,實現(xiàn)了Xdog方案。這個方案當時整個研發(fā)投入大概只有1-2萬元人民幣,2015年還用這個機器人參加了上海的比賽拿了二等獎。這個機器人當時在我畢業(yè)的時候還幫我賺了幾萬快獎金。也是成為2016年注冊公司時的啟動資金。后續(xù)產(chǎn)品大家可能比較熟,我們主要做高性能四足機器人,去年年初也開始做高性能人形機器人以及別的附屬產(chǎn)品。目前四足機器人主要是兩款,一款是小一點的Go2型號,它主要搭載了自己開發(fā)的3D激光雷達。并且去年就搭載了OpenAI的GPT接口,你可以直接語音和它對話,讓它執(zhí)行底層動作。并且試過集成了OpenAI的多模態(tài)接口,你問它前面有什么東西,它也可以回答。

但是開發(fā)過程中我們發(fā)現(xiàn)目前語言模型、多模態(tài)模型對機器人應用非常不足,它對空間、物理世界理解個模型本身對機器人本體理解遠遠不夠,這也推動了我們未來一直希望有更好的機器人模型誕生。當然這可能不能指望我們公司,還是需要全球共同實驗室,所有科技公司一起推動。

另外一款也是去年發(fā)布的B2型號,是大一點的工業(yè)級四足機器人。最大特點是負載能力和續(xù)航能力非常非常強?;敬蟛糠止I(yè)場景包括室內室外的還有地下管廊或者其他環(huán)境都能使用,也是目前主力型號。

人形機器人這塊,目前發(fā)展也非常非???,最早2009年我讀大一的時候寒假就做過小的人形機器人,當時用得非常非常便宜,就200塊錢做了小的人形機器人。但是做好以后非常非常失望,因為我不僅對自己感到失望,也對當時全球范圍內整個人形機器人科技發(fā)展速度感到失望,在2010年時。所以過去很多年當時好幾年以前,很多人問我,我們公司做不做人形機器人?我當時非常堅決地說我們公司不做人形機器人。因為感覺目前我們技術包括全球商業(yè)化沒辦法很好地推動人形機器人。但是過去幾年,很多實驗室都用我們機器狗做了很多AI開發(fā),我們也肉眼可見地看到強化學習在四足機器人里飛速的進展,非常非常好。

并且2022年底的時候GPT出來了,整個AI真正點燃了整個全球范圍內AI對機器人領域大家的信心。所以2023年初,開始做高性能人形機器人,這款是去年第一款人形機器人H1,這款機器人最大特點是動力性能非常非常強,基本算是目前同類型電驅動人形機器人,動力性能最強的之一。

這是公司開發(fā)的第二款人形機器人G1,今年5月份發(fā)布,第一款工程機前幾天也發(fā)布了量產(chǎn)版本樣子。這款結合了過去幾年對四足機器人、人形機器人整個硬件設計、軟件工業(yè)設計要求,所以大家可以看到。雖然這款機器人稍微小一點,大概只有1.3米,但是無論外觀、動力性能、關節(jié)靈活性、產(chǎn)品完成度都非常非常高。我們也非常有信心,最近已經(jīng)快完成整個量產(chǎn)化的設計改造,年底可以大規(guī)模量產(chǎn)。這個關節(jié)布置相對來說非常流暢和漂亮。

分享一個小故事,這種關節(jié)布置對于動力控制并不是最優(yōu)的,但是為什么現(xiàn)在敢這么做?原因就是AI技術進步讓很多原本不容易控制的機器人反而變得容易控制。不然這種機器人其實腿有點重且不方便控制。但是目前AI反而讓難控制的機器人成為可能性。

這是5月份我們剛發(fā)布時展示的運動性能,里面用了傳統(tǒng)控制算法,但是大部分還是用了深度強化學習實現(xiàn)。這款產(chǎn)品相對來說目前產(chǎn)品完成度還是非常非常高的,關節(jié)靈活度也非常好,可以實現(xiàn)很多人實現(xiàn)不了的動作。

這款是H1,年初的時候差不多實現(xiàn)了全球第一款純電機驅動的人形機器人空翻,動力性能非常強勁,也是用了模仿學習加強化學習算法。這種機器人還是太過于不好控制,用傳統(tǒng)算法很難實現(xiàn)空翻。包括我們用模仿學習和強化學習實現(xiàn)了奔跑以及跳舞等動作,這也是好幾個月之前的。這次展會現(xiàn)場,有長時間演示技術,穩(wěn)定性非常好。AI技術相對于別的技術最大的點在于它對硬件和機器人泛用性非常好。哪怕機器人硬件有一點點偏差還是可以很穩(wěn)定地控制。

這是基于深度相機端到端深度強化學習,更復雜的地型也可以訓練。包括四足機器人本身也可以兩條腿走路,這是展示了連續(xù)空翻,也是基于模仿學習和深度強化學習做的,這個我們在展會現(xiàn)場也有演示,大家有興趣可以試一下,而且穩(wěn)定性比較不錯。這個功能其實在早幾個月,我們已經(jīng)OTA升級給全球客戶使用。

這是我們前段時間基于搖操作的一個數(shù)據(jù)采集系統(tǒng),因為大家基于目前的AI技術,基本上都是數(shù)據(jù)驅動的,有多少數(shù)據(jù)就有多少AI,本身對于人形機器人的數(shù)據(jù)采集是非常剛需的需求,所以我們做了一套比較簡單的輕量化的數(shù)據(jù)采集系統(tǒng),這還是需要更加完善。

這也是我們前段時間搞的,基于模仿學習和深度強化學習做的身體性動作。大家可能覺得目前像我們機器人已經(jīng)做的很不錯了,但實際上在我的想象中,要做的事情還非常多,舉個最簡單的例子,目前這些動作基本上是每個動作單獨做AI訓練的,單獨訓練有一個很不好的地方,很多場景下大家還是希望一臺機器人可以自動的切換所有的動作,而不需要人為去切換動作,這也是大家希望的方向,一個AI所有的事情都能做,這是通用AI大家希望達到的目標,這也是用了它的深度相機來做端到端的訓練。

(播放視頻)

我覺得目前人形機器人強化學習能做的事情,最主要的還是在比較復雜的地形下,它可以任意的適應各種的地形,并且運動。相對來說另外一點就是它的手部能操作比較精細化的零件,大家也知道現(xiàn)在包括全球范圍內用模仿學習其實在一些比較大的物體,比如說一個水杯,從什么地方拿到什么地方,這其實都是可以實現(xiàn)的,但是更精細一點的事情其實目前做不好,比如說焊個電路,包括打一個結,這種更細小的事情我覺得都是非常值得做的。

另外一點,這里稍微岔開一下話題,好高騖遠一下,說一些更遠的,我覺得更加激動人心的一些事情。具身智能一直是實現(xiàn)世界模型的方向,當然這可能不是我們公司目前能做的,還是希望全球都能推動這個事情,我覺得這是未來最激動人心的時刻。

最大的點就是世界模型對于機器人本身包括對物理世界的理解,其實大家也知道現(xiàn)在的AI技術其實對機器人自己的身體和對自己的世界理解是完全不夠的,比如說對重力的理解,對摩擦力和接觸的理解是非常差的,如果有更好的AI能把本身自我的認知和理解以及對環(huán)境的理解能做出來,我覺得可以大大推動整個機器人行業(yè)的進步。

而且我覺得世界模型本身就是AGI的方向,沒準就是真正實現(xiàn)AGI的。大家知道AGI最大的點就是大部分人能做的事情都能做,包括開車、洗衣做飯、工廠,世界模型如果對世界本身有很好的建模,這個本身目標就差不多實現(xiàn)了。

而且像特斯拉的FSD,某種意義上就是世界模型,對整個車輛和它的周邊環(huán)境都會有建模,包括對前面一輛車的速度、撞擊,一些未來的動作也會有好的建模和理解,我覺得世界模型是最大的可能性。

另外最主要的是很多現(xiàn)在做AI的,包括OpenAI,大家對大腦的重視都非常高,我最近一直在分享和強調,其實身體才是最重要的一件事情,大腦和身體兩部分是分不開的。舉個最簡單的例子,這也是從小非常困擾我的問題,我做夢的時候為什么會突然感覺從懸崖上往下掉,或者我在夢里為什么跑不快,這個問題我想了十幾年,差不多在本科的時候我才把這個問題想通。

其實原因也非常簡單,就是人在睡覺的時候,人的大腦跟身體的感知是完全斷開的,你不能感知到身體的皮膚,你也不能控制你的肌肉,所以你的大腦本身是沒有物理世界連接的。

在我們原本的認知里面,我跑步,我每跑一步都是要跟地面有接觸的,接觸以后大腦知道我接觸到地面了,我要邁另外一個腳,但是在我們做夢的時候,由于跟物理世界脫離了關系,你的大腦其實不知道你已經(jīng)踩到地面了,所以你永遠感覺你的腳輕飄飄的,跑不快,沒辦法使力,所以這也是體現(xiàn)了目前大腦、身體的重要性。

包括為什么會覺得從懸崖上往下面掉,因為你在跟身體斷開連接的時候,你其實并不知道你的身體跟床是接觸的,你覺得你是懸空的,所以你往下掉。

回答了一個非常簡單的問題,為什么現(xiàn)在大語言模型會有一個幻覺的感覺,簡單說就是所有的目前大語言模型都活在夢里,它對物理世界是脫離連接的,它不能感知到自己的身體,也不能看到,也不能眨眼睛,它跟物理世界的連接是斷開的,所有的大語言模型都是活在夢里,它是非常虛擬的,所以說它會有很多幻覺,不真實,他自己都不知道做的夢真不真。

原因也很簡單,比如說有一個人在說夢話,你如果跟他說一句話,他也回答你的問題,但是所有說夢話的人說的話都是稀里糊涂的,沒有邏輯可言,所以說這也是為什么體現(xiàn)了身體的重要性。

另外分享一個比較好玩的實驗,這也是我小時候非常喜歡思考的實驗,人為什么比一些動物聰明,簡單的思維實驗,如果我把我的大腦放到一個狗的里面或者我把人的大腦放到豬的里面,或者把豬的大腦放到人的身體里面,到底哪種結構可以誕生更多的智能情況。

后來我一直反思,我個人感覺其實多方面的原因限制的,而且可能物理限制還會更多。簡單說,我很懷疑如果把一個猴子的大腦放到人的身體里面,它照樣是可以說話的,但是為什么猴子不能說話呢?其實原因也非常簡單,就是它的喉嚨和聲帶不支持它說話。

舉一個最簡單的例子,像鸚鵡,它的神經(jīng)元其實是比較少的,比較聰明能說話的鸚鵡大概只要20到30萬的神經(jīng)元,但是猴子的神經(jīng)元跟它差不多,甚至猩猩的神經(jīng)元比它更多,但是為什么猩猩說不了話,而且只能發(fā)一些低級的聲音,我大概猜測是它聲帶的原因。

鸚鵡為什么能說話呢?因為它很喜歡吃堅果,吃堅果的過程中,它的喉嚨和舌頭鍛煉的非常靈活,所以它是沒有物理限制在里面的。這也是很大層面上一些高等動物,包括一些海豚、鯨魚,很大概率是它的聲帶限制了它的發(fā)聲。

總結一下,整個AGI的實現(xiàn)除了純粹的AI還需要有身體,包括對視覺和身體的感知都非常重要,包括對實時的數(shù)據(jù)采集。對物理世界的了解,包括對一些碰撞、重力、摩擦力、各種環(huán)節(jié)包括光學的一些理解。

另外再分享一個觀點,事實上目前從人來說,數(shù)據(jù)的輸出能力是非常弱的,人的數(shù)據(jù)輸入能力非常強,因為人有眼睛,看一張圖片或者視頻的時候,數(shù)據(jù)的輸入量非常大,至少每秒鐘幾百或幾千KB的數(shù)據(jù)量是有的。但是人輸出數(shù)據(jù)的能力非常弱,只能通過說話或者敲鍵盤,最頂尖的人體敲鍵盤的速度大概也就一秒幾個字而已,所以它的比特流是非常低的。

如果有一種人機接口可以把人的數(shù)據(jù)輸出能力大大提升,這樣對人本身智能的提升,包括干活的效率也會有非常大的提升,而且我覺得這個技術不需要用大腦植入式的設備,只要在表皮能連接上一些神經(jīng)元就可以實現(xiàn)這個功能。

如果在座的有一些神經(jīng)學或者生物醫(yī)療相關的朋友,沒準可以試試這個方向,為什么分享這個方向呢?因為我沒有能力去做,有能力做的朋友可以做一下或者叫我一下,我非常有興趣去參與一下這個事情。

再分享一個小故事,我小時候看一些電視劇,大家也發(fā)現(xiàn)有些武林高手都是可以動的,他的肌肉可以控制耳朵動,但是普通人實現(xiàn)不了你自己去控制你的耳朵動,其實這也是可以鍛煉出來的。

為什么呢?舉個最簡單的例子,有一次上高中的英語課,因為我英語很差,一直分心,我當時想控制我腦子殼上面一塊肌肉的運動,我自己鍛煉了好幾天,突然有一天我就能控制那塊肌肉了,那塊肌肉我原本是沒辦法控制的,但突然我用自己的想法去控制這塊肌肉,這塊肌肉就能被我的意志控制了,所以我的意思是沒準用外部的一些腦機接口直接連接一些皮表的神經(jīng)元,去鍛煉一下,我們就能做一個很好的人機接口的輸出。

另外分享一個比較有意思的觀點,比人更高級的智能形態(tài)是什么樣子,大家也知道現(xiàn)在的神經(jīng)AI網(wǎng)絡都是模仿人類的,但是模仿又不完全跟人類一樣,跟飛機一樣,飛機的飛行原理是參考了鳥的飛行原理,但是跟鳥又不是完全一樣的工作原理。我們目前計算機能實現(xiàn)的智能形態(tài)跟人的智能形態(tài)多少還是有差異的,具體差異是什么,大家回頭可以想想。

我覺得AGI的黎明快到來了,今年年初的時候我就預估在明年年底之前,在全球至少有一家實驗室或者公司可以把通用型的機器人AI模型做出來,當然我不知道是哪一家,有可能是中國,有可能是美國那邊的公司或者實驗室。

另外盡可能相信AI,我覺得這是當下過去人類整個歷史上最激動人心的時刻,我覺得我每天都在浪費時間。我們可以做更小的人形機器人,也可以做更大的人形機器人。

謝謝大家!

(本文根據(jù)錄音整理)


返回列表頁

加入會員

學會官微