具身智能與智能機(jī)器人的發(fā)展態(tài)勢如何?2025年人工智能在工業(yè)制造領(lǐng)域的應(yīng)用將迎來怎樣的重大突破?據(jù)市場調(diào)研機(jī)構(gòu)MarketsandMarkets預(yù)測,全球垂類AI應(yīng)用市場規(guī)模將在2030年突破471億美元,其中工業(yè)制造作為關(guān)鍵領(lǐng)域,正在加速向智能化生產(chǎn)與全流程自動化方向迭代,同時具身智能與智能機(jī)器人技術(shù)正在與傳統(tǒng)工業(yè)制造領(lǐng)域深度融合。2025年將是具身智能從實(shí)驗(yàn)室邁向工廠的關(guān)鍵轉(zhuǎn)折點(diǎn),而人形機(jī)器人作為高階形態(tài),則有望在工業(yè)領(lǐng)域率先實(shí)現(xiàn)商用突破,重塑全球制造業(yè)競爭格局。
近日,中國工程院院士、博士生導(dǎo)師 ,中國科學(xué)院沈陽自動化研究所研究員,機(jī)器人與智能系統(tǒng)全國重點(diǎn)實(shí)驗(yàn)室主任于海斌,在沈陽市高新技術(shù)企業(yè)協(xié)會主辦的“創(chuàng)新聚沈·向陽而行”大會上圍繞具身智能與智能機(jī)器人展開深度分享。
人工智能的歷史脈絡(luò)與具身智能的誕生
人工智能(AI)自1956年達(dá)特茅斯會議正式提出以來,經(jīng)歷了數(shù)次技術(shù)浪潮與寒冬。于海斌院士指出,AI的發(fā)展可分為四個階段:
· 符號邏輯推理階段(1950s-1980s):以知識表達(dá)和專家系統(tǒng)為核心,但受限于知識獲取的困難,最終因?qū)嵱眯圆蛔氵M(jìn)入第一次寒冬。
· 神經(jīng)網(wǎng)絡(luò)連接階段(1980s-2000s):辛頓(Geoffrey Hinton)等人提出反向傳播算法,推動神經(jīng)網(wǎng)絡(luò)發(fā)展,但受限于算力和數(shù)據(jù),應(yīng)用場景有限。
· 深度學(xué)習(xí)階段(2010s至今):以卷積神經(jīng)網(wǎng)絡(luò)(CNN)和斯坦福大學(xué)李飛飛團(tuán)隊(duì)構(gòu)建的ImageNet數(shù)據(jù)庫為標(biāo)志,AI在圖像識別等領(lǐng)域?qū)崿F(xiàn)突破,識別率從60%提升至超越人類水平。
· 具身智能(Embodied AI)階段(2020s起):AI從純數(shù)據(jù)驅(qū)動轉(zhuǎn)向與物理世界交互,強(qiáng)調(diào)智能體通過身體、環(huán)境與任務(wù)的協(xié)同實(shí)現(xiàn)認(rèn)知與行為進(jìn)化。
圖靈早在計(jì)算機(jī)理論初期即提出兩種智能路徑——“離身智能”(如ChatGPT依賴純數(shù)據(jù)推理)與“具身智能”(需與物理設(shè)備結(jié)合)。然而,具身智能因技術(shù)復(fù)雜度高長期滯后,直到機(jī)器人學(xué)、神經(jīng)科學(xué)和心理學(xué)的交叉融合為其提供了新思路。
具身智能的核心內(nèi)涵與科學(xué)依據(jù)
環(huán)境交互與智能發(fā)育的必然性:于海斌院士例舉了一項(xiàng)科學(xué)實(shí)驗(yàn),來印證環(huán)境交互與智能發(fā)育呈現(xiàn)正相關(guān)性,該實(shí)驗(yàn)反饋了智能的成長依賴與環(huán)境的動態(tài)互動作用。
來自麻省理工學(xué)院兩位研究人員,把兩只小貓放進(jìn)了一個圓桶內(nèi),兩只小貓都在圓筒內(nèi)部繞圈運(yùn)動。第一只小貓是白己走的;第二只小貓則被放在與柱體中心軸相連的小盒子里。兩只小貓看到的東西完全相同。結(jié)果顯示只有靠自己身體運(yùn)動的小貓發(fā)育出了正常的視力。這進(jìn)一步印證了“心靈手巧”的逆向邏輯——肢體動作的靈活性(如操作工具)會反向促進(jìn)認(rèn)知能力的提升。
具身智能三位一體的智能框架:具身智能強(qiáng)調(diào)“大腦-身體-環(huán)境”三位一體。其中大腦負(fù)責(zé)高層決策與意圖理解(如大語言模型),身體通過傳感器與執(zhí)行器實(shí)現(xiàn)物理交互(如機(jī)械臂、仿生關(guān)節(jié)),環(huán)境提供動態(tài)反饋與訓(xùn)練場景(如仿真平臺、真實(shí)物理空間)。三者協(xié)同構(gòu)成閉環(huán),使智能體能夠通過試錯學(xué)習(xí)適應(yīng)復(fù)雜任務(wù)。
從“感知智能”到“行動智能”的跨越:傳統(tǒng)AI擅長靜態(tài)感知(如圖像識別),但缺乏對物理世界的動態(tài)響應(yīng)能力。波士頓動力(Boston Dynamics)的Atlas機(jī)器人通過深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)結(jié)合,實(shí)現(xiàn)了翻越障礙、適應(yīng)地形變化等復(fù)雜動作,標(biāo)志著具身智能在運(yùn)動控制領(lǐng)域的突破。
圍繞具身智能四大熱點(diǎn)的思考與技術(shù)挑戰(zhàn):
數(shù)字人:中國通用人工智能研究院開發(fā)的“數(shù)字人通通”模擬人類從嬰兒期開始的成長過程,通過與虛擬環(huán)境的交互(如聽覺、觸覺反饋)實(shí)現(xiàn)認(rèn)知進(jìn)化。這一嘗試為研究人類智能發(fā)育提供了新范式,但也引發(fā)倫理爭議——若機(jī)器人通過環(huán)境交互自主進(jìn)化,人類是否可能失去控制?
機(jī)械臂與大語言模型的融合:谷歌RT-X平臺將大語言模型(LLM)與機(jī)器人操作結(jié)合,使機(jī)械臂能夠理解自然語言指令(如“整理房間”),并自主分解任務(wù)步驟(識別雜物、分類歸置)。這一技術(shù)已在疊衣服、精細(xì)裝配等場景中展現(xiàn)潛力,但其泛化能力仍受限于物理規(guī)則與數(shù)據(jù)多樣性。
人形機(jī)器人的爭議與前景:馬斯克力推的Optimus人形機(jī)器人引發(fā)兩極評價。支持者認(rèn)為人形是通用化的終極形態(tài),可適配人類環(huán)境(如樓梯、工具),而質(zhì)疑者指出其成本高昂、技術(shù)冗余(如多關(guān)節(jié)驅(qū)動難題)。
于海斌院士認(rèn)為,人形機(jī)器人的核心價值在于“本體硬件”與“智能算法”的協(xié)同突破。例如,開源算法(如波士頓動力的運(yùn)動控制模型)大幅降低了本體研發(fā)門檻,而黃仁勛(英偉達(dá)CEO)布局的具身智能訓(xùn)練平臺,或?qū)⑼苿有袠I(yè)標(biāo)準(zhǔn)化。
智能駕駛與低空經(jīng)濟(jì):盡管全無人駕駛面臨地面環(huán)境的極端復(fù)雜性(如突發(fā)行人、不規(guī)則道路),但網(wǎng)聯(lián)汽車的輔助駕駛(如車道保持、自動泊車)和低空經(jīng)濟(jì)(無人機(jī)物流、巡檢)已成為更可行的商業(yè)化方向。
技術(shù)路徑:肢體、小腦與大腦的協(xié)同進(jìn)化
在機(jī)器人技術(shù)路徑未來發(fā)展趨勢探討方面,于海斌院士表示未來人形機(jī)器人肢體部分有很大的提升空間,如基于高能量密度的仿生驅(qū)動肢體。仿照人類心臟的高效供能機(jī)制,研發(fā)微型液壓驅(qū)動與仿生肌肉,如德國費(fèi)斯托的氣動機(jī)械臂就是一個很好的參考方向,該機(jī)械臂核心優(yōu)勢在于其高精度控制與仿生設(shè)計(jì)的融合,擁有12個自由度,動作柔性且穩(wěn)定,部分型號搭載AI技術(shù)實(shí)現(xiàn)自我學(xué)習(xí)優(yōu)化,電磁閥壽命超3000萬次,具備良好的性能和耐用性。
此外,生物融合也是未來機(jī)器人發(fā)展趨勢。未來,我們可以通過培養(yǎng)生物細(xì)胞構(gòu)建具有感知與驅(qū)動能力的“類器官”產(chǎn)品,盡管其生存環(huán)境要求苛刻,但為軟體機(jī)器人提供了新思路。
小腦主要作用在于提升人形機(jī)器人的運(yùn)動協(xié)調(diào)能力,運(yùn)動控制依賴海量物理數(shù)據(jù),而真實(shí)環(huán)境訓(xùn)練成本過高。目前國內(nèi)已經(jīng)有相對成熟的平臺進(jìn)行機(jī)器人的模擬訓(xùn)練,如國家地方共建人形機(jī)器人創(chuàng)新中心開發(fā)的,異構(gòu)人形機(jī)器人訓(xùn)練場通過“虛擬-現(xiàn)實(shí)”遷移學(xué)習(xí)(Sim2Real),使機(jī)器人能在低成本場景中預(yù)訓(xùn)練動作(如行走、跳躍),再遷移至真實(shí)環(huán)境微調(diào)。
大腦提供決策模型與機(jī)器人的認(rèn)知能力,目前多模態(tài)感知技術(shù)是主要方案,該方案融合視覺、觸覺、力覺傳感器,提升環(huán)境理解的全面性。在具體案例方面,北京大學(xué)電子學(xué)院程翔教授團(tuán)隊(duì)提出的“機(jī)器聯(lián)覺”系統(tǒng),通過智能融合通信與多模態(tài)感知信息,有效提升了機(jī)器人在復(fù)雜環(huán)境中的感知、決策與通信能力。
此外,于海斌院士也提到了如何解決大模型“災(zāi)難性遺忘”問題,實(shí)現(xiàn)機(jī)器人的終身學(xué)習(xí)方式。愛丁堡大學(xué)提出的增量強(qiáng)化學(xué)習(xí)框架是一個很好的解決“災(zāi)難性遺忘”的解決方案。它能夠在保持已有知識的基礎(chǔ)上,通過逐步增量式地更新策略,快速適應(yīng)新環(huán)境或新任務(wù),從而顯著提升機(jī)器人在動態(tài)變化環(huán)境中的學(xué)習(xí)效率和性能表現(xiàn),無需從頭開始重新訓(xùn)練整個模型。
未來十年技術(shù)趨勢研判與產(chǎn)業(yè)啟示:
于海斌院士預(yù)測,未來十年,具身智能的算法與訓(xùn)練平臺將快速發(fā)展,而硬件(如高精度傳感器、仿生關(guān)節(jié))受限于材料與工藝,進(jìn)步速度相對緩慢。企業(yè)需優(yōu)先布局軟件生態(tài)(如仿真平臺、數(shù)據(jù)鏈),而非盲目投入硬件研發(fā)。
此外具身智能缺乏統(tǒng)一理論體系(如認(rèn)知科學(xué)的世界模型),但場景驅(qū)動的工程化應(yīng)用(如倉儲機(jī)器人、醫(yī)療外骨骼)將率先落地。國家需推動跨機(jī)構(gòu)協(xié)作,解決數(shù)據(jù)確權(quán)與模型共享難題。
在通用終端的終極形態(tài)方面,于海斌院士認(rèn)為人形機(jī)器人未必是唯一答案,具身智能可能通過“一腦多機(jī)”模式賦能多樣化設(shè)備(如工業(yè)機(jī)床、家用電器)。例如,同一AI核心可同時調(diào)度無人機(jī)群與地面機(jī)器人,實(shí)現(xiàn)任務(wù)協(xié)同。
在倫理與安全方面,于海斌院士認(rèn)為,若具身智能體通過環(huán)境交互自主進(jìn)化,可能超出人類預(yù)設(shè)的邊界。行業(yè)需提前建立倫理規(guī)范(如行為約束算法、人機(jī)權(quán)責(zé)界定),避免技術(shù)失控風(fēng)險。
結(jié)語與未來:
具身智能正在讓AI從“虛擬大腦”向“物理實(shí)體”迭代,在技術(shù)演化的道路上,需要更加關(guān)注技術(shù)創(chuàng)新的有效性與產(chǎn)業(yè)化的可落地性。正如于海斌院士所言:“藍(lán)海的意義在于未知,而未知需要勇氣與智慧并存。”對產(chǎn)業(yè)從業(yè)者而言,打破學(xué)科壁壘、深化理論突破,聚焦場景剛需、參與生態(tài)共建或?qū)⒊蔀閾屨枷葯C(jī)的關(guān)鍵。
來源:騰訊網(wǎng)