從技術(shù)路線上看,目前基于大模型的“大腦”技術(shù)路線正處在并行探索階段,并逐漸向端到端的大模型演進(jìn)。
現(xiàn)階段主要是 4 條技術(shù)路線:
實(shí)現(xiàn)人機(jī)語言交互、任務(wù)理解、推理和規(guī)劃,目前為成熟。主要代表是谷歌的 SayCan 模型,通過預(yù)訓(xùn)練技能的價(jià)值函數(shù)對齊(Grounds)大語言模 型或者通過價(jià)值函數(shù)的訓(xùn)練使大語言模型對用戶指令進(jìn)行推理分解 獲得任務(wù)步驟。
彌合語言與視覺理解間的差距,讓機(jī)器人實(shí)現(xiàn)更準(zhǔn)確的任務(wù)規(guī)劃和決策。主要代表是清華大學(xué)的 CoPa 模型,利用嵌入在基礎(chǔ)模型(比如視覺語言模型的代表 GPT-4V)中 的常識(shí)知識(shí)為開放世界機(jī)器人操控生成一系列的自由度末端執(zhí)行器 姿勢,生成的操控任務(wù)分為任務(wù)導(dǎo)向抓取和感知運(yùn)動(dòng)規(guī)劃。
在 VLM 基礎(chǔ)上增加運(yùn)動(dòng)控制,解決機(jī)器人運(yùn)動(dòng)軌跡決策問題。主要代表是谷歌的 RT-H 模型,學(xué)習(xí)語言和運(yùn)動(dòng), 并使用視覺上下文,通過利用語言-視覺-動(dòng)作結(jié)合的多任務(wù)數(shù)據(jù)集學(xué) 習(xí)更強(qiáng)大和靈活的動(dòng)作策略。
實(shí)現(xiàn)對物理世界環(huán) 境的多面感知,是未來的主要研究方向。主要代表是麻省理工、IBM 等共同研究的 MultiPLY 模型,將視覺、觸覺、語音等 3D 環(huán)境的各類 特征作為輸入,以形成場景外觀的初步印象,并通過多視圖關(guān)聯(lián)將印 象中的輸出融合到 3D,終得到以對象為中心的場景特征。
此外,類腦智能和腦機(jī)接口等創(chuàng)新技術(shù)也為人形機(jī)器人“大腦”的 解決方案帶來無限可能。類腦智能是人工智能技術(shù)的進(jìn)一步延伸,是 通過對人腦生物結(jié)構(gòu)和思維方式進(jìn)行直接模擬,使智能體能夠像人腦 一樣準(zhǔn)確G效處理多場景下的復(fù)雜任務(wù),是未來有望代替大模型的新 技術(shù)路線。腦機(jī)接口是在人腦與外部設(shè)備間建立連接通路的技術(shù),實(shí) 現(xiàn)人腦與外界設(shè)備的信息交換。未來有望基于腦機(jī)接口實(shí)現(xiàn)“大腦”的 “人+機(jī)”混合智能。
![]() |
商用機(jī)器人 Disinfection Robot 展廳機(jī)器人 智能垃圾站 輪式機(jī)器人底盤 迎賓機(jī)器人 移動(dòng)機(jī)器人底盤 講解機(jī)器人 紫外線消毒機(jī)器人 大屏機(jī)器人 霧化消毒機(jī)器人 服務(wù)機(jī)器人底盤 智能送餐機(jī)器人 霧化消毒機(jī) 機(jī)器人OEM代工廠 消毒機(jī)器人排名 智能配送機(jī)器人 圖書館機(jī)器人 導(dǎo)引機(jī)器人 移動(dòng)消毒機(jī)器人 導(dǎo)診機(jī)器人 迎賓接待機(jī)器人 前臺(tái)機(jī)器人 導(dǎo)覽機(jī)器人 酒店送物機(jī)器人 云跡科技潤機(jī)器人 云跡酒店機(jī)器人 智能導(dǎo)診機(jī)器人 |