人形機器人控制,人形機器人動作編程
chanong
宅曉曉發(fā)布人:奧飛斯量子比特| 公眾號QbitAI
如果讓GPT-4 控制人形機器人而不需要任何事先編程或培訓(xùn),你能做什么?
答案是“我太好奇了!”
不,機器人被要求“在黑暗的電影院里瘋狂吃爆米花,卻突然意識到它吃的食物屬于隔壁的陌生人”。
在GPT-4的控制下,機器人的笑容凝固了,它轉(zhuǎn)過身來,尷尬地?fù)u了搖頭。
不過你害羞的時候也沒忘記再抓一把塞進嘴里吧?
或者就像要求機器人彈吉他一樣。
GPT-4想了想,然后控制了機器人,活動了一下手指,猛烈地?fù)u了搖頭。這感覺有點像搖滾樂。
但如果你仔細(xì)觀察,你就會發(fā)現(xiàn),即使你搖頭,你的手指也根本沒有動……
如果你要說這是魔攤老師算出來的,那似乎也沒什么錯(手動狗頭)。
操作順序總結(jié)為——
相比于波士頓動力公司的人形機器人,所有動作都由人類程序精心控制,并由GPT-4直接控制,該機器人表情兇猛,動作怪異,但所有操作都滿足敏捷性的要求。
一系列GPT-4控制機器人的視頻被發(fā)布到網(wǎng)上后,不少網(wǎng)友大呼“恐怖谷效應(yīng)”。
即使是擁有20 年經(jīng)驗的機器人專家也感到害怕。
我被這些動作嚇壞了。你能親眼看看這有多美嗎?
有網(wǎng)友調(diào)侃:“他在舞臺上跟我一模一樣”。
不過,也有網(wǎng)友認(rèn)為,通過GPT-4來控制人形機器人,簡直不可思議。
這是東京大學(xué)和日本Alternative Machine Company 首次對由GPT-4 驅(qū)動的人形機器人進行研究。
研究表明,用戶不需要提前對機器人進行編程,只需要語言輸入,即與GPT-4聊天一會兒,機器人就可以按照指令完成動作。
讓我們來看看這項研究的細(xì)節(jié)及其背后的基本原理。
這款人形機器人Alter3是一種新的嘗試,以GPT-4為大腦打造大型模型+機器人,無需編程或訓(xùn)練。這款人形機器人還能做出哪些令人皺眉卻又理性的動作呢?
為什么不給出指示并讓Alter3 假裝呢?
它知道如何瞬間進入場景,嘴巴張得大大的,雙手伸到身前。
但不知道為什么,微微張開的嘴唇和空洞的眼神,就連專家稱他為“僵尸”的林正秀都覺得自己像個僵尸。
如果你要求自拍,Alter 3也會當(dāng)場快速拍一張照片。
他痛苦地閉上了眼睛,殊不知那是因為原來鏡頭里的他太丑了,無法欣賞他的表情。
讓我們再次聆聽搖滾,開始與音樂同行。
確實,你傾向于隨著節(jié)拍點頭,但如果你恭敬地站在他們面前說:“啊,是的,是的,是的,是的”,感覺很合理。 (手動狗頭):
在所有發(fā)布的視頻演示中,“喝茶”的行為似乎是最奇怪的,最不奇怪的,甚至對我來說很有趣。
當(dāng)你工作絕望時喝茶可能會危及生命。我告訴你,茶還沒送到嘴邊你才張嘴,所以不喝也沒關(guān)系。
作為一個人形機器人,Alter3 的人類行為有點有趣,那么為什么不嘗試一些其他的呢?
例如,讓我們以音樂為靈感來解讀一條搖擺的蛇。
你見過嗎?它不太靈活,但它卻使勁地扭動它的樹干。這是snake.gif 的瘋狂版本。
這樣看來,人形機器人和GPT-4直接融合是可以的,但是一點也不美觀……
事實上,回顧過去,科學(xué)家和研究人員今年一直忙于將大型模型與機器人結(jié)合起來。
然而,典型的方法尋求在進一步訓(xùn)練后將大規(guī)模圖像語言模型的特征和知識轉(zhuǎn)移到機器人領(lǐng)域。
許多項目包括微軟的ChatGPT for Robotics、谷歌的PaLm-E、RT-1、RT-2、VoxPoser、BoboCat等都遵循這條路線。
其中,轟動一時的Google RT(機器人變形金剛)系列雖然效果卓著,但谷歌花了17個月的時間來訓(xùn)練它并從13個機器人中收集了13萬個機器人特定數(shù)據(jù),這讓普通大眾很難訓(xùn)練它并收集13萬個機器人-來自13個機器人的具體數(shù)據(jù),團隊在獲得資金和能源方面遇到了困難。
今年年中,李飛飛團隊在具身智能方面的成果進一步推進,通過LLM(大規(guī)模語言模型)+VLM(視覺語言模型)的結(jié)合,進一步提升了機器人與環(huán)境交互的能力。
基于這個想法,機器人不需要額外的數(shù)據(jù)或訓(xùn)練就可以完成任務(wù)。
不過,李飛飛團隊提供的演示硬件只是一個機械臂,而此次介紹的研究則采用了大模型行業(yè)最強大的模型GPT-4及其標(biāo)志性的Alter3作為實驗?zāi)繕?biāo)。 “身體”。
無論是OpenAI開發(fā)的GPT-4,還是東京大學(xué)與日本“機器人之父”石黑浩共同開發(fā)的人形機器人Alter3,都是現(xiàn)有研究成果。
這項研究的真正目的是探索如何使用像GPT-4 這樣的大規(guī)模模型來控制人形機器人并在無需編程的情況下執(zhí)行各種動作,是驗證生成和降低人機交互復(fù)雜性的能力。花費。
基于這組結(jié)果,Alter3可以完成上面列出的各種復(fù)雜動作(我們先把完成和顯示功能放在一邊)。
其次,當(dāng)研究人員整合Alter3和GPT-4時,他們發(fā)現(xiàn)即使給Alter3發(fā)出相同的命令,Alter3反饋的行為每次也不一樣。
我們分析認(rèn)為,這與大規(guī)模語言模型本身的特性有關(guān),相同的輸入可能對應(yīng)不同的輸出,但GPT-4成功地控制了人形機器人,但這并不意味著它不能完畢。
例如,如果你讓機器人“吃飯”,用筷子吃飯和用刀叉吃飯時,兩個動作可能會有所不同。
那么GPT-4如何知道如何在收到句子輸入后立即控制Alter3呢?
關(guān)鍵是兩步提示詞事實上,在連接GPT-4之前,Alter3的身體就配備了大腦(AI神經(jīng)網(wǎng)絡(luò))和各種傳感器。
迄今為止,Alter3的運作主要依靠其內(nèi)置的CPG(中央模式生成器)來分析來自傳感器的數(shù)據(jù),并按照特定的順序驅(qū)動體內(nèi)的43個氣動裝置來完成相應(yīng)的動作。
整個過程通常需要人工干預(yù)、修補和修復(fù)。
但!現(xiàn)在一切都不同了,研究團隊表示GPT-4 的集成讓他們“安心”。
Alter3現(xiàn)在可以通過口頭命令,其背后的技術(shù)主要是:
它們是CoT(思想鏈)和零射擊(零射擊學(xué)**)。
通過利用這兩種技術(shù),GPT-4可以將自然語言直接翻譯成機器人可以理解和執(zhí)行的動作,而不是完全依賴硬件本身來控制Alter3。
最重要的是,在整個過程中您不必明確地對身體的任何部分進行編程。
現(xiàn)在我們來談?wù)勅绾渭蒅PT-4和Alter3。
大致可以分為以下兩個步驟。
首先,使用提示描述您希望Alter3 執(zhí)行的行為或操作,例如“自拍”或“自拍時高舉手臂”。
GPT-4 接受輸入并生成一系列思考步驟,詳細(xì)說明完成此操作需要做什么。
研究人員將這個過程稱為CoT 的一部分,它將復(fù)雜的任務(wù)分解為一系列簡單的思維步驟。
然后,研究人員使用不同的提示將分解的詳細(xì)步驟轉(zhuǎn)化為Alter3 可以理解的行為指令。
很容易理解,你可以將人類指令轉(zhuǎn)換為Python代碼,并直接使用這些代碼來控制Alter3身體部位的特定運動參數(shù)。
使用轉(zhuǎn)換后的代碼,Alter3 可以隨時眨眼或卷起嘴唇。
研究團隊認(rèn)為第二步是CoT 的一部分,因為它涉及“將抽象描述轉(zhuǎn)化為具體操作”。
研究團隊表示,CoT 使得GPT-4 能夠有效控制Alter3,并命令其執(zhí)行各種復(fù)雜的動作,而無需任何額外的訓(xùn)練或微調(diào)。
總之,除了上述兩個提示控制機器人之外,研究團隊還完成了其他研究。
例如,我們來分解Alter3在對話中的行為,主要關(guān)注對話軌跡和語義時間的演變。
對于對話軌跡,研究團隊使用了一種稱為UMAP(均勻流形逼近和投影)的技術(shù)。團隊將對話的內(nèi)容嵌入到二維空間中,從而更容易觀察這個簡化版對話的發(fā)展過程。
他們發(fā)現(xiàn),當(dāng)交互順序固定時,對話軌跡呈現(xiàn)出循環(huán)模式,即相同的主題會一遍又一遍地重復(fù)。
而當(dāng)對話的順序是隨機的時,對話的內(nèi)容就變得更加發(fā)散或富有創(chuàng)意。
有趣的是,研究發(fā)現(xiàn)GPT-4在聊天時間較長后傾向于重復(fù)“再見”。如果沒有人為干預(yù),他們就會癡迷于和你說再見。
在進行語義時間演化分析的過程中,團隊觀察到聊天內(nèi)容隨時間的變化。
他們注意到對話初期的一些關(guān)鍵詞,比如“藝術(shù)”、“學(xué)**”,在對話過程中被GPT-4 遺忘了,取而代之的是“文化”、“人文”、“克制”。我理解。
這表明對話的內(nèi)容隨著時間的推移而不斷變化。
當(dāng)然,一旦你開始對GPT-4說“再見”,GPT-4幾乎就要跟你說再見了~(doge)
東京大學(xué)的這項熱門研究由東京大學(xué)和一家日本替代機械公司提供。
第一作者是東京大學(xué)系統(tǒng)科學(xué)研究生院的Takahide Yoshida。
其余兩位作者Atsushi Masumori 和Takashi Ikegami 均就讀于東京大學(xué),隸屬于Alternative Machine。
最后不得不提一下Alter3,它是本次研究的主要焦點。進行這項研究的研究人員也來自東京大學(xué)。這是由東京大學(xué)AI 研究員池上隆(Takashi Ikegami) 和``.在日本,他被稱為“機器人之父”。
Alter3是2020年誕生的同系列機器人的第三代。
據(jù)了解,Alter系列的兩次迭代都是在歌劇演唱過程中完成的。第三代的首次亮相是在東京新國立劇場,指揮樂團并參加其他現(xiàn)場表演。
當(dāng)時的特點是增強了傳感器、提高了歌唱表現(xiàn)力、改進了發(fā)聲系統(tǒng)。
以及最終可驅(qū)動43 個氣動裝置的體內(nèi)CPG。
CPG的數(shù)據(jù)分析有多保密?也就是說,如果Alter 3所在的房間溫度突然下降,Alter 3就會打顫,表示寒冷。
這也可能是連接GPT-4作為大腦后能夠表達和執(zhí)行生動動作的基礎(chǔ)。
說到人形機器人的最新消息,就不能不提老馬關(guān)于特斯拉擎天柱的最新消息。
就在剛剛,馬斯克突然在推特上發(fā)布了一段擎天柱的視頻,稱第二代擎天柱機器人(Gen 2)將于本月發(fā)布。
第二代Optimus 的“小”改進是步行速度提高了30%。
它還可以提高您的平衡和身體控制能力。
我等不及了!
參考鏈接:[1]https://tnoinkwms.github.io/ALTER-LLM/[2]https://arxiv.org/abs/2312.06571[3]https://twitter.com/elonmusk/status/1734763060244386074—完—Qubit QbitAI · 標(biāo)題簽名
關(guān)注我們,第一時間了解最新技術(shù)動態(tài)








