您现在的位置：首页 > 行业新闻

OpenAI大模型上身机器人，原速演示炸场!

2024/3/21 14:42:15 标签：中国传动网

导语：简单动作如抓起塑料袋(抓哪里都可以)，机器人基于已学习的视觉-动作执行策略，可以做出一些“下意识”的快速反应行动。

　　OpenAI大模型加持的机器人，深夜来袭!

　　名曰Figure 01，它能听会说，动作灵活。

　　能和人类描述眼前看到的一切：

　　我在桌子上看到了一个红色的苹果，沥水架上面还有几个盘子和一个杯子;然后你站在附近，手放在桌子上。

　　听到人类说“想吃东西”，就马上递过去苹果。

　　而且对于自己做的事有清楚认知，给苹果是因为这是桌上唯一能吃的东西。

　　还顺便把东西整理，能同时搞定两种任务。

　　最关键的是，这些展示都没有加速，机器人本来的动作就这么迅速。

　　接下来，我们继续来看下Figure 01的细节。

　　OpenAI视觉语言大模型加持

　　根据创始人的介绍，Figure 01通过端到端神经网络，可以和人类自如对话。

　　基于OpenAI提供的视觉理解和语言理解能力，它能完成快速、简单、灵巧的动作。

　　模型只说是一个视觉语言大模型，是否为GPT-4V不得而知。

　　它还能规划动作、有短期记忆能力、用语言解释它的推理过程。

　　如对话里说“你能把它们放在那里吗?”

　　“它们”、“那里”这种模糊表述的理解，就体现了机器人的短期记忆能力。

　　它使用了OpenAI训练的视觉语言模型，机器人摄像头会以10Hz拍下画面，然后神经网络将以200Hz输出24自由度动作(手腕+手指关节角度)。

　　具体分工上，机器人的策略也很像人类。

　　复杂动作交给AI大模型，预训练模型会对图像和文本进行常识推理，给出动作计划;

　　简单动作如抓起塑料袋(抓哪里都可以)，机器人基于已学习的视觉-动作执行策略，可以做出一些“下意识”的快速反应行动。

　　同时全身控制器会负责保持机身平衡、运动稳定。

　　除了最先进的AI模型，Figure 01背后公司——Figure的创始人兼CEO还在推文中提到，Figure方面整合了机器人的所有关键组成。

　　包括电机、中间件操作系统、传感器、机械结构等，均由Figure工程师设计。

　　据了解，这家机器人初创公司在2周前才正式宣布和OpenAI的合作，但才13天后就带来如此重磅成果。不少人都开始期待后续合作了。

　　由此，具身智能领域又有一颗新星走到了聚光灯下。

　　“将人形机器人带进生活”

　　说到Figure，这家公司创立于2022年，正如前文所言，再次引爆外界关注，就在十几天前——

　　官宣在新一轮融资中筹集6.75亿美元，估值冲到26亿美元，投资方几乎要集齐半个硅谷，包括微软、OpenAI、英伟达和亚马逊创始人贝佐斯等等。

　　更重要的是，OpenAI同时公开了与Figure更进一步合作的计划：将多模态大模型的能力扩展到机器人的感知、推理和交互上，“开发能够取代人类进行体力劳动的人形机器人”。

　　用现在最热的科技词汇来说，就是要一起搞具身智能。

供稿：网易科技

本文链接：http://www.cmcia.cn/content.aspx?url=rew&id=3957

相关新闻