“熟能生巧”这句话通常是专门用来形容人类的,但对于刚部署到陌生环境中的机器人来说,这句格言也很重要。想象一下,一个机器人来到一个仓库。它具备了训练过的技能,比如放置物体,但现在它需要从一个不熟悉的架子上挑选物品。起初,机器很难做到这一点,因为它需要熟悉新的环境。为了改进,机器人需要了解在总体任务中需要改进哪些技能,然后专门化(或参数化)该动作。
图片来源:麻省理工学院
目前,现场人员可以对机器人进行编程以优化其性能。据外媒报道,麻省理工学院(MIT)计算机科学和人工智能实验室(CSAIL)和人工智能研究所(AI Institute)的研究人员开发出一种更有效的替代方法,并已在会议上展示“估计、推断和定位(Estimate, Extrapolate, and Situate,EES)”算法,使这些机器能够自行练习,有可能帮助它们提高在工厂、家庭和医院中执行有用任务的能力。
评估情况
为了帮助机器人更好地完成扫地等活动,EES采用视觉系统来定位和跟踪机器的周围环境。然后,该算法估计机器人执行某个动作(如扫地)的可靠性以及是否值得进行更多练习。EES预测如果机器人改进了特定技能,机器人可以多好地完成整个任务,最后进行练习。随后,该视觉系统会在每次尝试后检查该技能是否正确完成。
EES可以在医院、工厂、家庭或咖啡店等场所派上用场。例如,如果想让机器人打扫客厅,它需要练习扫地等技能。不过,根据这项研究的论文的共同主要作者、CSAIL附属电气工程和计算机科学学院博士生Nishanth Kumar SM '24及其同事的说法,EES可以在没有人工干预的情况下帮助机器人提高水平,只需进行几次练习即可。
“在开始这个项目之前,我们想知道这种专业化是否能够在真实机器人上通过合理数量的样本实现,”Kumar说道。“现在,我们有了一种算法,可以让机器人在合理的时间内利用数十或数百个数据点显著提高特定技能,这是标准强化学习算法所需的数千或数百万个样本的升级版。”
看看Spot扫地机器人
在人工智能研究所的研究试验中,EES在Boston Dynamics的Spot四足机器人上实施时,其高效学习的能力显而易见。该机器人背部装有一只手臂,经过几个小时的练习后,它完成了操作任务。在一次演示中,机器人在大约三个小时内学会了如何将球和环安全地放在倾斜的桌子上。在另一次演示中,该算法引导机器在大约两小时内将玩具扫入垃圾箱。这两个结果似乎都是对以前框架的升级,以前每个任务可能需要10多个小时。
“我们的目标是让机器人收集自己的经验,这样它就可以更好地选择哪些策略在部署中效果良好,”共同主要作者Tom Silver SM '20博士说道。“通过关注机器人所知道的东西,我们试图回答一个关键问题:在机器人拥有的技能库中,哪一个是最有用的,值得现在练习?”
EES最终可以帮助简化机器人在新部署环境中的自主实践,但目前它有一些局限性。首先,他们使用了离地面较低的桌子,这让机器人更容易看到物体。Kumar和Silver还3D打印了一个可连接的手柄,让Spot更容易抓住刷子。机器人没有检测到一些物品,并且将物体识别到了错误的位置,因此研究人员将这些错误算作失败。
给机器人布置家庭作业
研究人员指出,借助模拟器,物理实验的练习速度可以进一步加快。机器人最终可以将真实和虚拟练习结合起来,而不是在物理上自主练习每项技能。研究人员希望使他们的系统更快、延迟更少,设计EES来克服研成像延迟。未来,研究人员可能会研究一种算法,以推理一系列练习尝试,而不是规划要改进哪些技能。
“让机器人能够自主学习既非常有用,又极具挑战性,”佐治亚理工学院交互计算学院助理教授、NVIDIA AI研究科学家Danfei Xu表示。“未来,家用机器人将出售给各种家庭,并有望执行各种各样的任务。我们不可能事先对它们需要知道的一切进行编程,因此让它们在工作中学习至关重要。然而,让机器人在没有指导的情况下自由探索和学习可能会非常缓慢,并可能导致意想不到的后果。Silver 和他的同事的研究引入了一种算法,允许机器人以结构化的方式自主练习技能。这是朝着创造能够不断发展和自我改进的家用机器人迈出的一大步。”