我现在的感觉越来越强烈,computer vision的研究者和robot learning的研究者的思路是有很大不同的。这导致我的关注点往往会在robot(或者我认为的robot)上让我最兴奋的事情上。emmmm或许 这就是“猫的理想”。
让我进入robot learning领域的动机和我认为目前领域最好的演讲都是卢老师在2022年天津valse上的presentation。后来我看到某位ap也谈到自己听到这个演讲以后受到的 触动,让我一瞬间有了很强的共鸣感。
我管这次演说称为“猫的理想”。归根结底就是说,如果用learning的方法做robotics,最让人欣喜的事情一定不是用这样或者那样的方式,把这样或者那样的模型,在action这个模态上 又做了一个生成。当然也可以是在vla上又做了一次监督,然后得到了我们想要的精度,高速,泛化以及多样。当然目前99.99%的研究一定会是这样的,用以解决现在actions还 没有解决的问题。具体来说,就是拿来learning的方法造一个高效的机器。但是这样的机器是没有灵魂的,最后就会像那只木偶猫一样,被label牵着走。
虽然叫robot learning,但是猫的理想不是成为一个bot,那样它就和chatbot还有什么区别呢?embodiment作为一个和人类最接近的载体,最终的目标是产生一个完全和人类一样的个体而不是 generate action的tool。如果基于这个目的,现有的研究需要做的一件事情就是在真实世界的交互中,embodiment还能够继续学习,最好未来可以主动地学习。如果这是猫的理想,机器人学习将是 一个非常promising的领域吧…而这个概念来自于2022年embodied ai这个词还没有火的时候,实在是让我觉得超前和震撼。
再说回现在,我认为pi0.6带来的震撼感是远超于0.5的。此外我认为行业只能够follow这样有限的机构带来的breakthrough是悲哀的。0.5给我带来的感受是,我们引入了a,b,c的监督是不会有穷尽的,就跟那个不断用标签驱动的猫一样。你可以理解为我们设计100个1000个不同功能的卷积核也拼不起来一个DINO(再次映证了自监督的nb和人为精细设计损失往往失败的真理)。0.6将rl引入了policy,事实上已经是主动学习的第一步,在不远的将来,supervised vla足够强大之后,人类的干预将会减少,模型将自如地在真实世界不断地用rl优化自己,我们一定可以实现猫的理想。
