Robotics has a long way是我现在的感叹。 最近我做world model for action generation不出意外的又失败了。毋宁说,基于vlm backbone做world model又失败了。
这实在是可以预见但是又让我失落的事情。我们可以想见。正如我前面所说,下游的低知识的模态想传递知识给上游的高知识的模态是很困难的事情。 也就是生成(image gen)帮助理解(language gen)是很难的事情。一旦你试图这样做,就很容易把模型训崩。
我是一个计算机民科,关于这两个模态的知识高低的争论暂且搁置。连续和离散是没有什么争议的。那么可以说,理解帮助生成是 …