需要去讨论一些理解和生成的话题。
最近对于我们一直以来考虑的V,L,A三个模态陷入了一种深深的绝望中。毋宁说,即便只考虑V和L,前景也不容乐观。
因为目前看来的结果是,在理解和生成统一的任务/框架/模型中。理解似乎总是有助于生成,而生成总不是有助于理解。这就带来了一种无力感。其实虽然管这种范式叫理解与生成,归根结底无非是language的生成和vision的生成的区别。那为什么language的生成可以称之为理解呢?我想因为它用一个相对来说最离散最紧凑的模态表达了人类的(目前的)最广泛的经验,智慧和知识,所以称之为理解,而vision是一个连续的模态,包含了自然界的物理知识,空间知识,当然也就是现在大家喜欢说的world model的知识(事实上我认为这种知识是不止于人类,广泛的动物群体都共享的知识),它相对连续和不紧凑,相对下游,所以更“生成”。
这样看来,action可以说是最连续,最不紧凑,和知识最无关的模态了。越紧凑的模态越容易学习,而它还代表了高层的智慧,这就是和人类学习路线或者生物进化路线相反的地方,不是吗?但是反过来可以说,进化的过程是最艰难的,从有“action”的单细胞生物到有“vision”的低级生物到会使用“language”的高级生物的进化需要漫长的时间。但是进化的知识通过基因的传递,婴儿学会爬行就只需要几个月了,学会感知世界的变化在幼儿期也可以基本完成,基本的language能力(包含知识可能要很久了),但是可以这么说,如果基因就像是智慧的表达形式的话,它迁移给下层信息的能力是更强的,而下游的模态想帮助上游模态进化是很弱的。
这就是说,L帮助V容易,V帮助L很难。V帮助A容易,A帮助V很难。所谓的理解生成之争,归根结底是不同模态的信息传递效率之争吧…
这样看来好像还是做L的人是最先进的hhhh.
