IDEA研究院沈向洋：如何解决GPT还没有解决的问题

IDEA研究院沈向洋在11月22日从深圳举行的2023年IDEA大会上表示，大模型的发展到现在，能力已经非常的强大，实际上还存在很多的问题，我们要寻找其中的问题，思考还可以做些什么，一个公认没有解决的问题就是多模态，除文本之外，先是图像与计算机视觉。

视觉大模型是否有机会
沈向洋认为计算机视觉有很多的特点，首先场景非常的长尾，理解有100个场景，就会有100个模型，其次问题碎片化，并不是非结构化，意味着问题之间差异很大，另一方面是互联网的数据并不足够可以将计算机视觉需要检测场景全部覆盖，也就是说像GPT之语言理解领域一样，要解决问题，所以计算机视觉领域同样需要通用视觉大模型。早在今年的4月份研究院曾经推出一句话检测、分割、生成一切的工具Grounded SAM，就是利用文字提示，实现精准的目标检测，利用Stable Diffusion模型对分割出来的区域进行可控文图生成，泛化的能力较强。还可以在多个应用方面扩展。

新的模型
这次大会上沈向洋笑介绍研究团队带来的新的模型，视觉提示模型T-Rex，T-Rex属于开箱即用的模型，不需要重新训练或者微调，就可以检测模型在训练阶段当中从来没有见过的物体。根据产品研究团队表示，从真实的应用场景当中，有很多罕见又复杂的物体很难用文字描述，视觉提示加入可以更好的理解。直观的视觉反馈，有助于提高检测效率以及精确度。

存在问题
沈向洋表示现在大模型存在的一个大问题就是一本正经的胡说八道，由于大模型整体都是数据驱动，基本可以想象成为统计的工具，其中最大的问题就是有条理的胡说。

IDEA研究院沈向洋：如何解决GPT还没有解决的问题

相关问答推荐

热点关注

科技

科技热门

快速找问题

科技