科技 > 英伟达研究科学家范麟熙称 合成数据训练AI将是未来方向

英伟达研究科学家范麟熙称 合成数据训练AI将是未来方向

2023-11-05 16:07阅读(157)

10月27日,英伟达高级研究科学家范麟熙介绍的有关于合成数据的最新研究项目,他认为合成数据会满足大模型提供的下一个万亿级别token,紧接着,他又介绍了有关于

1

10月27日,英伟达高级研究科学家范麟熙介绍的有关于合成数据的最新研究项目,他认为合成数据会满足大模型提供的下一个万亿级别token紧接着,他又介绍了有关于合成数据最新研究MimicGen系统,他表示这套系统是能够生成机器人的训练数据,根据研究论文中显示,MimicGen系统使用不到200个人内演示,就可以自主生成五万个训练的数据任务,其中涵盖了18个类别的任务和多个模拟的环境。

从大量人类示范中进行模仿性学习,这样的方式已经被证明是构建有能力机器人智能体的有效范例,而且这些范例的收集是非常昂贵且费时的,经过这项研究发现,机器人智能体是可以通过模仿学习生成数据集,从而进行有效的训练,在长期和高精度的任务中可以获得更加出色的性能。

除此之外,该研究团队还进一步证明了MimicGen系统所具有的实用性是优于额外收集人类演示的特性,这一点是可以让其扩大机器人的学习规模,从而获得更加强大且经济的使用方法,机器人智能体可以通过模仿学习的方式,在生成式数据集上进行有效的训练,从而在高精度和长期的任务中,获得更加出色的性能表现。

范麟熙还强调,这项研究数据将会全部开源,对于这项研究的具体逻辑,他做出了解释,首先人类远程操控机器人完成一些任务后,就会生成非常具有质量的演示数据,不过这个过程是比较缓慢的,其次在图形处理器加速模拟环境中,可以创建机器人和场景数字孪生,从而在模拟环境中移动对象,基本上就是使用程序生成的方式来扩充机器人的训练数据,最终把这些数据导出到场景进行训练。