大数据 > Google T5培训前模型每次运行的费用超过130万美元? 计算能力和

Google T5培训前模型每次运行的费用超过130万美元? 计算能力和

2020-05-11 13:00阅读(68)

从arxiv 中选出 作者:或sharir,Barak峰,Yoav Shoham 机器心脏编译器 参与:杜威,萧州 近年来,在自然语言处理领域, 各种各样的各种规模的语言模型层出不穷

1
从arxiv

中选出

作者:或sharir,Barak峰,Yoav Shoham

机器心脏编译器

参与:杜威,萧州

近年来,在自然语言处理领域, 各种各样的各种规模的语言模型层出不穷,这为该领域的发展提供了足够的动力。 但是,除了喜悦之外,还出现了培训成本过高的问题。 例如,Bert的培训费用为$ 12000,gpt-2的培训费用为$ 43000,xlnet的培训费用为$ 61000,依此类推。 这使得个人研究人员和初创企业难以负担。 因此,了解模型训练的成本非常重要。 本文将为您提供参考指南。 近年来,在自然语言处理领域,各种规模的各种语言模型层出不穷,这为该领域的发展提供了足够的动力。 但是,除了喜悦之外,还出现了培训成本过高的问题。 例如,Bert的培训费用为$ 12000,gpt-2的培训费用为$ 43000,xlnet的培训费用为$ 61000,依此类推。 这使得个人研究人员和初创企业难以负担。 因此,了解模型训练的成本非常重要。 本文将为您提供参考指南。 以色列人工智能研究公司ai21实验室的研究人员在这项研究中以

评估了训练大型语言模型的成本以及它们过去如何使用它们。 如果您是为自己的模型训练实验进行预算的工程师和科学家,或者您是想了解现代自然语言处理(NLP)成本的非从业人员,则值得阅读。

论文链接:https://arxiv.org/pdf/2004.08900.pdf

硬件改进可以减少拖鞋的成本,但总成本却一直在上升。

首先,我们需要指出,基本神经网络(NN)操作(即浮点操作(触发器))的成本一直在下降。 例如,谷歌对resnet-50培训成本比较的研究表明,resnet-50培训成本降低了38%。 这得益于硬件(从GPU到TPU)和框架级别的优化,充分利用了并行性的优势。

发布全文

谷歌对resnet-50培训成本的研究表明,八个V100 GPU需要216分钟来训练90个纪元,成本超过75美元; 一个完整的云TPU V2 Pod训练90个纪元仅需7.9分钟,费用为50美元。 因此,使用TPU进行培训的成本降低了38%,并且培训速度快了27倍。

resnet-50培训费用的减少并不是一个孤立的事件。 随着硬件的创新和训练方法的改进,大规模模型的训练成本也在降低。 然而,总成本一直在增加,甚至需要数百万美元。 因此,研究人员随后解释了为什么会发生这种情况,以及哪些因素在NLP模型的训练成本中起着决定性的作用。 如果有人问训练一个模型要花多少钱? 正确答案有两种:取决于或很多。 下面从更定量的角度显示了在Wikipedia和Book Corpus(15GB)上训练不同大小的Bert模型的近似成本。 对于具有不同参数的Bert模型的

,研究人员给出了两种培训费用:单次培训费用; 超级参数优化和每种设置下的多次操作所包含的典型满负荷培训成本(此处显示了两种培训配置的中等成本上限以及每种配置的10次操作的成本):

25000-50000美元(11亿个参数 模型); 10000-200000美元(2.4亿参数模型); 80000-160万美元(15亿参数模型)。

这些数字可以使我们更加了解训练大型模型的成本,并可以基于这些数字对其他训练成本做出合理的猜测。 例如,根据谷歌发布的信息,研究人员估计,在训练110亿参数T5(谷歌于2019年推出的预训练模型)时,单次运行的成本远远超过130万美元。 因此,如果T5大型模型和数百个小型模型运行2-3次,整个项目的成本可能达到1000万美元。 许多公司,包括许多初创公司,都负担不起这些巨额费用。 有人认为成本不是大问题。 让像Google这样的大公司预先培训并发布大型语言模型,其他公司则可以微调特定任务。 但是其他人并不乐观。 如果花费

钱:大小决定一切

没有固定的公式来告诉我们给定的NLP设置需要多少个触发器才能达到目标性能。 但是,某些变量会影响数量,并且这些变量在过去几年中急剧增加,远远超出了以前的“大规模”以视觉为中心的机器学习模型。

下图显示了一些相关变量,分为三类:(a)数据集大小; (b)型号(用参数数量表示); (c)培训数量(以培训前过程中处理的令牌总数表示)。 该图适用于所有模型,该图适用于基于变压器的模型。 研究人员认为,在自然语言处理领域,数据集,模型和训练量越来越大。

这些特定的增加方法对触发器数量的影响非常微妙,这取决于特定的训练计划和体系结构。 例如,与具有类似模型,数据大小和训练步骤的gpt-2模型相比,训练Bert样式模型所需的触发器更少。 其他培训计划可能会引入其他影响成本的因素,例如Electra的对手培训计划在培训过程中使用了附加的生成器模型。 这些增加了每个步骤的相对成本,但是需要较少的步骤,因此降低了总成本。 尽管有这些微妙之处,但显然所有这些增长数字都与确定底线的翻牌次数有关。 除了

之外,还有一些隐藏成本经常被忽略。 每个模型必须经过多次训练,以最大程度地减少随机影响(每次运行基本上是随机的),并且还必须在组合的大规模超参数搜索空间中进行搜索。 这意味着单次训练的成本可能会高出很多倍(在优化配置中,大多数实验将在训练大型模型之前在较小的模型上执行,这可以大大降低成本)。

的未来之所以

社区采用大规模强大的统计方法的原因是,它比其他任何方法都有效且可以实现更好的性能。 而且,由于NLP具有可观的经济价值,追求良好性能的成本不会太高。 我们没有看到在大型语料库上使用大规模神经网络模型的终结,并且可以想象,随着社区开发更复杂的体系结构来执行更大的任务,成本将进一步增加。 当您从句子到整个文档以及其他内容时,您可以想到更多的维度,更长的上下文和每个标记的更高级别。 虽然增加更多的外部知识资源可能会减少对网络的独特依赖,但它也可能有助于扩大网络规模,以便将外部知识映射到嵌入式空间中。 实际上,已经有关于1000亿参数模型的讨论。 也就是说,我们看到了一些因素可能有助于抑制这种爆发并防止事情失控。 以下是研究人员对当前NLP领域的看法:

随着竞争的加剧,原始计算的价格进一步降低。 根据博客文章“来自Tso逻辑的最新研究表明,AWS的成本每年都在降低”,自2006年推出以来,亚马逊互联网服务(AWS)的价格下降了65倍以上,其中从2014年下降了73% 2017年。预计面向AI的计算产品将有相同的趋势。 更有效的神经网络架构部分受经济因素驱动,部分受环境因素驱动。 例如,重整器结构使用试探法将变压器注意机制的复杂度从二次降低为o(n log n)。 同样,Albert通过分解嵌入式矩阵并共享分层权重,以较少的参数获得更高的精度。 我希望看到更多这些; 结束SOTA游戏。 社区中越来越多的人意识到,在许多挑战数据集的排名中,很多计算工作被置于排名的首位,这通常涉及很多次(有时甚至数千次)操作,而所有这些操作都是 只是为了让一个实例幸运地获得第一名。 当然,这种过度拟合的价值很小,我们希望看到的更少。 充分利用有用的数据。 已写或将要写的文本过多(有用)。 如果有机会,我们将在博尔赫斯市的通用图书馆进行培训; 有一种流派认为统计ml和神经网络一样有用和必要,但是目前还不够,它将使人们走得更远。 相反,如果我们遵循这种思路,就需要将结构化知识与象征性方法相结合,而象征性方法不仅取决于肌肉,还取决于大脑。 研究人员已经发现了这一点。

这是为机器的心脏编译的。 请联系官方帐户进行授权。