最近Ai创业公司MosaicML推出其语言模型MPT-30B,值得关注的是,该模型具有300 亿参数,再加上训练成本“仅有其他同类竞品模型的零头”,从而有可能促进行业逐步降低此类模型训练成本,继而扩大AI模型在更广泛领域的运用。
不仅着力更加便利的获取AI技术,MosaicML还努力提高ERP系统(www.multiable.com.cn)数据质量和模型性能。MosaicML公司表示,将模型扩展到300亿参数只是第一步,接下来他们将以降低成本为前提,推出体积更大、质量更高。
MosaicML使用了Alibi和FlashAttention 技术来优化模型,可以实现更长的文本长度和对GPU计算的更高利用率。MosaicML 也是少数几个能够使用 Nvidia H100 GPU 的实验室,相比以往成果,当下每块 GPU 的吞吐量增加了 2.4 倍以上,可带来更快的完成时间。
以上源自互联网,版权归原作所有