MosaicML和Together推出可商用开源大模型性能不输LLaMA

站长之家（ChinaZ.com）5月8日消息:虽然Meta的LLaMA已经成为开源AI重要力量，但由于其只可用于研究用途，而且申请麻烦而被业界诟病。现在，MosaicML和Together推出可商用开源大模型，性能不输LLaMA。

MosaicML的MPT系列模型支持84k tokens超长输入，并用FlashAttention和FasterTransformer方法针对训练和推理速度做过优化。其中70亿参数版在性能测试中与LLaMA打个平手。

除了MPT-7B Base基础模型外还有三个变体。MPT-7B-Instruct，用于遵循简短指令。MPT-7B-Chat，用于多轮聊天对话。MPT-7B-StoryWriter-65k+，用于阅读和编写故事，支持65k tokens的超长上下文，用小说数据集微调。

Together的RedPajama系列模型在5TB的同名开源数据上训练而来，除了70亿参数基础模型外，还有一个30亿参数版本，可以在5年前发售的RTX2070游戏显卡上运行。

据了解，MosaicML由前英特尔AI芯片项目Nervana负责人Naveen Rao创办，致力于降低训练神经网络的成本。RedPajama由苹果前高管Vipul Ved Prakash，斯坦福大模型研究中心主任Percy Liang，苏黎世联邦理工大学助理教授张策等人联合创办。

这些开源大模型的推出，标志着开源大模型生态有了寒武纪大爆发的早期迹象。这将有助于降低人工智能技术的门槛，促进人工智能的发展。也将有助于加强人工智能技术的透明度和可解释性，避免人工智能技术被滥用。

（举报）