together.ai让AI模型训练快9倍，获NVIDIA参投1.025亿美元A轮融资-钛媒体官方网站

图片来源@视觉中国

文｜阿尔法公社

目前获得融资最多的两家大模型创业公司是OpenAI和Anthropic，而这两家公司最大的投资者分别是微软和亚马逊，他们投资的很大一部分不是资金，而是等值的云计算资源。这其实也就把这两家顶尖的闭源大模型公司“绑上了”科技巨头的“战车”。

在闭源大模型之外，还有另一个阵营是开源大模型，MetaAI的llama系列就是其中的代表。Meta还牵头组建AI联盟（AI Alliance），旨在推进人工智能领域的开源发展，对抗AI闭源巨头如OpenAI和英伟达。

使用开源大模型做应用的创业公司，大部分也希望保持自己的独立性，会使用多云策略，而一个能力强，成本低的AI云平台就非常需要。

together.ai就是一个为AI创业公司提供训练，推理服务云平台的公司，事实上，它也是一个拥抱开源生态的全栈AI公司，拥有自己的模型和数据集，在AI底层技术方面有很深的积累。

近日，together.ai获得Kleiner Perkins领投的1.025亿美元A轮融资，NVIDIA和Emergence Capital等投资者也参与本轮，其他的投资者还包括NEA、Prosperity7、Greycroft、137 Ventures和Lux Capital、Definition Capital、Long Journey Ventures、SCB10x、SV Angel等together.ai种子轮的投资者。

它的种子轮投资者除了机构外，还包括IronPort联合创始人Scott Banister、Cloudera联合创始人Jeff Hammerbacher、Oasis Labs创始人Dawn Song、OpenSea联合创始人Alex Atallah等。本轮融资是公司之前融资规模的五倍，累计融资额1.2亿美元。

together.ai的联合创始人兼CEO Vipul Ved Prakash表示：“如今，训练、微调或产品化开源生成AI模型极具挑战性。当前的解决方案要求企业在人工智能方面拥有重要专业知识，同时能够管理大规模基础设施。together.ai平台一站式解决了这两大挑战，提供了易于使用和获取的解决方案。我们的目标是帮助创建超越封闭模型的开放模型，并将开源作为整合人工智能的默认方式。”

苹果前高管和大学教授打造AI开源云平台

together.ai创建于2022年6月，联合创始人包括Vipul Ved Prakash、Ce Zhang、Chris Re和Percy Liang。

Prakash此前创立了社交媒体搜索平台Topsy，该平台于2013年被苹果收购，随后他成为苹果的高级总监。

Ce Zhang是苏黎世联邦理工学院计算机科学副教授，领导“去中心化”人工智能的研究。

Percy Liang是斯坦福大学计算机科学教授，指导该校的基础模型研究中心（CRFM）。

Chris Re共同创立了多家初创公司，包括SambaNova，该公司为人工智能构建硬件和集成系统。

Prakash表示：“去年Chris、Percy、Ce和我聚在一起时，我们都清楚地感觉到，AI基础模型代表了技术的一次代际转变，而且可能是自晶体管发明以来最重要的一次。

与此同时，过去几十年在人工智能创新中领先的开源社区在塑造即将到来的人工智能世界方面的能力有限。

我们看到这些模型趋向于在少数几家公司中心化（OpenAI、Anthropic、Google），这是由于训练所需的高端GPU集群的巨大开销。

这正是together.ai试图改变的，通过创建开放和去中心化的替代方案，来挑战现有的云系统（如AWS、Azure和Google Cloud），这对未来的商业和社会将是'至关重要的'。

随着企业界定义其生成式人工智能策略，他们正在寻找隐私、透明度、定制化和部署的便利性。目前的云服务，由于其封闭源模型和数据，无法满足他们的需求。”

华人学者携FlashAttention技术和Mamba模型加入团队任首席科学家

今年7月份，Tri Dao作为首席科学家加入公司团队，Tri Dao在斯坦福大学获得了计算机科学博士学位，导师是Christopher Ré和Stefano Ermon，他还即将成为普林斯顿大学的助理教授。他的研究曾获得2022年国际机器学习大会（ICML）杰出论文亚军奖。

Tri Dao还是FlashAttention v2的作者，这是一个领先且开源的大语言模型工具，可以加速大语言模型的训练和推理速度。

FlashAttention-2将大型语言模型（LLMs）的训练和微调速度提高了最多4倍，并在NVIDIA A100上实现了72%的模型FLOPs利用率。

FlashAttention-2在核心注意力操作上实现了2倍的加速，在端到端训练Transformer时实现了1.3倍的加速，鉴于大型语言模型的训练成本高达数千万美元，这些改进可能节省数百万美元，并使模型能够处理两倍长的上下文。

目前各个大语言模型公司，包括OpenAI、Anthropic、Meta和Mistral等都在使用FlashAttention。

最近，Tri Dao还参与了一项叫“Mamba”的研究，并提出了“选择性状态空间模型（selective state space model）”这个新架构，Mamba在语言建模方面可以媲美甚至击败Transformer，且随上下文长度的增加实现线性扩展，性能在实际数据中可提高到百万token长度序列，并实现5倍的推理吞吐量提升。

Mamba作为通用序列模型的骨干，在语言、音频和基因组学等多种模态中都达到了SOTA性能。在语言建模方面，无论是预训练还是下游评估，Mamba-3B模型都优于同等规模的Transformer模型，并能与两倍于其规模的Transformer模型相媲美。

在强大的技术团队支持下，together.ai在推理方面的屡有创新，除FlashAttention-2外，他们还利用了如Medusa和Flash-Decoding等技术，已经形成了Transformer模型最快的推理技术堆栈。通过Together推理API，这个堆栈允许快速访问超过100个开放模型进行快速推理。

关于这次融资，Kleiner Perkins合伙人Bucky Moore如此评论：“人工智能是改变我们开发软件方式的新基础设施层。为了最大化其影响，我们需要让开发者在任何地方都能使用它。我们预计，随着开源模型性能接近闭源模型，它们将得到广泛采用。together.ai使任何组织都能在其基础设施上构建快速、可靠的应用程序。”

Together AI的种子轮投资人Lux Capital的Brandon Reeves在接受采访时说：“通过提供跨计算和一流基础模型的开放生态系统，together.ai正在引领人工智能的‘Linux时刻’。together.ai团队致力于创建一个充满活力的开放生态系统，让从个人到企业的任何人都能参与其中。”

不仅有推理速度最快的开源AI云平台，还有自己的数据集和模型

together.ai不仅有AI算力云平台Together GPU Clusters，而且有专门优化的推理，训练和微调服务，还能用自己的数据集为客户定制AI模型，也推出了自己的示例性的开源AI模型。

Together GPU Clusters：训练速度比标准PyTorch快9倍

Together GPU Clusters（原名Together Compute）为AI模型训练专门优化的GPU算力集群。它拥有极快的模型训练速度和极高的成本效率。客户可以在平台上对模型进行训练和微调。

together.ai为这个集群配备了训练软件堆栈，这样用户可以专注于优化模型质量，而不是调整软件设置。

在速度方面，使用了FlashAttention-2的它比使用标准PyTorch快9倍，在成本方面，它比AWS成本降低4倍。它使用的都是NVIDIA的A100和H100高端GPU。

此外，它还具有极佳的扩展性，用户可以选择16个GPU到2048个GPU的算力规模，对应不同大小的AI模型。对于客户，它也提供专家级别的支持服务，目前它的续订率超过95%。公司已经在美国和欧洲建立了初步的数据中心网络，数据中心合作伙伴包括Crusoe Energy和Vultr。

Together Fine-Tuning：使用私有数据微调

together.ai还提供了模型微调服务，客户可以使用自己的私有数据以微调的方式定制开源模型。together.ai让用户在微调时对超参数拥有完全控制，它的平台还与Weights&Biases对接，让客户的模型微调更加可控和透明。

最后，当模型调优完成后，客户可以在平台上托管自己的模型，并进行推理。

Together Inference Engine：比TGI或vLLM快3倍

Together Inference Engine（推理引擎）基于NVIDIA的CUDA构建，并在NVIDIA Tensor Core GPU上运行。Together的团队使用了包括FlashAttention-2、Flash-Decoding和Medusa在内的一系列优化推理性能的技术（基本是开源的），优化了推理的性能。

Together推理引擎的速度优于其他推理的加速框架或服务在相同硬件上运行时，它的速度比TGI或vLLM（大模型推理加速框架）快达3倍，这意味着，基于大模型的生成式AI应用现在可以提供更快的用户体验，同时效率更高，成本更低。

例如，都使用相同的硬件，利用开源的LLM Perf基准测试工具对Llama-2-70B-Chat模型进行推理（500个输入Token，150个输出Token），测试结果如下图。

此外，在速度超快的同时，Together推理引擎也不会牺牲任何质量，下表显示了几项准确性基准测试的结果。Together推理引擎的结果与参考的Hugging Face实现保持一致。

Together Custom Models：使用自由数据加开源数据集训练

对于企业用户，together.ai还推出了Together Custom Models ，他们可以帮助企业从从零开始构建模型，这本质上是一种咨询服务。

他们拥有专家团队，帮助企业为特定工作负载设计和构建定制化的AI模型，这些模型基于together.ai的RedPajama-v2数据集（30T的Tokens）和企业自有的专有数据训练。

据悉，开源的RedPajama-V2数据集已被下载120万次。

together.ai会提供训练的基础设施，训练技术（FlashAttention-2等）和模型架构（基于Transformer的和不基于Transformer的）及训练配方选择，模型训练好后，还提供调优和对齐服务。

当模型训练出来后，其所有权完全归于客户企业，这对于数据安全很重要的行业大企业来说，具有吸引力；在OpenAI此前的DevDay上，它们也推出了基于GPT模型的模型定制服务，正是看中了这一点。

事实上together.ai在开源模型上已经有不少积累，除了RedPajama-v2数据集外，还包括GPT-JT（一个基于研究小组EleutherAI发布的开源文本生成模型GPT-J-6B的分支），以及OpenChatKit（类似于ChatGPT的聊天机器人）。

在客户方面，除了近日获得5500万美元融资的Pika Labs外，还有Nexusflow、Voyage AI和Cartesia等知名创业公司。

开源生态打破闭源模型的封闭和权利中心化

目前在AI大模型，尤其是基础模型的发展上，工业界（大厂，创业公司）已经明显领先于大学和学术研究机构，而闭源的大模型，也在性能上全面领先开源大模型。

造成这种差距的原因主要在于训练大模型需要的巨量成本（算力成本，人力成本，时间成本），这使得学校和研究机构只能用规模很小的模型（6B或7B）参数去做一些相对边缘的研究；或者去卷基础理论，试图颠覆现有的格局。

闭源大模型超越开源大模型是一个现实，但是这种趋势持续下去，会让AI的权利变得越来越中心化，形成几家巨头（微软、Google）+几家新巨头（OpenAI+Anthropic）的格局。这并不利于整个AI的创业生态向前发展。同时这也是llama2发布时造成那么大震撼的内在原因。

这也就是together.ai的意义所在。一方面，它们搭建算力平台，为企业提供便宜和快速的模型训练和推理服务，一方面也帮助企业打造自己的定制模型，给了企业第三方的选择空间。

在开源方面，它们也提供了自己的数据集，自己的训练和推理技术栈，以及示例性的开源模型，这些努力都是在打破“垄断”。

而together.ai之所以具有这个能力，也和它自身的技术实力分不开，连续创业者和大学教授的组合让他们既清楚企业的痛点在哪儿，又有能力从底层去解决和优化。

其实这也是一个很好的示例，大学教授拥抱创业，利用社会资本做研究，让自己的研究成果影响更多的人。我们也期待更多教授/学者+产业人/连续创业者的创业团队出现。