12月26日,DeepSeek AI正式发布其最新大型语言模型——DeepSeek-V3,完全开源,并且附送53页pdf技术论文。
综合评估表明,DeepSeek-V3的性能已经位列开源第一,并且达到了与领先的闭源模型相当的性能,在多项基准测试中,V3性能直接与Claude 3.5 Sonnet、GPT-4o相匹敌。在数学代码方面,DeepSeek-V3完全跑赢GPT-4o。
DeepSeek-V3完整训练的总成本仅为2.788百万GPU小时,假设H800 GPU的租赁价格为每GPU小时2美元,总训练成本仅为557.6万美元(不包括与架构、算法或数据的前期研究和消融实验相关的成本)。
一方面各家大厂都在增加AI相关的资本开支,另一方面各家也都有节省算力、节约成本的冲动,本次DeepSeek-V3以低成本完成高质量模型能力训练后,市场也再次传出算力是否过剩的担忧。
业内人士判断表示,算力市场呈现“短期够用,长期短缺”。
全文解读如下: