【科股一线拆解】幻方DeepSeek仅用557.6万美元训练成本做出对标GPT-4o能力大模型,企业算力减法冲动下是否应该担心算力过剩?

DeepSeek AI正式发布其最新大型语言模型——DeepSeek-V3,完全开源,在多项基准测试中,V3性能直接与Claude 3.5 Sonnet、GPT-4o相匹敌,但总训练成本仅为557.6万美元。

12月26日,DeepSeek AI正式发布其最新大型语言模型——DeepSeek-V3,完全开源,并且附送53页pdf技术论文。

综合评估表明,DeepSeek-V3的性能已经位列开源第一,并且达到了与领先的闭源模型相当的性能,在多项基准测试中,V3性能直接与Claude 3.5 Sonnet、GPT-4o相匹敌。在数学代码方面,DeepSeek-V3完全跑赢GPT-4o。
DeepSeek-V3各种基准测试结果,数据来源:DeepSeek-V3技术报告

DeepSeek-V3各种基准测试结果,数据来源:DeepSeek-V3技术报告

DeepSeek-V3完整训练的总成本仅为2.788百万GPU小时,假设H800 GPU的租赁价格为每GPU小时2美元,总训练成本仅为557.6万美元(不包括与架构、算法或数据的前期研究和消融实验相关的成本)。
DeepSeek-V3训练成本,数据来源:DeepSeek-V3技术报告

DeepSeek-V3训练成本,数据来源:DeepSeek-V3技术报告

一方面各家大厂都在增加AI相关的资本开支,另一方面各家也都有节省算力、节约成本的冲动,本次DeepSeek-V3以低成本完成高质量模型能力训练后,市场也再次传出算力是否过剩的担忧。

业内人士判断表示,算力市场呈现“短期够用,长期短缺”。

全文解读如下:

单篇付费 ¥19.90 可解锁全文
单篇解锁
科股宝VIP由钛媒体App与北京商报联合推出,相关数据及信息已获得北京商报授权。 风险提示:本产品内容仅供参考,不构成投资建议。投资有风险,入市需谨慎。
科股一线拆解

快报

更多

2025-02-28 23:05

莲花控股:控股孙公司签订租赁合同,租赁200台高性能服务器

2025-02-28 23:05

国内期货夜盘收盘多数下跌,纯碱、铁矿石跌超1%

2025-02-28 22:57

特朗普据悉计划签署行政令,将首次指定英语为美国官方语言

2025-02-28 22:48

部分加密货币概念股盘中反弹,TeraWulf涨超6%

2025-02-28 22:47

白鸽在线向港交所提交上市申请

2025-02-28 22:46

现货黄金跌破2840美元/盎司,为2月6日以来首次

2025-02-28 22:45

蜜雪集团:港股IPO最终发售价定为每股202.50港元

2025-02-28 22:39

上海浦东启动低空交通运输体系建设,今天已试飞部分航线

2025-02-28 22:33

美股开盘:三大指数涨跌不一,中概股指跌3%,热门中概股多数下跌

2025-02-28 22:31

王受文会见美国维萨公司全球总裁詹嘉睿

2025-02-28 22:26

消息人士:英国能源大臣米利班德将访华

2025-02-28 22:22

东方集团:证监会的调查尚在进行中,公司尚未收到就上述立案调查事项的结论性意见或决定

2025-02-28 22:21

生态环境部:积极发展绿色金融,持续营造支持民营企业绿色发展、健康发展的良好氛围

2025-02-28 22:12

杭州挂牌第七批次8宗涉宅用地,起始总价67.1亿元

2025-02-28 22:09

比特币收复82000美元,日内跌幅收窄至4%

2025-02-28 22:03

农业农村部:春耕化肥省级到位进度超七成

2025-02-28 22:02

现货黄金日内跌幅达1%

2025-02-28 22:02

央行:1月份沪深股市日均交易量分别环比减少24.1%、25.8%

2025-02-28 22:00

央行:1月份银行间债券市场现券成交26.0万亿元

2025-02-28 21:59

央行:1月份债券市场共发行各类债券51027.5亿元

扫描下载App