2025 CES文章顶部

阿里发布AI推理芯片含光800,“平头哥”第一颗自研芯片来了 | 2019云栖大会

张建锋介绍道,在业界标准的ResNet-50测试中,含光800推理性能达到78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500IPS/W,是第二名的3.3倍。

钛媒体快讯 | 9月25日消息:就在去年的云栖大会上,阿里巴巴正式宣布成立芯片公司“平头哥半导体有限公司”,正式跨入造芯行列。一年后的今天,平头哥团队验收初步成果的日子到来了。

今天,达摩院院长张建锋在杭州云栖大会现场展示了含光800——阿里巴巴第一颗自研的芯片。

含光其名,源自上古三大神剑之一「含光剑」,该剑含而不露,光而不耀。

“在全球芯片领域,阿里巴巴是一个新人,玄铁和含光 800 是平头哥的万里长征第一步,我们还有很长的路要走。”张建锋补充到。

沿着拆分模块化角度来分析,含光 800 性能的突破得益于软硬件的协同创新。

从硬件层面来看,含光 800 采用创新低自研芯片架构,针对深度学习中使用的大量权重参数和张量数据,在支持稀疏压缩与量化处理的基础上,通过独特设计的数据访存与流水线处理技术,大大减低了 I/O 需求和数据的搬移,NPU 同时深度优化了卷积、矩阵乘、向量计算和各种激活函数,通过高有效的硬件资源调度和全并行的数据流处理,有效解决芯片性能瓶颈问题;

而在软件层面,含光 800 集成了达摩院先进算法,针对 CNN 及视觉类算法深度优化计算、存储密度,可实现大网络模型在一颗 NPU 上完成计算。此外,它还拥有自动化开发工具,支持 TensorFlow、Caffe 等主流开源框架,还可进行多模型动态部署。

针对“云上场景”特殊定制

定位为“云端AI芯片”,和过去定位在手机内置SOC里的NPU不同的是,含光800的应用场景主要集中于成规模的计算中心。

有场景,必然有重心的变化。这一次,含光800更加聚焦于降低运维成本所要考虑的能效和为了扩大硬件应用场景边界所要考虑的算力峰值。

据张建锋介绍,过去一年,平头哥团队始终在不断探索芯片与场景的融合道路上。以对算力需求较大的图像视频分析、搜索以及推荐等业务场景为例,围绕这一目标,平头哥针对场景深度定制了芯片的软硬件。“举个简单的例子,阿里先后自研了架构、软件编译器、框架、工具链等,玄铁 910、无剑 SoC 平台便是最好的印证。”

相较于其它,本次发布的绝对主角含光800,其从芯片设计、流片整过程都显得极为迅速。据了解,平头哥团队 7 个月就完成了含光800的前端设计,之后仅用了3个月就成功流片。

值得一提的是,眼下,含光800已经进入商用阶段。据悉,含光800已应用在阿里巴巴内部核心业务中。

根据云栖大会的现场演示,在城市大脑中实时处理杭州主城区交通视频,需要40颗传统GPU,延时为300ms,使用含光 800 仅需4颗,延时降至150ms。拍立淘商品库每天新增 10 亿商品图片,使用传统 GPU 算力识别需要 1 小时,使用含光800后可缩减至 5 分钟。

此外,在商业模式上,平头哥将采用“平头哥模式”,通过云服务为企业提供普惠算力,基于含光800的AI云服务也在今天正式上线,帮助受限于算力瓶颈的企业

张建锋现场表示,希望能通过端云一体芯片生态,为各行业提供普惠算力。“含光 800是针对阿里云上的场景特殊定制而成,如果面向市场,需要考虑更多有关细节优化方面的问题。”

“AIoT 场景需要新的计算架构,需要安全、在线和智能等新的特性,所有芯片面临升级,这必将在芯片行业将引起一波全新技术革命和产业浪潮。但 AIoT 市场有强应用驱动和场景碎片化等特点,芯片公司按照传统的方式设计芯片很难适应未来的需求,平头哥希望通过端云一体芯片生态为各行业提供普惠算力。”

未来,平头哥的产品形态还将会进一步完善,如推出云上 AI 训练芯片和端上AI推理芯片。除此之外,平头哥还在研发用于阿里云神龙服务器的SoC专用芯片,进而满足更多场景的算力需求。(本文首发钛媒体,作者/桑明强)

本文系作者 桑明强 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容
  • 厉害是厉害,但是图片中用了“最高”不怕违法广告吗

    回复 2019.09.26 · via pc
  • 不是专业的不好评价 不过至少是真在做事 比打着某些旗号忽悠投资忽悠股民要好的多

    回复 2019.11.25 · via iphone
  • 给出的信息较少,所以只是猜测:此类芯片目前比拼的可能类似于GPU中的流处理器,因此,芯片大小和其中的逻辑处理单元数量成正比,工艺越好单个、单片面积越大,就可以容纳更多处理单元,处理速度也就越快。

    回复 2019.09.25 · via android
  • 哦 好像是四倍

    回复 2019.09.25 · via android
  • 比华为AI芯片的性能还高? 高出十倍?

    回复 2019.09.25 · via android
6

扫描下载App