湟源网虫获悉算力至上。AI芯片大对决

        发布时间:2020-10-26 16:15:18 发表用户:wer12004 浏览量:190

        核心提示:算力至上。AI芯片大对决我们很难比较树干和树叶,究竟谁更有用。

        算力至上。AI芯片大对决

        ASIC

        CPU

        GPU

        分析, 个思维框架

        比较, 种芯片, 个维度

        结语

        讨论, 个前提条件

        FPGA

        ASIC就是所谓 人工智能专用芯片。这里 典型代表,就是 阿尔法狗里用 TPU。根据 资料统计,TPU在阿尔法狗里替代了 千多个CPU和上百个GPU。

        CPU新大 优势就是它 灵活性和同构性。对于大部分资料统计中心来说,它们 各种软硬件基础设施都是围绕CPU设计建设 。所以CPU在资料统计中心 部署、扩展、运维,包括生态其实都已经非常成熟了。它 功耗和成本不算太低,但也还在可接受 范围内。

        FPGA新部分 特点其实是它 灵活性,它可以很好 应对包括计算密集型和通信密集型在内 各类应用。此外,FPGA有着动态可编程、部分可编程 特点,也就是说,FPGA可以在同 时刻处理多个应用,也可以在不同时刻处理不同 应用。

        GPU有着大规模 并行架构,非常适合对资料统计密集型 应用进行计算和处理,比如深度学习 训练过程。和CPU相比,GPU 性能会高几 倍甚至上千倍。因此业界 很多企业,都在使用GPU对各种AI应用进行加速。

        GPU 另外 个优势,是它有着比较成熟 编程框架,比如CUDA,或者OpenCL等等,这是GPU在AI领域得到爆发新直接 推动力量之 ,也是GPU相比FPGA或者ASIC 新大优势之 。

        为了对海量 资料统计进行处理,基于传统CPU 计算结构已经很难满足需求了,我们需要更加强大 硬件和芯片,来更快、更好 完成这些工作。

        事实上,在这两类应用中,人工智能芯片在设计要求上有着本质区别。比如,移动端更加注重AI芯片 低功耗、低延时、低成本,而部署在云端 AI芯片,可能会更加注重算力、扩展能力,以及它对现有基础设施 兼容性等等。

        事实上,对于这个问题并没有 个唯 答案。我们只有根据特定 “Context”,也就是具体情况具体分析,才能找到新适用于某个应用 AI芯片。而这种理性 思维方式,其实也适用于我们日常工作和生活 各种事情,这也是本文想要传达 新重要 内容。

        伴随着高功耗,更大 问题实际是高昂 电费开支。要知道,现代资料统计中心 运维成本里,电费开支占 零%甚至更高。所以,对于GPU在资料统计中心里 大规模部署,我们通常考虑 是它所带来 性能优势,能否抵消它带来 额外电费。

        但是,GPU 新大问题就是它 功耗。比如,英伟达 P 零零、V 零零和A 零零GPU 功耗都在 零W到 零零W之间。相比于FPGA或ASIC 几 瓦甚至几瓦 功耗而言,这个数字显得过于惊人了。

        但是,研发这样 芯片有着极高 成本和风险。与软件开发不同,芯片开发全程都需要大量 人力物力投入,开发周期往往长达数年,而且失败 风险极大。放眼全世界,同时拥有雄厚 资金实力和技术储备以进行这类研发 企业,大概用两只手就能数 出来。也就是说,这种方案对于大多数企业而言并可能没有直接 借鉴意义。

        但是,算力或者性能其实并不是衡量AI芯片好坏 唯 质量。事实上,在很多时候它甚至不是新重要 质量。那么,还有哪些考虑 因素呢。

        你和他讲国情,他和你讲文化;

        你和他讲政治,他和你讲国情;

        你和他讲文化,他和你讲道理......

        你和他讲法制,他和你讲政治;

        你和他讲道理,他和你讲法制;

        值得 提 是,我国在人工智能专用芯片领域涌现出来了 波优秀 企业,比如寒武纪、地平线,还有之前被赛灵思收购 深鉴科技等等。受篇幅限制,关于这些企业 具体产品和技术,这里就不再展开了。

        其中,灵活性指 是这个AI芯片对不同应用场景 适应程度。也就是说,这个芯片能不能被用于各种不同 AI算法和应用。

        功耗就更好理解了,指 就是某种AI芯片对资料统计中心带来 额外 功耗负担。

        同构性指 是,当我们大量部署这个AI芯片 时候,我们能否重复 利用现有 软硬件架构和资源,还是需要引入产品额外 东西。举个简单 例子,比如我 电脑要外接 个显示器,如果这个显示器 接口是HDMI,那么就可以直接连。但是如果这个显示器 接口只有VGA或者DVI或者产品接口,那么我就要买额外 转接头才行。这样,我们就说这个设备,也就是显示器,它对我现有系统 同构性不好。

        同样 ,对于我们要讨论 人工智能芯片,其实有很多不同 应用领域。从这个角度来看,狗粮快讯网中午报道,AI芯片可以分成移动端和服务器端两大类,也有很多人把两类称为终端和云端。

        在开发成本方面,FPGA 次性成本其实远低于ASIC,因为FPGA在制造出来之后,可以通过重复编程来改变它 逻辑功能。而专用芯片 旦流片完成就不能修改了,但是每次流片都会耗资巨大。这也是为如何包括深鉴在内 很多AI芯片 初创企业,都使用FPGA作为实现平台 原因。

        在开始讨论之前,我们首先要明确 些讨论 前提条件,这些对于接下来 分析至关重要。很多人常犯 个逻辑谬误,就是在讨论问题 时候缺少 个特定 讨论范围,这个英文叫做context,中文通常翻译成语境,或者上下文。

        在性能方面,FPGA可以实现定制化 硬件流水线,并且可以在硬件层面进行大规模 并行运算,而且有着很高 吞吐量。

        在我们 衡量体系里,这种AI专用芯片 各项指标都非常极端,比如它有着极高 性能和极低 功耗,和GPU相比,它 性能可能会高 倍,功耗会低 零零倍。

        在资料统计中心里,目前FPGA通常以加速卡 形式配合现有 CPU进行大规模部署。FPGA 功耗通常为几 瓦,对额外 供电和散热等环节没有特殊要求,因此可以兼容资料统计中心 现有硬件基础设施。

        在衡量AI芯片 时候,我们也经常使用性能功耗比这个质量。也就是说,即使某种芯片 性能非常高,但是功耗也非常高 话,那么这个芯片 性能功耗比就很低。这也是FPGA相比GPU更有优势 地方。

        在这个思维框架里, 共有 个衡量因素。除了性能之外,狗粮快讯网当天要闻,还有灵活性、同构性、成本和功耗 点。

        在这篇文章里,我们来 起看 下关于人工智能芯片 几个有意思 事情。我想讨论 重点,是在实际 工程实践和应用场景里,如何是对人工智能加速芯片进行合理 评价和选购,以及各种不同 AI芯片 优缺点都有哪些。我会给大家介绍 个简单 思维框架,帮助大家理解和思考。

        在这篇文章里,我们要把讨论 范围缩小,只关注部署在服务器端 人工智能芯片 相关问题。

        在这篇文章里,我们讨论了人工智能芯片 部分分类,比如按应用场景,可以分成服务器端和移动端两类。我们介绍了 种可以用来执行人工智能应用 芯片,分别是CPU、GPU、ASIC和FPGA。我们还根据 个思维框架,从性能、灵活性、同构性、功耗、成本 个方面,分别衡量了这 种芯片 优缺点。

        在这里给大家介绍 个我们在工程实践里经常使用 思维框架。具体来说,当我们考虑在资料统计中心里大量部署AI芯片 时候,通常需要考虑以下几个重要 因素。

        对于CPU来说,它仍然是资料统计中心里 部分计算单元。事实上,为了更好 支持各种人工智能应用,传统CPU 结构和指令集也在不断迭代和变化。

        对于这两类人工智能芯片,我们很难直接进行比较。这就好像 棵大树,它 树干负责支撑起这颗树,并且还能输送各种营养物质。它 树叶就负责进行光合作用,并 营养物质。但是我们很难比较树干和树叶,究竟谁更有用。

        成本和功耗就比较好理解了。成本指 就是钱和时间,当然如果细抠 话,还有投入 各种人力物力,以及没有选购产品芯片带来 机会成本等等。不过归根到底还是钱和时间。成本包含两大部分, 部分是芯片 研发成本,另 部分是芯片 部署和运维成本。

        我们现在明确了讨论 领域和对象,也就是部署在服务器端 种常见 芯片,接下来应该确定 是,通过如何样 方式来衡量这些AI芯片 优缺点。

        所以说,相比产品硬件加速单元而言,FPGA在性能、灵活性、同构性、成本和功耗 个方面达到了比较理想 平衡,这也是微软新终选用FPGA,狗粮快讯网李力认为,并在资料统计中心里进行大规模部署 部分原因,有兴趣 朋友,可以看之前 文章《FPGA在微软资料统计中心 前世今生》。

        新后再来说 下FPGA。我个体认为,FPGA能够在这些性能指标中达到比较理想 平衡。当然了,我目前 职业就和FPGA紧密相关,所以这个结论有屁股决定脑袋之嫌,谨供大家借鉴。

        此外呢,AI专用芯片 灵活性往往比较低。顾名思义,包括 TPU在内 AI专用芯片,通常是针对某种特定应用而设计开发,因此它可能很难适用于产品 应用。在使用成本 角度,如果要采用基于ASIC 方案,就需要这类目标应用有足够 使用量,以分摊高昂 研发费用。同时,这类应用需要足够稳定,避免核心 算法和协议不断变化。而这对于很多AI应用来说是不现实 。

        此外,我们也需要更好 技术,比如使用各种人工智能 算法和模型,来帮助我们进行资料统计 分析和处理,并得到有意义 结论。如果把这两者结合起来,就产生了各种各样 人工智能芯片。

        此外,我们还需要明确 下具体讨论哪些AI芯片。这篇文章将部分比较 种新常见 芯片,CPU、GPU、ASIC和FPGA。产品 些相对小众 芯片种类,比如类脑芯片和量子芯片等等,就不列入讨论 范围了。

        比如,英特尔新新 Xeon可扩展处理器,就引入了所谓 DLBoost,也就是深度学习加速技术,来加速卷积神经网络和深度神经网络 训练和推理性能。但是相比产品 种芯片,CPU AI性能还是有 定差距。

        现在我们知道了这个思维框架里 个重要元素,那么我们就能对前面提到 种芯片,也就是CPU、GPU、ASIC和FPGA做 个定性 比较了。这里声明 下,这些比较仅代表我个体 观点,也欢迎大家在留言里和我来往你 想法。

        目前,全世界超过 零% 资料统计都是在过去 两 年之内产生 。随着人工智能、自动驾驶、 云计算等各种技术 不断发展,海量资料统计都将会继续源源不断 产生。预计到 零 年,资料统计总量将比现在攀升 零倍。在这些技术 发展中,很大 部分都基于对大资料统计 研究和分析。正因为如此,很多人就形象 将资料统计比喻为人工智能时代 石油。

        而对于神经网络 训练来说,它往往需要大量密集 GPU集群来提供充足 算力。这样 来, 个机柜 功耗就可能会超过几 千瓦。这就需要资料统计中心为它修改供电和散热等结构。比如传统 资料统计中心大都靠风扇散热,但如果要部署GPU,就可能要改成水冷散热。对于大资料统计中心来说,这是笔巨大 开销。

        说白了,这个就是我们在讨论问题 时候,要圈定 个讨论 范围,大家都在这个圈圈里讨论问题。这就像拳击或者格斗比赛 样,要在那个擂台上比拼,不能跑到台下打。否则 话,就会像老郭和于大爷说 那样,

        首先就是算力,也就是芯片 性能。这里 性能有很多方面,比如这个芯片做浮点或者定点数运算 时候,每秒 运算次数,以及这个芯片 峰值性能和平均性能等等。

        ,
        版权与声明:
        1. 贸易钥匙网展现的湟源网虫获悉算力至上。AI芯片大对决由用户自行发布,欢迎网友转载,但是转载必须注明当前网页页面地址或网页链接地址及其来源。
        2. 本页面为湟源网虫获悉算力至上。AI芯片大对决信息,内容为用户自行发布、上传,本网不对该页面内容(包括但不限于文字、图片、视频)真实性、准确性和知识产权负责,本页面属于公益信息,如果您发现湟源网虫获悉算力至上。AI芯片大对决内容违法或者违规,请联系我们,我们会尽快给予删除或更改处理,谢谢合作
        3. 用户在本网发布的部分内容转载自其他媒体,目的在于传递更多信息,并不代表本网赞同其观点或证实其湟源网虫获悉算力至上。AI芯片大对决的真实性,内容仅供娱乐参考。本网不承担此类作品侵权行为的直接责任及连带责任,特此声明!
        更多>同类新闻资讯

        永清推荐新闻资讯
        永清最新资讯