他们称之为世界上第一个大脑层面的解决方案
大多数芯片公司可以通过更小的工艺技术在同一区域容纳更多的晶体管,以实现更强的性能和更低的能耗可是,有这样一家追求大的创业企业:在工艺技术更小的情况下,让面积更大,功率更大,让单个AI芯片实现前所未有的性能
北京时间8月25日,人工智能芯片设计的明星初创公司大脑系统推出AI算力解决方案——CS—2,构建了一块面积几乎和iPad一样大的芯片他们称之为世界上第一个大脑层面的解决方案
之所以称之为脑级,是因为大脑将单个CS—2人工智能计算机支持的神经网络参数规模扩大到了现有最大模型的100倍,——个达到了120万亿个参数,而人脑有100万亿个突触CS—2配备了世界上最大的芯片WSE—2
大脑WSE—2和目前最大的图形处理器
除了增加单台人工智能计算机的参数容量外,大脑系统公司还宣布可以构建由192台CS—2人工智能计算机组成的集群,即构建1.63亿核的计算集群。
在过去的几年里,已经向我们表明,对于NLP模型,洞察力与参数成正比参数越多,结果越好,他们的合作伙伴,阿贡国家实验室副主任RickStevens说,大脑的发明将使参数容量增加100倍,这可能有改变行业的潜力我们将首次能够探索大脑大小的模型,并为研究和洞察开辟一条广阔的新途径
阿贡国家实验室成立于1946年,是美国能源部下属的17个国家实验室之一,由芝加哥大学运营根据现有数据,阿贡国家实验室负责研究美国第一台E级新一代超级计算机Aurora
对计算能力和单个AI芯片性能的无止境追求,归根结底在于人工智能时代计算量的指数级增长。
OpenAI拟合实际数据后的报告显示,AI计算量每年增长10倍从AlexNet到AlphaGo Zero,最先进的AI模型的计算需求增长了30万倍伴随着最近几年来超大规模AI模型参数超过1万亿,小型AI计算集群很难支持单个模型的高速训练大脑系统发布的人工智能解决方案在模型大小,计算集群能力和大规模编程的简单性方面都跃上了一个新的台阶
AI电脑CS—2功能强大,拥有专为深度学习设计的超级大脑—— WSE—2芯片WSE—2采用7纳米工艺,面积46225平方毫米,包含2.6万亿个晶体管,集中在85万个处理单元
WSE—2的面积是目前NVIDIA最大的GPU特斯拉A100的近56倍它的内核是A100的近123倍,内存容量是A100的1000倍,内存带宽约为A100的1.3万倍,结构带宽约为A100的4.6万倍无论是内核数量还是片上内存容量都远高于目前为止性能最强的GPU,通信速度更快,计算能力更好
如今,自动驾驶,视频推荐等人工智能的重要应用都落后于深度学习技术,现代深度学习模型大多基于人工神经网络在训练大型AI模型时,经常会用到成千上万的机器集群协同工作,比如谷歌运营的数据中心这个集群就像一个大脑,分散在多个房间,连接在一起电子可以以光速运动,但即便如此,跨芯片通信速度很慢,消耗大量能量伴随着最近几年来超大规模AI模型参数超过1万亿,目前的集群难以支持单个模型的高速训练
大脑系统公司的联合创始人安德鲁费尔德曼说,更大的网络,如GPT—3,改变了自然语言处理的模式,使以前无法想象的事情成为可能在业内,1万亿参数的模型正在陆续出现
2016年,Andrew Feldman,Gary Lauterbach,Michael James,SeanLie和Jean—Philippe Fricker在硅谷创立了大脑系统公司,制造适合深度学习的人工智能芯片,Andrew Feldman担任首席执行官在大脑公司成立之前,这五位创始人都在微服务器制造商SeaMicro工作,该公司于2012年被半导体公司AMD收购
当行业内的其他公司在制造一个晶圆来生产尽可能多的芯片时,大脑却朝着另一个方向发展:将整个晶圆做成一个大芯片,这在芯片设计领域掀起了一场革命。
除了全球最大的WSE—2芯片的支持之外,这款AI解决方案的背后,最近还有四大创新被大脑所披露:全新的软件执行架构Weight Streaming,记忆扩展技术大脑记忆,cerebras SwaLx,一种高性能互连结构技术,可选稀疏性,一种动态稀疏收集技术。
Weight Streaming技术首次实现了片外存储模型参数的能力,并提供了与片内相同的训练和推理性能这种新的执行模型分解了计算和参数存储,并消除了延迟和内存带宽问题
多192个CS—2,而无需更改软件。
CambrianAI创始人兼首席分析师Karl Freund表示:使用大型集群解决AI问题的最大挑战之一是为特定神经网络设置,配置和优化它们所需的复杂性和时间而Weight Streaming允许在CS—2集群令人难以置信的计算资源之间进行更直接的工作分配,Weight Streaming消除了我们今天在构建和有效使用巨大集群方面必须面对的所有复杂性——推动行业向前发展,我认为这将是一个转型之旅
MemoryX是一种内存扩展技术,包含高达2.4PB的DRAM和闪存,以保存海量模型的权重,以及处理权重更新的内部计算能力SwarmX是一种高性能,人工智能优化的通信结构,可将Cerebras Swarm片上结构扩展到片外,使Cerebras能够在多达192个CS—2上连接多达1.63亿个AI优化内核,协同工作以训练单个神经网络Selectable Sparsity使用户能够在他们的模型中选择权重稀疏程度,并直接减少FLOPs和解决时间
AI计算机CS—2
CS—2 的内部视图:从左到右分别是门,风扇,泵,电源,主机架,热交换器,发动机缸体,后格栅
CS—2 的前视图: 下半部分是风扇,右上方是泵用来输送水,左上方的电源和 I/O 提供电力和数据。
侧视图:水运动组件,空气运动基础设施和风扇和热交换器
CS—2的发动机缸体
启用WSE所需的创新之所以成为可能,是因为完整系统解决方案提供了灵活性CS—2 的每个组件——从电源和数据传输到冷却再到软件,都经过协同设计和优化,以充分利用这个庞大的深度学习芯片
WSE—2 编译过程的概述
可视化工具使研究人员可以回视编译器CGC编译过程的每个步骤
CS—2 集群可以在模型并行和数据并行模式下运行
声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。