云计算和大数据

re:Invent 2024:AI基础架构的全面革新与突破

当下,人工智能发展浪潮汹涌澎湃,正以前所未有的速度重塑着各行各业的格局,企业级用户身处这一变革洪流之中,其需求也随之持续演进。从对海量数据的高效处理,到支撑复杂模型的精准运算,再到确保全球范围内业务的无缝协同,企业对于云基础设施的要求已突破传统边界,迈向全新高度。

亚马逊云科技敏锐捕捉到这一动态趋势,re:Invent 2024大会上宣布了一系列基础设施产品与技术的全方位、深层次的升级与大胆创新。

一方面,计算领域迎来重磅升级,基于自研Amazon Trainium2芯片的Amazon EC2 Trn2实例及UltraServers服务器登场,满足AI训练等严苛任务需求,下一代Amazon Trainium3芯片也蓄势待发。网络层面,升级至第二代UltraCluster架构,有力支撑超大规模GPU协同,大幅缩减模型训练耗时。

另一方面,在数据中心板块,通过简化电力分配、创新设计与冷却系统,在提升计算能力的同时降低能耗、减少故障风险,还大量应用可持续能源,削减温室气体排放与混凝土碳排放量。

亚马逊云科技大中华区产品部总经理陈晓建表示:“亚马逊云科技是全球云计算的开创者和引领者,更是企业构建和应用生成式AI的首选,今年re:Invent全球大会的一系列重磅发布再次印证了这一点。我们不仅在云的核心服务层面持续创新,更在从芯片到模型,再到应用的每一个技术堆栈取得突破,让不同层级的创新相互赋能、协同进化。我相信,只有这样全栈联动的大规模创新才能真正满足当今客户的发展需求,加速前沿技术的价值释放,助力各行各业重塑未来。”

 

Amazon EC2 Trn2,打造更高性能的AI计算实例

Amazon EC2 Trn2是此次峰会上备受瞩目的焦点之一,其专为深度学习和生成式AI应用而设计。该实例基于Amazon Trainium2芯片,提供高达20.8 Petaflops的浮点算力,非常适合训练和部署大型语言模型。与基于GPU的EC2 P5e和P5en实例相比,Trn2实例的性价比提升了30-40%,同时提供3.2Tbps的EFAv3网络带宽,支持超大型基础模型的扩展分布式训练,为用户提供了更高效、成本效益更高的AI训练和推理解决方案。

此外,Trn2实例支持多种数据类型和先进的人工智能优化技术,包括FP32、TF32、BF16、FP16和可配置的FP8(cFP8),以及4倍稀疏性、随机舍入和专用集体引擎等。这些特性使得Trn2实例能够支持超过10万种模型和常用的机器学习框架及库,如PyTorch和JAX,进一步增强了其在AI领域的适用性和灵活性。

为了满足更大规模、更复杂模型的训练和推理需求,Amazon EC2还推出了Trn2 UltraServers。UltraServers通过高带宽、低延迟的NeuronLink互连技术,将四个Trn2实例连接在一起,形成一个巨型服务器,从而扩展到更高的峰值计算能力,达到83.2 petaflops。Amazon EC2 Trn2实例及其UltraServers版本为机器学习和深度学习领域提供了强大的计算支持,更加适合部署超大规模AI应用。

 

网络性能实现新突破

众所周知,人工智能计算对网络带宽的需求很高,主要体现在对超大规模组网的支持、超高带宽以应对大量数据传输、超低时延及抖动以保证通信效率、网络稳定性以确保训练和推理的连续性,以及网络自动化部署能力以适应快速变化的计算需求。因此,传统网络架构难以满足人工智能计算的复杂需求。

基于此,亚马逊云科技的10p10u网络应运而生,它基于第二代UltraCluster网络架构,具有大规模并行和密集互连的特点,通过提升光纤网络密度和开发可扩展意图驱动路由(SIDR)协议等技术创新,实现了低延迟、高弹性和高度可靠的网络连接。10p10u网络能够支持数千台服务器之间的高效通信,为AI训练和推理任务提供了强有力的支持。

10p10u网络实现了对超过20,000个GPU的协同工作支持,带宽高达10Pb/s,同时确保了低于10毫秒的延迟。该技术还允许服务器之间直接访问彼此的内存,进一步提高了AI训练和推理任务的效率,使得模型训练时间缩短至少15%。

除10p10u网络之外,此次亚马逊云科技基础设施还开始支持SIDR(Scalable, Intent Driven Routing)。

SIDR巧妙地融合了中央控制的全局优化能力和分布式执行的速度与弹性,通过集中规划生成“网络意图”并预先分发至各交换机,实现了既有的全局视野与快速的本地响应之间的完美平衡。当网络中出现链路故障时,交换机能够立即基于预设的意图自主决策,迅速调整路由,无需等待中央控制器的指令,从而大幅提升了网络恢复的速度和效率。

相较于传统的BGP、OSPF等路由协议,SIDR在亚马逊云科技的10p10u网络环境中展现出了卓越的性能。在模拟的故障场景下,SIDR能够在不到1秒内恢复网络连接,速度比传统方法快了整整10倍。这一显著的进步对于分布式AI训练等需要高可靠性和实时性的应用场景来说至关重要,它确保了即使在面对网络故障时,系统也能保持高效运行,为AI应用的快速发展提供了强力的网络支持。

 

构建超大规模模型,纵向扩展能力不可或缺

随着AI模型复杂度和数据量的不断攀升,单纯依赖集群规模的横向扩展已难以有效缩短训练时间,同时实时推理需求也对单实例架构提出了更高要求。为此,亚马逊云科技在单服务性能的纵向扩展上实现了多项创新突破。

在硬件层面,包括前文提到过的Amazon EC2 Trn2和Trn2 UltraServers超级服务器,底层Amazon Tranium芯片采用脉动阵列硬件架构,专为AI常见的矩阵或张量操作设计,通过减少内存访问、优化计算资源,实现了性能的大幅提升。

在软件和服务层面,亚马逊云科技通过Amazon Bedrock新推出的延迟优化选项,实现了大型模型推理性能的提升。无论是预填充还是标记生成工作负载,用户都能在各种领先的模型上获得最佳推理性能。此外,与当前基于GPU的EC2实例相比,Amazon EC2 Trn2实例的性价比有了大幅提升。同时,Amazon Neuron SDK的推出,为开发者提供了编译器、运行时库和工具,帮助他们优化模型以在Trainium上运行。该SDK与JAX、PyTorch等热门框架原生集成,使得用户在Amazon Trainium上使用现有代码和工作流时更加便捷。随着行业内广泛的开源协作以及Amazon Trainium2的推出,预计JAX在机器学习社区的应用将显著增加,这将成为整个机器学习生态系统的重要里程碑。

 

构建AI集群,为横向扩展铺平道路

横向扩展方面,正如前文所述,亚马逊云科技有最新的AI网络架构——10p10u,包含了多项创新设计:首先,通过将16根单独光纤电缆整合为一个连接器,在工厂完成复杂组装,从而加速了54%的安装到机架的时间;其次,提供定制的光纤插头和电缆,允许在机架抵达数据中心前进行全面测试与验证,消除了调试布线的时间,并附带保护密封,有效防止灰尘颗粒侵入光纤接口。如亚马逊云科技高级副总裁Peter Desantis所言:“在AI集群的世界里,时间就是金钱。”

据官方资料显示,10p10u已成为亚马逊云科技历史上扩展速度最快的网络,过去12个月内已安装超过300万条链路。

此外,SIDR全新网络路由协议等技术的加持,也让网络性能有了巨大提升,给横向扩展带来了诸多便利。

 

高可用性+超高密度,未来数据中心雏形已现

数据中心创新方面,此次亚马逊云科技重点聚焦于电气与机械设计的精简,将整体系统的可用性提升至99.9999%。这一优化将因电气问题受影响的机架数量减少89%,确保了基础设施的高可用性。

在冷却技术、机架布局及控制系统方面,亚马逊云科技同样实现了突破性创新。针对高密度计算芯片,引入了先进的液体冷却解决方案,如“液体到芯片”冷却系统,有效提升了AI服务器的散热效率。这一创新不仅支持了包括Amazon Trainium2、NVIDIA GB200 NVL72在内的尖端AI芯片与超级计算解决方案,还通过灵活结合空气与液体冷却,确保了无论是传统工作负载还是AI模型,都能以最优的成本效益运行。

同时,通过软件预测与生成式AI的辅助,亚马逊云科技优化了机架布局,实现了电力使用效率的最大化,预计两年内将机架功率密度提升6倍,并有望在未来进一步提升3倍。此外,自主研发的控制系统不仅实现了监控、报警及运营流程的标准化,还通过提升冗余度与简化复杂性,进一步巩固了基础设施的高可用性。

在追求能效与可持续性方面,亚马逊云科技同样取得了显著成果。新一代冷却系统预计可降低机械能耗高达46%,同时保持每兆瓦用水量不变,这得益于单侧冷却系统的引入、冷却设备数量的减少及液体冷却技术的融合。此外,通过采用低碳钢与低碳混凝土,以及优化结构设计,数据中心建筑的混凝土含碳量较行业平均水平减少了35%。更值得一提的是,备用发电机将采用可再生柴油作为燃料,这种环保燃料在生命周期内的温室气体排放量较传统化石柴油可减少90%,从而在提升能效的同时,也实现了对环境的友好与保护。

 

此次re:Invent 2024上,亚马逊云科技在基础架构方面有着众多突破性产品与技术,从Amazon EC2 Trn2、Trn2 UltraServers、10p10u网络、SIDR路由协议到全新的数据中心组件,这些技术的综合应用,全面优化了AI工作负载的处理能力,亚马逊云科技在支持人工智能发展方面,又迈出了重要的一步。

(1)

本文由 计算杂谈 作者:云中子 发表,转载请注明来源!

关键词:
LensNews

热评文章

发表评论