提速人工智能，AWS帮客户”扶上马并再送一程”

云中子云计算和大数据, 计算 2020年12月28日

1.19W 0 0

亚马逊re:Invent大会还在继续，今年可是持续三周呐，并且是全球网上直播，能让技术控们过足瘾。

本周，亚马逊云服务（AWS）开始将重点转向了人工智能和机器学习，并宣布了一系列新服务和新功能，让机器学习更易用和拓展到更加广阔的使用者、应用场景和行业。

AWS全球机器学习副总裁Swami Sivasubramanian在主题演讲中表示，"机器学习是我们这一代人能遇到最具颠覆性的技术之一，目前已经有超过10万客户在使用AWS的机器学习服务，很多客户已经将机器学习用于其核心业务。"

AWS会帮客户"扶上马并再送一程"

亚马逊利用机器学习技术已经有20多年时间。AWS从2016年开始发力，从几个AI机器学习服务到Amazon SageMaker，目前，全球已经有超过10万客户已经在AWS上使用机器学习服务，横跨很多行业，包括媒体、汽车、金融、制造等等，所有这些客户都在使用机器学习。

由此，我们也看到一个趋势，机器学习就像工具一样被客户所采用，部署到各个行业，并且有非常多的应用场景。

AWS大中华区云服务产品管理总经理顾凡在媒体沟通会上表示：客户之所以选择AWS的机器学习服务，主要原因有以下几点。

第1，整个服务的宽度和深度。更有针对性的产品与服务，能够帮助用户在自己的应用场景下快速找到合适的工具。

第2， AWS在云计算和机器学习领域里始终抱着一个开放的心态，AWS的很多工具都是非常开放的，可以与客户的整个环境实现完美集成。

第三，AWS在服务客户的时候会遵循两个原则，一是授人以鱼不如授人以渔，AWS更多希望帮助客户把能力建立起来，赋予他工具并且教会他如何使用。第二是在产品原型实现、客户需要帮忙的时候，AWS会帮客户"扶上马并再送一程"，真正帮他快速解决业务难题。

夯实基础，机器学习框架与硬件同发展

机器学习的坚实基础里面含两部分，一部分是机器学习的框架，一部分是基础设施，首先看一下机器学习的框架。

在云端，客户经常使用三个左右框架，无论是Tensorflow、MXNet还是PyTorch，最关键的就是选择，AWS的思路就是要把选择自由权给到客户，让客户自己选。大部分客户都会同时用到三种机器学习的框架，所以AWS会有针对不同框架的调优团队，保证在三个框架下都把性能调到最优。

除框架之外，最关键的基础就是算力。在实际应用过程中，每位用户机器学习的负载都不一样，这就会影响到计算力的需求和成本，因此就需要更精细的颗粒度。

在基础设施方面，AWS依然会给到大家很宽泛的选择。一方面是可以看到从M5到R6g这些通用计算，以及更高阶像P4d这样配备Nvidia100 GPU的高端训练机型。在推理和预测方面，Inf1实例用的就是AWS自研芯片AWS Inferentia，能够做到极致性价比。

简单地说，在机器学习基础设施方面，AWS提供了多种选择。CPU、GPU都横跨多个厂商，还有自研的产品，计算一直在重塑和创新，帮用户做的更精准，针对定制化的需求把量体裁衣做到极致。

Inf1实例是AWS设计基于ARM一款产品，能够为用户带来45%的最优的性价比。针对GPU计算应用，它能带来超过30%的吞吐量性能。

在大会上，AWS发布了自己的ARM芯片，专门针对训练做到最佳极致性价比。P4d主要针对最佳性能，AWS Trainium则是性价比最高的。如果客户已经用这款芯片做推理和预测，对SDK比较熟悉，那么转换到Trainium的时候就可以用同一套SDK，更加方便。

扩充SageMaker，为人工智能提速

计算、算力，针对机器学习仍然在创新和迭代，在这过程中，非常重要的一点就是选择。AWS把选择给到客户，这些选择永远围绕着更合适的性能和成本。

如果用户在实际应用中，还会有更加复杂的机器学习超大规模的模型，这些模型复杂到单机单卡难以在训练方面做到更高效率，怎么办？

今天，AWS带来了Amazon SageMaker中主攻分布式训练的Distributed Training，它所提供的功能可以让用户在分布式训练方面速度提升40%，甚至更多。

我们来看看实战，左边的Mask-RCNN模型和右边的T5-3B模型，前者是时下热门的计算机视觉模型；后者是跟自然语言处理相关的模型，这两个模型都非常复杂。

去年，以AWS当时最优的一种配置针对Tensorflow、PyTorch在运行Alexa模型进行训练，分别需要28分钟和27分钟。通过AWS分布式训练的Distributed Training能够从28分钟升到6分钟；在T53部超复杂的自然语言处理模型里面，能够从几个月提速至5.9天。效率立竿见影。

Distributed Training的加速方式有两种，将模型训练拆分到几百、几千个CPU上进行。第一是数据并行引擎，对数据集进行拆分。第二是模型并行引擎，自动剖析、识别分割模型的最佳方式，在多个 GPU上高效分割具有几十亿参数的大型复杂模型。因此，才能实现大型复杂深度学习模型的训练速度成倍提升。

此外，AWS此次还在工业领域机器学习、AI工具与开发、数据库及数据分析，还有SageMaker都做了更新与扩充，我们今天所谈的几点仅仅是其中的一小部分。

现在，我们看到越来越多的行业开始应用到人工智能、机器学习，这些创新技术也正在改变着行业，高效率与低成本永远都是企业所关注的焦点，AWS正在用自己的硬件、软件及工具帮助用户走向成功。

本文由计算杂谈作者：云中子发表，转载请注明来源！

关键词：AWS

云计算和大数据

提速人工智能，AWS帮客户”扶上马并再送一程”

云中子

相关文章

WPS视角：AI技术如何重塑未来办公场景？

PTC产品生命周期管理（PLM）：可持续产品开发的支柱

手握“工具箱”，才能掌控AI时代

热评文章

最赞的文章

发表评论取消回复