云计算和大数据

提速人工智能,AWS帮客户”扶上马并再送一程”

亚马逊re:Invent大会还在继续,今年可是持续三周呐,并且是全球网上直播,能让技术控们过足瘾。

本周,亚马逊云服务(AWS)开始将重点转向了人工智能和机器学习,并宣布了一系列新服务和新功能,让机器学习更易用和拓展到更加广阔的使用者、应用场景和行业。

AWS全球机器学习副总裁Swami Sivasubramanian在主题演讲中表示,"机器学习是我们这一代人能遇到最具颠覆性的技术之一,目前已经有超过10万客户在使用AWS的机器学习服务,很多客户已经将机器学习用于其核心业务。"

AWS会帮客户"扶上马并再送一程"

亚马逊利用机器学习技术已经有20多年时间。AWS从2016年开始发力,从几个AI机器学习服务到Amazon SageMaker,目前,全球已经有超过10万客户已经在AWS上使用机器学习服务,横跨很多行业,包括媒体、汽车、金融、制造等等,所有这些客户都在使用机器学习。

由此,我们也看到一个趋势,机器学习就像工具一样被客户所采用,部署到各个行业,并且有非常多的应用场景。

提速人工智能,AWS帮客户"扶上马并再送一程"

AWS大中华区云服务产品管理总经理顾凡在媒体沟通会上表示:客户之所以选择AWS的机器学习服务,主要原因有以下几点。

第1, 整个服务的宽度和深度。更有针对性的产品与服务,能够帮助用户在自己的应用场景下快速找到合适的工具。

第2, AWS在云计算和机器学习领域里始终抱着一个开放的心态,AWS的很多工具都是非常开放的,可以与客户的整个环境实现完美集成。

第三,AWS在服务客户的时候会遵循两个原则,一是授人以鱼不如授人以渔,AWS更多希望帮助客户把能力建立起来,赋予他工具并且教会他如何使用。第二是在产品原型实现、客户需要帮忙的时候,AWS会帮客户"扶上马并再送一程",真正帮他快速解决业务难题。

夯实基础,机器学习框架与硬件同发展

机器学习的坚实基础里面含两部分,一部分是机器学习的框架,一部分是基础设施,首先看一下机器学习的框架。

在云端,客户经常使用三个左右框架,无论是Tensorflow、MXNet还是PyTorch,最关键的就是选择,AWS的思路就是要把选择自由权给到客户,让客户自己选。大部分客户都会同时用到三种机器学习的框架,所以AWS会有针对不同框架的调优团队,保证在三个框架下都把性能调到最优。

除框架之外,最关键的基础就是算力。在实际应用过程中,每位用户机器学习的负载都不一样,这就会影响到计算力的需求和成本,因此就需要更精细的颗粒度。

在基础设施方面,AWS依然会给到大家很宽泛的选择。一方面是可以看到从M5到R6g这些通用计算,以及更高阶像P4d这样配备Nvidia100 GPU的高端训练机型。在推理和预测方面,Inf1实例用的就是AWS自研芯片AWS Inferentia,能够做到极致性价比。

简单地说,在机器学习基础设施方面,AWS提供了多种选择。CPU、GPU都横跨多个厂商,还有自研的产品,计算一直在重塑和创新,帮用户做的更精准,针对定制化的需求把量体裁衣做到极致。

Inf1实例是AWS设计基于ARM一款产品,能够为用户带来45%的最优的性价比。针对GPU计算应用,它能带来超过30%的吞吐量性能。

在大会上,AWS发布了自己的ARM芯片,专门针对训练做到最佳极致性价比。P4d主要针对最佳性能,AWS Trainium则是性价比最高的。如果客户已经用这款芯片做推理和预测,对SDK比较熟悉,那么转换到Trainium的时候就可以用同一套SDK,更加方便。

扩充SageMaker,为人工智能提速

计算、算力,针对机器学习仍然在创新和迭代,在这过程中,非常重要的一点就是选择。AWS把选择给到客户,这些选择永远围绕着更合适的性能和成本。

如果用户在实际应用中,还会有更加复杂的机器学习超大规模的模型,这些模型复杂到单机单卡难以在训练方面做到更高效率,怎么办?

今天,AWS带来了Amazon SageMaker中主攻分布式训练的Distributed Training,它所提供的功能可以让用户在分布式训练方面速度提升40%,甚至更多。

提速人工智能,AWS帮客户"扶上马并再送一程"

我们来看看实战,左边的Mask-RCNN模型和右边的T5-3B模型,前者是时下热门的计算机视觉模型;后者是跟自然语言处理相关的模型,这两个模型都非常复杂。

去年,以AWS当时最优的一种配置针对Tensorflow、PyTorch在运行Alexa模型进行训练,分别需要28分钟和27分钟。通过AWS分布式训练的Distributed Training能够从28分钟升到6分钟;在T53部超复杂的自然语言处理模型里面,能够从几个月提速至5.9天。效率立竿见影。

Distributed Training的加速方式有两种,将模型训练拆分到几百、几千个CPU上进行。第一是数据并行引擎,对数据集进行拆分。第二是模型并行引擎,自动剖析、识别分割模型的最佳方式,在多个 GPU上高效分割具有几十亿参数的大型复杂模型。因此,才能实现大型复杂深度学习模型的训练速度成倍提升。

此外,AWS此次还在工业领域机器学习、AI工具与开发、数据库及数据分析,还有SageMaker都做了更新与扩充,我们今天所谈的几点仅仅是其中的一小部分。

现在,我们看到越来越多的行业开始应用到人工智能、机器学习,这些创新技术也正在改变着行业,高效率与低成本永远都是企业所关注的焦点,AWS正在用自己的硬件、软件及工具帮助用户走向成功。

(0)

本文由 计算杂谈 作者:云中子 发表,转载请注明来源!

关键词:
LensNews

热评文章

发表评论