在大数据刚刚兴起的那些年,企业已经意识到了数据的重要性,纷纷开启了大刀阔斧地转型之路。
相信当时大部分企业负责人都会认为:只要将数据收集好,就可以像互联网企业那样将其充分利用起来。但实际情况却令人大跌眼镜,因为数据如何利用,还需要很多专业工具来实施。并且每个行业的需求点都有所不同,关于数据的痛点不再是收集,而是应用!
相信很多企业管理者都会由衷地感叹:面对一边是海量的数据,另一边是复杂的业务,如果数据并未实现智能化,那还要它何用?
2022 re:Invent全球大会上,亚马逊云科技发布了多项基于数据的新服务和新功能。亚马逊云科技CEO Adam Selipsky在会上表示,数据的庞大和复杂需要新的工具,将不断扩展的信息世界转化为洞察。当企业拥有所有这些工具时,就可以构建一个完整的端到端数据策略,涵盖所有数据类型、用户需求和工作负载。
亚马逊云科技正在投资整个数据之旅,从数据的摄取、存储、查询,到分析、可视化和运行机器学习到端到端治理,使客户更容易释放数据的价值。
数据库管理五大金刚
“业务未动,数据库先行。”很久以来,企业率先步入信息化的系统就是数据库,通常一套数据库系统就掌握着企业运营的命脉,因此它的受重视程度也是最高。
但当数字化时代到来之际,业务变得愈发复杂,企业发现一、两套数据库系统已经无法满足需求,因此数据库开始变得庞大起来。以制造业为例,十几年前大都以库存管理数据库为主,其他方面较少涉及。而回过头来看看现在,CRM、ERP基本都是必备选项,而企业的生产也已全部进入了数字化管理时代,库存、物料、生产线管理、任务分配、采购订单生成等等,均会涉及到数据库系统。同时,日趋复杂的系统给管理带来了巨大挑战,企业急需要更加敏捷的工具来管理数据。
亚马逊云科技在2022 re:Invent全球大会上,亚马逊云科技推出五项数据库和分析服务全新功能,让客户能够更快、更轻松地管理和分析PB级数据。此外,亚马逊云科技还发布了Amazon Glue的一项新功能,可以跨数据湖和数据管道自动管理数据质量。这些工具都在通过最新的IT技术,帮助企业解决数据管理难题。
面向海量数据管理需求,亚马逊云科技的Amazon DocumentDB Elastic Clusters可明显提升数据库性能,以每秒数百万次写入的性能为PB级应用提供支持。数以万计的客户使用 Amazon DocumentDB运行文档工作负载,因为它速度快、可扩展、高度可用而且完全托管。
在此之前,每个Amazon DocumentDB节点可扩展到64TB数据,但随着企业需求的不断攀升,即使如此大的容量也已经捉襟见肘。因此,Amazon DocumentDB Elastic Clusters应运而生。同时,Amazon DocumentDB Elastic Clusters打破了单个数据库节点的限制,让用户可以在几分钟内扩展,最高存储2PB的数据。
与其他智能化的工具一样,当用户工作负载需求增加时,Amazon DocumentDB Elastic Clusters可以利用分布式存储系统,自动将大型数据集划分到多个节点。这样就省去了用户编写自定义代码分拆数据集的问题,通过底层基础设施自动管理,用户也可根据需要自由扩展容量,无需额外配置管理数据库集群了。
Amazon OpenSearch Service是一个企业搜索服务,能够帮助客户在无需配置、扩展或管理底层基础设施的情况下运行搜索和分析工作负载。Amazon OpenSearch Service 还捆绑了可视化看板 OpenSearch Dashboards。此工具不仅可以让日志数据可视化,跟踪数据,还可以利用机器学习技术,实现异常检测和搜索相关性排名等功能。目前,Amazon OpenSearch Service已经拥有数以万计的客户,托管了数十万个集群,每月处理数百万亿个请求。
Amazon Athena for Apache Spark是一套交互式分析工具,能够将处理的启动时间缩短到1秒以内。使用面向Apache Spark的Amazon Athena,客户无需自己预置、配置和扩展资源。Amazon Athena与其他亚马逊云科技服务的集成,客户可以从多个来源查询数据,将运算串连在一起进行复杂分析,并且将结果可视化。它使用标准SQL接口在Amazon Simple Storage Service(Amazon S3)查询数据,是查询PB级数据最方便、最快的方式之一。
针对Amazon Glue的新功能,名为Amazon Glue Data Quality,可实现跨数据湖和数据管道自动管理数据质量。Amazon Glue Data Quality同样也是一套自动化的工具,支持自动测量、监控和管理Amazon S3数据湖和Amazon Glue数据管道的数据质量,并将数据分析和规则识别的时间从几天缩短到几小时。
面向用户关键业务负载,Amazon Redshift已经可以支持跨多个亚马逊云科技可用区(AZ)的高可用配置。依托于Amazon Redshift多可用区功能,用户可实现跨多个可用区部署集群,并使用所有资源处理读写查询,取消低利用率的备用副本,最大限度地提高性价比。
实战方面,美国联合航空公司经营着庞大的国内和国际航线网络。目前他们为客户和员工构建数百个数据和分析驱动的工具,通过Amazon Glue Data Quality,使美联航能够在几分钟内自动识别和分析数据质量问题并采取行动,做出明智、及时和准确的决策,并且节省大量花在手动定位和修复各种数据问题上的时间。
Amazon Quicksight Q让数据变智能
亚马逊云科技大中华区产品部总经理陈晓建表示:从本次re:Invent发布的特性看未来技术演进的方向,非常明显的一点就是数智融合,也就是如何打造一个端到端的数据服务战略。Quicksight Q推出了多项新功能,把人工智能和业务洞察相结合,使得客户不用再去掌握数据分析技术,而是通过人类自然语言来进行业务的洞察,从而大降低了使用门槛。
Amazon QuickSight Q是通过机器学习,用户都能以自然语言提出有关业务数据的问题,并在几秒钟内获得可视化的准确答案。实际应用相信大家都不会陌生,因为现在很多直销、客服平台都有着类似的服务。
与传统客服机器人不同的是,QuickSight Q会自主学习,通过探索历史趋势和数据指标,让用户可从复杂的数据报表中获得新洞察。例如,“预测某产品在加州的销售情况”,“为什么上个月销售额增加了?”,在几秒钟内,Amazon QuickSight Q会总结出驱动这一增长的主要因素。QuickSight Q能够解决类似这样一些逻辑层次更深的问题,并可对潜在增长建模。
简单一些的问题,就像自然语言处理那样,通过搜索就可以进行回答。QuickSight Q则是在此基础之上,以企业自身丰富的数据为知识库,通过深层逻辑回答一些企业业务相关的问题,更加精准、智能。
前文我们也提到了,Amazon QuickSight Q的回答都是以秒为单位,那么面对海量的企业数据,它是如何实现的呢?
Amazon QuickSight通过超快并行内存计算引擎(SPICE)实现了强大的性能,每小时平均处理数十万亿条记录,可支持10亿行的数据集,并能够对大型数据集进行分析和可视化。也正如亚马逊云科技的其他服务一样,SPICE引擎可使组织中的数千名用户能够同时执行快速、交互式分析,无需搭建或管理基础设施。
纳斯达克正在通过Amazon QuickSight Q追问预测新功能,帮助用户了解对关键指标变化贡献最大的主要维度和数值,而预测功能将帮助用户探索前瞻性洞察。例如不同细分市场和客户的未来收入和市场份额增长。
Amazon QuickSight Q这些新功能加速了纳斯达克建立商业智能,通过完全自动的方式进行复杂数据分析,帮助最终用户实现自助式服务,无需分析师构建模型和分析。
亚马逊云科技数据与机器学习副总裁Swami Sivasubramanian博士在2022 re:Invent全球大会上表示,亚马逊云科技在数据库、数据分析和机器学习领域的创新,构建基于“面向未来的数据基础设施”、“跨组织的数据链接”和“数据普惠化”三个核心要素的端到端数据战略,从而帮助企业将数据转化为对业务有意义的见解和行动,驱动企业借助数据推动下一波创新。
未来,无论是自动化的数据库工具还是Amazon QuickSight Q,它们都将赋予数据智能化,使其在不同应用场景下实现自由流动,并依此帮助企业驱动业务增长,同时激活各类应用创新,助力企业实现腾飞。
本文由 计算杂谈 作者:云中子 发表,转载请注明来源!