企业在做任何与数据有关的重大决策前都应将数据引力列入考量
请在脑海中描绘出太阳的模样,它强大的引力将各个行星牢牢锁在运行轨道之中。
在当今的企业运营中,数据也发挥着类似的影响。某一位置上新数据集的稳定积累会吸引更多的数据。而当大量数据集都集中在一处时,访问就成了难题。庞大臃肿的“数据引力”中心令数据筛选和有效数据的选取过程变得困难。企业更加难以获得能对其收入产生重大积极影响的洞察。
虽然数据引力的出现可能不是一种颠覆性的现象,但它确实有可能影响到IT基础架构的构建。企业在做出任何与数据有关的重大决策之前,都需要考虑到数据引力中不断变化的诸多因素。
数据引力的成因
了解数据引力的成因有助于应对数据引力本身。
数据汇集于企业,因此数据引力可以追溯到企业自身。据估计,到2025年,企业将承载全球80%的数据。此外,每当企业进行并购或启动新的大型分析项目时,新的数据引力中心便会出现。虽然过去大多数数据的最终归宿是数据仓库,但随着工业物联网(IIoT)在边缘的使用日益增加,数据集的位置也在发生变化。可以看到的是,数据引力正在与新的数据处理方法同步发展。
在AI这一改变范式的技术被全面接受之前,数据引力就已经在积聚力量。而现在由于AI带来了数据增长,有关数据引力的挑战就变得更加复杂。使用AI时需要考虑的另一个因素是,数据的位置会因是训练数据模型还是实际使用数据模型而有所不同。在AI领域,无论是在云端、本地还是边缘,数据的位置都尤为重要。拥有一个未来就绪的数据中心,有助于快速从数据中获取洞察,情况将大有不同。
这些挑战都将随着AI应用的增加而凸显。据戴尔科技2023“GenAI脉搏调查”(Generative AI Pulse Survey)数据显示,受访的500名IT决策者中有76%表示其正在增加AI方面的预算。同样有76%左右的受访者认为,即使并非变革性的,生成式AI也将对其企业产生十分重大的影响。
数据引力和基础架构
企业必须考虑与数据引力相关的诸多因素,尤其是在AI项目成为当务之急时。
首先,企业需要明确在哪里计算和存储数据。企业将在哪里训练AI数据模型,又要在哪里使用由此生成的算法?戴尔科技的“GenAI脉搏调查”显示,82%的IT领导者倾向于采用本地部署或混合方式进行数据管理。
工业物联网和边缘AI的发展涉及到边缘数据处理,这意味着企业需要明确有多少数据需要在边缘处理,又有多少数据可以传输到云端。
企业采取的基于云的软件即服务(SaaS)程序也会决定其访问数据的方式。此外,隐私权和安全法规的要求则决定企业和其他组织机构存储和处理数据的位置。
这一长串“在哪里”问题的答案将决定相关IT基础架构的布局,包括数据中心、本地部署和混合云服务以及其他数据存储、训练和处理位置。
在云中、本地或使用混合模式管理数据时的成本同样受到数据引力的巨大影响,并且影响着数据管理策略。事实上,来回移动数据的成本很高,企业也正在探索变通之法,通过虚拟化和云邻近存储等机制提高效率。
其次是管理问题。企业若能确定需要移动多少数据才能使其发挥作用,同样可以帮助解决数据引力问题并构建基础架构。有多少数据是真正需要处理的,又有多少是需要保留的,这是亟待企业回答的问题。企业越能更好地管理大量数据,就越能减轻数据引力带来的一些不利影响。
数据管理计划
企业该如何制定一个健全的数据引力感知管理项目呢?首先,企业可以列出可提高数据引力的资源。为此,企业需要了解有哪些情况会影响到这一点,例如公司进行了哪些新的数据投资?近期将有何种举措可能会增加数据引力?
企业需要知道数据节点的位置,包括是否需要在特定位置设置特定数据集?是在边缘进行实时处理,还是因数据主权法而需要在特定国家/地区进行处理?
企业只需传输真正需要的数据。诸多工具可供使用,虚拟化只是其中之一,企业可以通过这些工具实现他们想要的数据驱动结果,无需到处转移数据集并创建新的数据引力中心。
企业还可以考虑使用托管服务。通过与戴尔科技合作,建立必要的IT基础架构模块助力当前及未来的AI项目。戴尔科技的高性能存储和低成本对象存储如PowerStore、PowerScale和ObjectScale,在帮助企业部署本地AI规模方面处于有利地位。
数据是神圣的,对任何企业来说都至关重要。在AI炙手可热的当下,拥有一个将数据引力因素考虑在内的强大数据战略,AI技术的潜力必将得到充分发挥。
本文由 计算杂谈 作者:云中子 发表,转载请注明来源!