VAST Data：从存储解决方案到统一的人工智能平台

金融科技 2024-02-281270baixun

VAST Data正在从其商品存储基础向人工智能堆栈攀升，以提供单一的融合人工智能堆栈系统。这就是我们最近从VAST的现场CTO Andy Persteiner那里得到的简报。

VAST提供了其分解的单QLC闪存层并行、扩展的基于文件的存储系统，并在此基础上构建了软件层：数据目录、全局命名空间、数据库和即将到来的数据引擎。早在生成性人工智能爆发之前，它就以人工智能为重点，带有思维机器的倾向。首席执行官兼联合创始人Renen Hallak表示：“VAST数据平台提供了人工智能基础设施，为自动化发现打开了大门，可以解决人类最复杂的一些挑战。”

Persteiner解释说，VAST的许多客户项目“更专注于……无聊的旧数据处理和准备。其中很多是基于CPU的ETL工作负载…通常，它们有一个管道，其中嵌入了许多不同的技术，然后将它们缝合在一起。最终目标是将他们的数据转换成一种可以进行分析或开始进行训练或推理的格式。”

一个问题是，“通常数据还没有准备好，数据不适合人工智能……工作。所以他们需要把它送到那里。”人们花了很多时间进行清理、准备和ETL，通常是在基于CPU的农场上。

“我们的最终目标是让人们把所有混乱的、非结构化的、丑陋的数据带到我们的平台上，然后把那些需要有结构的零碎数据带到数据库中，而不必先把它们移到其他地方进行转换。”

Persteiner告诉我们：“我个人目前正在进行的一些项目直接涉及到人们获取现有的数据管道，这些数据管道从各种来源获取数据，将它们转移到数据仓库进行分析和BI，并将其转移到我们的平台……我们首先允许他们单独运行自己的计算来进行ETL，然后将其带入我们的数据库。”

数据引擎

“数据引擎的第一部分……在中短期内发生的事情是，我们将直接在平台上嵌入一个执行引擎或执行框架。该执行框架在很大程度上基于Spark。但我们在其中加入了许多其他部分，使其在ETL处理方面更加优化。”

这将在几个月左右后到期，“将使客户能够将数据处理到位，并将其输入数据库，在那里他们可以开始对其进行分析。”

展望未来，“总的来说，我们的目标只是把客户今天正在做的所有事情都拿出来，他们可能会在亚马逊或谷歌部署这些东西，他们可能在prem上部署它们，他们可能将许多不同的系统或不同的技术拼接在一起。我们试图整合尽可能多的系统或技术。”

这甚至可能不涉及存储。“我们的一些大型部署还包括那些拥有复杂ETL管道、拥有数据准备和清理机制、拥有执行引擎和数据库的客户，他们刚刚开始意识到，他们已经拥有了一个可以做许多这些事情的平台。”这意味着VAST。

“因此，我们正在与他们一起开展项目，在某些情况下，我们与他们根本不需要存储的客户一起开展项目。他们需要的是一种将数据处理成表格格式并对其进行分析的方法。”

Persteiner评论道：“事实上，我们很高兴能找到新客户，利用我们的数据库和数据引擎作为杠杆，将我们带入这些机会。”在他看来，“你将开始看到专门使用我们提供数据库和数据机的客户。”

他补充道：“当然，要部署VAST数据平台，您需要硬件。现在，我们还没有发布对GPU在这方面的支持……我们还没有实现GPU的调度方面，这意味着客户将首先在我们的数据引擎上部署基于CPU的工作负载，这很自然地有助于处理ETLnd基本功能……其中很多东西并不是人们通常认为的人工智能。但它们是人工智能不可或缺的组成部分。”

随着客户采用这一点，“他们将有一个地方可以获得所有数据，然后开始对其进行更先进的分析和人工智能。然后你会开始看到我们允许更多的灵活性。我不能给你时间框架以及GPU或编排层的管理何时进行，但我们的计划最终是能够管理客户的……处理结构，无论他们背后有什么样的硬件。”

许多客户都有人工智能工作量安排。“我想说的是，与我们交谈的绝大多数大型客户，他们已经有了调度器，他们已经拥有了编排层，他们已经具有了ML操作平台，他们已经具备了所有这些东西。因此，我们并不是要去那里告诉他们把所有这些东西都剥离。这是不现实的。他们可以很好地管理自己的计算不需要我们。”

“我们正在部署到世界上一些最大的超级计算机中。他们有数以万计的服务器，数千个GPU。他们不需要我们来管理这些东西。这不是它的工作方式。所以我认为这就是我们一点一点地过渡到事物的部分原因。”

VAST将首先针对特定的工作负载。例如，“想象一下，在这个管道中，你需要获取许多不同的来源，并将它们吸收到一个平台中，将它们处理成表格格式，然后将其放入一组离散的作业中。这不是……你需要的通用框架。这是一个相对特定的框架。”

“我们将要公开的另一件事是，客户消息总线的一种方式是将数据直接转储给我们，而不必经过另一层……客户的事件管道通常围绕着Kafka之类的消息总线。平台本身将允许Kafka这样的东西与我们拥有的数据库表直接集成他们可能不需要管理卡夫卡系统，或者如果他们需要，我们可以直接与之集成。”

管道收敛

我们建议VAST所做的事情就像水上升一样。它将逐步吸收这个人工智能管道的底层阶段，这样它就可以聚合不同的软件，并逐步提高舒适度。最终，VAST可能直接在VAST环境中进行人工智能处理，GPU也参与其中。但人们不会放弃现有的1000台GPU服务器和英伟达系统。但可能在未来，VAST将能够将现有的GPU服务器纳入VAST系统。

Persteiner回答说：“我认为你走在了正确的轨道上[但]我认为，我认为合作可能不是我们最初的做法。”他将日程安排视为一个切入点。客户使用调度器来保持GPU“在数据进入方面吃饱了”

这些数据可以位于客户分布式环境中的多个位置，GPU服务和数据需要移动到GPU也是如此。Persteiner表示，VAST将“首先允许客户使用其GPU场对可能在其他地方摄入的数据进行处理。这只是我们跨线移动字节的问题，并且尽可能智能。”VAST将为此使用其全局命名空间功能。

超收敛

“早些时候，我们在策略上非常专注于确保我们在研究方面适用于与我们交谈的客户，这些客户主要是HPC。但现在，随着我们从HPC的各个层面毕业，从研究到企业，到各种以人工智能为中心的客户，再到以人工智能为主的云服务提供商。现在，我们的重点实际上是建立一个平台允许一切都发生在一个地方，而不是专注于某个特定的领域。”

我们建议：“你是一个新形式的超转型公司吗?”

在某种程度上，佩尔斯泰纳回答说。“我认为，如果你说hyperconverged这个词，很多时候人们脑海中都有这样的愿景，即这意味着什么。”基本上是Nutanix风格的计算。

是的，佩尔斯泰纳同意了。“我认为，对我们来说，如果我们使用hyperconverged这个词，那将是在数据平台的背景下。而不是在基础设施的背景下，因为我们希望将数据处理和数据分析的所有学科结合在一起，而不一定只是将数据的存储方式结合在一起。”

存储是一种商品

“可能大多数人都会告诉你，存储是商品，他们认为它没有未来……我认为在未来一段时间内，将需要大规模的数据存储……我们仍然觉得在这方面有一个不错的收入基础。但就人们愿意在这方面花多少钱而言，这是一场向零的竞赛。”。因此，我们所有的价值都将是在顶部添加图层。”

换句话说，构建一个数据平台。

“例如，我们不认为客户会根据每GB的最低价格来选择数据平台，尽管他们过去对……通用存储就是这样做的。”

这是一个多云的世界

VAST将越来越多地在公共云中提供其平台。“大多数中小型甚至大型企业都在将大量工作负载迁移到云上。在某种程度上，我们的战略一直是遵循数据所在的位置。因此，我们的客户拥有大规模的云部署，在云中有大量存储，或在云中有很多计算。因此ce提供商提供我们在那里的体验。”

VAST最初已将其软件移植到AWS，以满足大量工作负载的客户。“我们正在扩大规模，让更多的云服务提供商也能利用这一点……你会在某个时候看到其他一些提供商的公告。同样，重点最初将集中在爆发上。但随后你会开始看到我们向扩大规模过渡。其中一些将使用云原生市场产品进行扩展，其中一些将是更嵌入云服务提供商的产品，因为……他们的客户要求在他们的云中使用VAST。”

他不仅仅指三大云提供商。VAST也将与较小的CSP合作。

Persteiner认为：“当你开始看到数据平台变得越来越现实，因为我们将在产品中包含数据引擎组件，你会开始看到客户将开始模糊处理和存储之间的界限，无论是在预处理还是在云中。”

全球范围的数据库也将改变人们的看法。“如果你能运行一个查询，在一个有效地跨越世界的表中进行联合，那么人们就不必开始在存储所有内容的地方分叉。如果你有一个遍布全球的数据库，你就不必担心摄入点在哪里，而且你可以运行一个经过优化的查询，以找出运行计算的正确位置。”

“想象一下，你有一个很大的胖表。它分布在一个地理区域，你运行一个查询，你甚至不知道数据可能在哪里。但是，当您执行查询时，平台本身能够在不同的位置调度正确级别的计算。这样，当你得到响应时，它是来自不同…边缘位置的所有响应的串联或集合，也许还有数据中心的基本位置，然后你就可以开始转变你对数据库的看法了。”它将改变“如果你不必去并确保你制作了一份数据副本来转移到那里，你对数据管道的看法”

VAST正在演变成我们眼前的人工智能存储、管道和执行软件平台。没有其他存储供应商对未来有这样的愿景——至少在公开场合是这样。当你读到这篇文章时，VAST AI数据平台正在构建中。伟速达似乎有信心知道自己在做什么，要去哪里，以及如何带领客户去那里。

这里还有其他角度。“但更有趣的可能是，调度器正在调度一个作业，我们知道了调度，这样我们就可以提前智能地移动这些字节。反过来也可能是这样，GPU调度器可以查询数据引用的位置，并选择在来回移动字节的术语。”

他说：“我们不想把人们的日程安排抛到一边。我们想与他们融合。”

VAST还将与英伟达的ML操作工具集成。其最终目标更进一步。“我们的想法是，客户不需要知道所有这些细节。他们不需要知道有调度程序，甚至不需要知道他们有什么类型的硬件。他们知道自己有数据，也知道需要从中得到答案。”。因此，我们的目标是让客户获得不需要了解细节的黑盒体验。但这里和那里之间还有很长的路要走。”

The End

免责声明：本文内容来源于第三方或整理自互联网，本站仅提供展示，不拥有所有权，不代表本站观点立场，也不构成任何其他建议，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容，请及时联系我们进行处理。

上一篇：三翼鸟4.0体验中心1年答卷：场景占比超6成

下一篇：洞悉菁英需求，COLMO推出业内首款纯平全嵌对开门冰箱

VAST Data：从存储解决方案到统一的人工智能平台

搜索

分类导航

最新文章

本栏文章

随机文章

友情链接

VAST Data：从存储解决方案到统一的人工智能平台

相关阅读

搜索

分类导航

最新文章

本栏文章

随机文章

友情链接