在今天的数字峰会虚拟活动中,实时 NoSQL 数据库播放器 Aerospike 宣布推出其同名产品的新版本。 v5.6 版本增加了一些功能,这些功能旨在优化边缘和“核心”(云或企业数据中心)的实时数据处理和机器学习循环。 这些场景还涉及从边缘数据在核心训练机器学习 (ML) 模型,然后将模型推回到边缘进行推理。
ZDNet 采访了 Aerospike 创始人兼首席产品官 Srini Srinivasan,他向我们简要介绍了促进和优化这种良性数据/ML 循环的三个功能。 他们是:
集合索引:加速访问 Aerospike 集合中的数据(类似于表)。 该公司表示,即使在 PB 级数据库中,此功能也可以快速查询集合。
Aerospike 表达式的增强功能:现在可以将读取和写入操作嵌入到表达式的实现中。 Srinivasan 解释说,用 C 实现的表达式比用户定义的函数执行效率更高,并且使处理更接近数据。
更新了 Aerospike Connect for Spark:此连接器现在与 Apache Spark 3.0 兼容。 这反过来又允许开发人员直接针对 Aerospike 使用 Spark 3.0 及其 API(将数据作为 Spark DataFrames 返回)。
点亮星火
适用于 Spark 的 Aerospike 连接器允许将数据库中的实时和历史数据用于训练 ML 模型,而无需先导出数据。 此外,Srinivasan 解释说,Aerospike 可以管理比内存中可能容纳的更大的数据集,这使得面向内存的 Spark 能够处理大量数据,这可能比 Spark 处理云存储中的 Parquet 文件要快得多。
Spark 将数据操作“下推”给 Aerospike 的次数越多越好,Aerospike 连接器将在 Spark 代码查询时以这种方式积极地委托工作。 然后,此类操作将进一步受益于新版本中也引入的集合索引和表达式增强功能。 Aerospike 的 Presto 连接器(人们会假设是 Trino)的运行方式类似,并以类似的方式使 Presto 用户受益。
(数据)参考框架
这种允许 Spark 开发人员在本地针对外部数据库工作的模式正在获得动力。 其他数据库,如 Splice Machine,已经启用了类似的接口。 Spark 现在是一个标准,它的 DataFrame 正在成为开发人员的数据通用抽象层,用于流处理、查询、数据工程和 ML。
鉴于过去十年出现的大量数据库和分析平台,很高兴看到其中一个平台正在成为与其他几个平台合作的共识工具。 很高兴看到 Aerospike 现在为 Spark 3.0 启用了此功能。