DotData 拥有 Databricks 的自动化特征工程

2023-06-05 0 704

DotData 拥有 Databricks 的自动化特征工程

上周,专注于自动化特征工程 (AutoFE) 和自动化机器学习 (AutoML) 的公司 dotData 宣布将其 AutoFE 技术与 Databricks 平台集成。 特征工程是构建机器学习模型最困难的部分之一,因为它需要技术和领域知识来确定源数据中的哪些列与模型的预测最相关。 DotData 的新集成使 Databricks 用户(包括那些没有高级数据科学专业知识的用户)能够设计更丰富的 ML 模型功能,处理更具挑战性的 AI 用例并提高模型准确性。

什么是自动化特征工程?
ZDNet 与 dotData 的首席执行官兼创始人 Ryohei Fujimaki 博士进行了交谈,他解释说,该公司的 AutoFE 技术通过发现源数据中的模式来工作,以找到可以提高模型准确性的统计重要特征,从而增强数据科学家的领域相关特征 可能会凭直觉发现。 具体来说,dotData 的 Python 库 dotData Py 现在与 Databricks 兼容,可以在 Databricks 平台上通过 pip 安装。 这取代了繁琐的传统特征工程工作,否则必须针对 Spark、Pandas 或 Dask 数据帧在代码中手动执行这些工作。

DotData 的技术使用可以发现数据中的多模式模式的算法来查找对预测有影响的列(即特征)。 此外,AutoFE 可以将一组关系表转换为单个“特征表”,该“特征表”可用作训练最佳机器学习模型的数据集。 还支持时态、地理位置和文本数据,以及与对象存储和文件系统(如 Amazon S3、Azure Data Lake Storage (ADLS) 和 Hadoop 分布式文件系统 (HDFS))以及传统数据仓库的集成。

新的合作
可解释性特征,例如自动生成的特征解释和特征蓝图,可用于帮助公民数据科学家和数据科学家等,以便他们能够理解每个特征是什么以及它们之间的相关性。 dotData/Databricks 集成使用两个平台的功能来 (1) 快速创建用例原型和 (2) 通过更快地找到最佳特征来提高模型准确性。 例如,用户可以通过使用 Databricks 的新功能存储(功能的集中存储库)来管理 dotData 的 AI 功能,并且可以使用 Databricks 的 MLFlow 实现来管理 ML 实验。 在较低级别,dotData 的 AutoFE 技术使用 Databricks 文件系统 (DBFS) 和 Databricks Runtime(Apache Spark 的优化版本)来加速执行。

这些特定的集成主要针对使用 Python、笔记本和各种机器学习库(如 PyTorch、XGBoost、TensorFlow 和 Scikit-learn)的经验丰富的数据科学家。 DotData 的 AutoFE 支持数据科学家探索不同类型的特征假设。 它侧重于传统的业务数据用例,而不是深度学习用例(即 dotData 不挖掘图像、视频或非结构化数据)。 它让用户受益于高级计算而不是上下文。

未来该何去何从?
将领域知识集成到模型构建过程中一直是一个挑战。 解决这一挑战的方法之一是特征工程,而 DotData 是自动化特征工程过程的先驱。 DotData AutoFE 通过更多的统计特征来增强域特征。 与手动特征工程相比,AutoFE 在更短的时间内分析更多数据,以找到最相关的特征。

通过与 Databricks 的这种新集成,两个平台的用户现在都可以通过查找和生成相关功能以及优化模型准确性来受益。 有可能,某种形式的 AutoFE 在未来会变得更加主流,并进入众多 AutoML 平台。

申明:本文由第三方发布,内容仅代表作者观点,与本网站无关。对本文以及其中全部或者部分内容的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。本网发布或转载文章出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,也不代表本网对其真实性负责。

七爪网 行业资讯 DotData 拥有 Databricks 的自动化特征工程 https://www.7claw.com/57308.html

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务