8家最具创新性的人工智能和机器学习公司

2023-08-29 0 328

8家最具创新性的人工智能和机器学习公司

随着企业越来越多地尝试使用人工智能和机器学习将数据投入使用,供应商和开源项目的前景可能令人望而生畏。 如果说有什么不同的话,那就是事情只会变得更加混乱。

正如 FirstMark 合伙人 Matt Turck 所写,2021 年,行业看到了“全新一代数据和机器学习初创公司的迅速崛起”,而到 2022 年,这一趋势似乎将继续下去。 事实上,人工智能/机器学习如此热门,即使经济衰退迫在眉睫,首席信息官们仍然不愿削减人工智能/机器学习项目的支出。

那么企业会把这些钱花在哪里呢? 或者更确切地说,和谁一起?

为了帮助您了解有时令人眼花缭乱的人工智能/机器学习选项,我与数据科学专业人士进行了交谈,以了解他们对人工智能/机器学习领域最具创新性的公司的选择。 尽管从历史上看,该行业专注于令人惊叹的人工智能,例如可以玩游戏或看似提供人类推理的计算机,但今天的大部分创新都在不那么性感但更重要的领域,例如数据准备和操作问题。

超大规模云
对于许多企业来说,AI/ML 的“简单按钮”将是使用通过其首选云供应商提供的 AI/ML 服务。 尽管谷歌通常被认为拥有最强大的人工智能/机器学习服务组合,但任何大型云都将被证明是一个可靠的选择。 谷歌通过开源 TensorFlow 等关键框架引领了市场,最近又让公司可以通过 Cloud AutoML 在生产中轻松运行 TensorFlow 等内容。

AWS 往往在框架方面较少创新,而是专注于 Sagemaker Studio(一种机器学习 IDE)等工具,以帮助企业以更少的专业知识做更多的事情。 微软在 Azure 机器学习中提供了类似的功能,使用户能够配置机器学习操作和管道。 这三种云还提供一系列 API 驱动的服务,例如 Amazon Polly(一种文本转语音服务)。

如前所述,许多企业将从他们通过默认云提供商发现的 AI/ML 服务开始和结束。 这很好,但它错过了初创公司及其他地方发生的许多创新。 尽管每个企业都应该向其云提供商寻求 AI/ML 服务,但他们也应该考虑如下所述的创新者。

8 位人工智能/机器学习创新者

盘绕
尽管企业在数据科学的早期就采用了 R,但 Python 自此取代 R 成为 AI/ML 的主导语言。 Dask 是一个有助于扩展 Python 工作负载的开源项目,已成为数据科学人群的必备工具,因为它可以将 NumPy、pandas 和 scikit-learn 等流行计算库从单机扩展到多核机器 和分布式集群。

Scikit-learn 可以利用 Dask 实现并行性,使数据科学家能够使用集群的所有核心来训练估计器,而无需对底层代码进行重大更改。 这种并行性对于机器学习至关重要,因为数据科学家需要跨集群分解计算以在大型数据集上执行。

Dask 背后的公司 Coiled 在 AWS 或 Google Cloud 上管理 Dask 集群,从而使在生产中运行 Dask 集群变得更加容易。 Coiled 的 Dask 创新旨在降低 Python 专业人士使用 ML 进行更多工作的门槛。

Dask 开发人员 James Courbeau 解释说,借助 Coiled,数据科学家可以继续使用他们喜欢的 Python 库,而 Coiled 则负责“配置云资源、处理实例故障、协调机器之间的数据同步以及保护云环境”。

奥克托ML
以类似的方式,OctoML 为任何硬件上的 ML 部署引入了 DevOps 级别的敏捷性和自动化。 或者,更简单地说,OctoML 可以优化任何硬件上的 ML 模型性能,无论它在何处运行。 鉴于将模型投入生产是 AI/ML 企业生产力的最大障碍之一,OctoML 正在解决一个棘手的问题。

由于 Pytorch 等 ML 训练框架、模型本身以及需要运行的不同硬件之间存在严格的依赖关系,因此部署问题变得更加困难。 OctoML 自动为特定硬件参数创建自定义代码,选择适当的库和编译器选项,然后配置硬件配置设置以微调性能。 这需要了解 80 多个部署目标。

这种模型部署的优化促使公司创始人开始开源 Apache TVM,这是一种深度学习编译器,已成为 Amazon 和 Facebook 等 ML 巨头事实上的深度学习编译器。 凭借这些专业知识,OctoML 现在试图让所有公司更轻松地在各种硬件配置上部署机器学习模型。

思维数据库

秉承让 ML 更容易为更广泛的用户群体所接受的主题,MindsDB 致力于将 ML 的力量带入企业日常使用的东西:他们的数据库。 正如一个人向我解释的那样,MindsDB 是一种提高“数据库智商”的方法。

为何如此? 允许用户将基于 ML 的预测层添加到他们的数据集中。 这意味着任何了解 SQL 的人都可以通过向数据集添加基于 ML 的预测层来向其数据库添加 ML 功能。 该层或 SQL 的扩展使得可以像数据库表一样创建、查询和维护 ML 模型。 MindsDB 满足数据专业人士的需求,为他们提供了熟练掌握 ML 的捷径。

通过这种方式,MindsDB 可以帮助组织更好地利用其数据,根据过去的数据预测未来的数据。 当然,机器学习长期以来一直依赖于从数据库和其他来源提取数据。 MindsDB 方法的不同之处在于,公司不需要费力地提取、转换数据并将其加载到其他系统中。 MindsDB 的重大创新是让机器学习在数据库中成为可能。

7区
我可能每个季节都会在犹他州的偏远地区滑雪 150 多天,但遗憾的是我并没有力争成为一名职业滑雪运动员。 因此,我永远不会使用 Zone7,“人工智能驱动的人类表现平台”,它分析大量的运动员数据,为专业运动队建议最佳的休息和训练方案。

如果这看起来很利基,也许确实如此。 但上赛季,全球最成功的足球俱乐部之一利物浦队在参加多项比赛并赢得其中两场比赛的情况下,却将伤病率减少了三分之一。 体育是一项大生意,越来越多的足球、美式橄榄球和橄榄球联盟的职业球队正在转向 Zone7。

那么该公司到底是做什么的呢? 正如该公司详细介绍的那样,“Zone7 分析全面的玩家数据,包括游戏中和训练中的定位信息,以及生物识别、力量、睡眠和压力水平。 反过来,该平台可以识别未检测到的风险模式,创建实时伤害威胁警报,并提供实用的干预方法来帮助指导和告知教练的决策。”

换句话说,Zone7 不是您或您的公司可能使用的东西。 然而,您支持的团队可能会接受这一点。 考虑到我的足球队(阿森纳)的伤病记录,这不可能很快发生。

盛开
BLOOM 是一种开源多语言语言,旨在解决 ML 系统从训练文本中继承的偏见。 此处提供的所有其他示例中,AI/ML 创新都是可出售的。 不是布卢姆。 事实上,这是该语言的一个关键要求,因为它试图打破大型科技公司对自然语言处理的控制。 尽管公司参与其中并组织成一个名为 BigScience 的组织,但没有一家公司控制 BLOOM。

训练大型语言模型以在数十亿个单词之间进行统计推断所需的成本和专业知识是巨大的,因此只有大公司才有能力参与。 相比之下,BLOOM 是由数百名研究人员开发和塑造的,其中包括一些来自 Facebook 和 Google 的研究人员,他们以真正的开源方式以个人身份工作。

研究人员精心挑选了 3410 亿个单词中的大约三分之二,而不是采用基于从互联网上提取的文本来训练模型的标准方法(想象一下,基于 Twitter 上一天的文本量的模型将是多么公正) 来自 500 个来源的数据集。 这并不能保证 BLOOM 没有偏见,但作为一个开源项目,贡献者可以改进它以消除偏见。

重要的是,BLOOM 将免费提供。 是的,运行它会产生相关成本,但 Hugging Face 和其他公司正在想办法将成本降至最低。 BLOOM 尚未可供使用,但它可能会显着使 NLP 民主化。

落地人工智能

如果没有其他原因,Landing AI 应该出现在每个人的 AI/ML 创新者名单上,因为它是由 Coursera 联合创始人兼 Google Brain 创始负责人吴恩达 (Andrew Ng) 创立的。 吴恩达是大数据领域的佼佼者,他的出身使他拥有将机器学习付诸实践的经验。 因此,Landing AI 的重点是提高数据质量也许并不奇怪。

数据准备工作往往占数据科学家工作量的 70%,Landing AI 试图通过采用“以数据为中心的方法”进行机器学习来改善这一情况。 正如吴恩达所说,“公司不应该专注于代码,而应该专注于开发系统的工程实践,以可靠、高效和系统的方式改进数据。”

该公司的第一个产品是 LandingLens,这是一个用于机器视觉的企业 MLOps 平台。 LandingLens是一个视觉检测平台,旨在通过提高检测精度和减少误报来确保产品质量。 它通过机器学习工程师之间的协作来实现这一目标,以在制造过程中将基于高质量、经过验证的数据的深度学习模型训练、测试、确认和部署到边缘设备。 Landing AI 正试图将尖端的机器学习应用到制造业、医疗保健和农业等传统行业。

数据块
Databricks 并不是一家初创公司,这一点体现在其集成的整体机器学习平台上,该平台包括用于实验跟踪、模型训练、功能开发和管理以及功能和模型服务的托管服务。 Databricks 推出了 Delta Lake,这是一种将大量企业数据整合到一个地方的 Lakehouse 方法。 在此基础上,该公司提供了一个平台,使 ML 团队能够在数据准备和处理方面进行协作,为团队提供一种集中、标准化的方法来处理数据和相关的 ML 模型。

Databricks 与每个云提供商(尤其是 Microsoft Azure)集成良好。 尽管 Databricks 依赖于 Apache Spark,但用户也可以使用他们喜欢的编程语言,例如 Python、R 和 SQL,并且 Databricks 负责后端工作以确保它们也能与 Spark 一起正常工作。

事实上,这类工作可以说是 Databricks 最大的创新:为数据科学家和其他人提供一站式服务来跟踪实验、大规模重现结果、将模型投入生产以及重新部署和推出更新的模型。 其他公司解决这些挑战的孤立方面,但 Databricks 采用端到端平台方法。

抱脸
名字最奇怪的公司也可能是最具创新性的公司。 Hugging Face 最初是一个聊天机器人,后来发展为提供用于交付这些聊天机器人的 NLP 模型注册表,现在有望成为 ML 的 GitHub。 如今,该公司拥有超过 100,000 个预训练的 Transformer 模型和超过 10,000 个用于 NLP、计算机视觉、语音、时间序列和强化学习的数据集。 超过 10,000 家公司使用 Hugging Face 在 ML 应用程序上私下进行协作。

长期以来,组织内部的协作一直是机器学习采用的一大障碍。 不同的团队可能会构建本质上相同的模型,从而重复工作,并且没有构建和部署变压器模型的标准化方法。

Hugging Face 改变了这一点,让组织内的模型发现和协作变得简单,就像 GitHub 和 GitLab 对代码所做的那样。 该公司提供推理 API,可以访问数以万计的预训练模型。 这很重要,因为大多数公司缺乏自己构建模型的专业知识。

该公司还提供AutoTrain,帮助企业轻松开发和自动微调模型。 最后,Hugging Face 负责部署。 与 GitHub 一样,Hugging Face 用户可以安全地将最好的公共 Transformer 与私有模型融合在一起。

Hugging Face 联合创始人兼首席执行官 Clement Delangue 认为,到 2027 年,机器学习专业人员的数量可能会超过开发人员的数量。通过让包括开发人员在内的更广泛的专业人士能够使用机器学习,Hugging Face 很可能成为实现这一目标的关键促进剂 目标。 该公司自聊天机器人成立以来一直开源其技术的关键要素,并将开放协作作为其如何构建并帮助其他人构建的关键原则。 到目前为止,它似乎正在发挥作用。

申明:本文由第三方发布,内容仅代表作者观点,与本网站无关。对本文以及其中全部或者部分内容的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。本网发布或转载文章出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,也不代表本网对其真实性负责。

七爪网 行业资讯 8家最具创新性的人工智能和机器学习公司 https://www.7claw.com/60600.html

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务