为什么说对象存储是解决人工智能最大挑战的理想选择

发布时间：2021-06-10 14:27:14 所属栏目：大数据来源：互联网

导读：2020年发生的冠状病毒疫情强调了快速分析和解释数据的重要性，以及人工智能和机器学习在明智决策中发挥的重要作用。在医疗研究机构研发疫苗的过程中，人们见证了机器学习可以用来拯救生命的实际应用，这推动了所需的数据训练以及对人工智能用于实时推理模型

2020年发生的冠状病毒疫情强调了快速分析和解释数据的重要性，以及人工智能和机器学习在明智决策中发挥的重要作用。在医疗研究机构研发疫苗的过程中，人们见证了机器学习可以用来拯救生命的实际应用，这推动了所需的数据训练以及对人工智能用于实时推理模型的持续微调。

因为经过更好训练的模型可以产生更快、更精确的人工智能系统，所以人工智能面临的最大挑战是正确训练其机器学习模型。

训练有素的机器学习模型必须稳定地摄取大量数据，这样才能适应和改进。随着训练数据集的增长，学习算法的性能会越来越好、变得越来越准确。总而言之，数据越多，结果越好。显然，获得海量数据需要大量存储空间，但是在这种情况下，并不是所有存储解决方案都是一样的。当组织评估如何更好地采用人工智能/机器学习应用程序时，必须在这一过程中不要忽略存储基础设施。

组织能否成功地从模型训练所需的庞大且不断增长的数据集中筛选出可行的见解，并从中收集可行的见解，这取决于其存储架构能否满足数据管道各个阶段的极端苛刻要求。

对象存储是支持有效机器学习模型必不可少的7个原因

坦率地说，对象存储是唯一可以帮助解决人工智能/机器学习的模型训练难题合适的解决方案，以下是为什么对象存储是最合适的原因：

•无限的可扩展性

大量的数据需要大量的存储，而人工智能/机器学习工作负载需要一种可以随数据增长而无限扩展的解决方案。传统文件和块存储解决方案将在数百TB后达到可扩展性的上限。对象存储是唯一可以在单个全局命名空间中无限扩展到数十PB甚至更多的存储类型。通过随时随地无中断地部署新节点，根据需求能够进行弹性无缝扩展是一个巨大的优势。

•内置的数据保护

定期备份数PB的训练数据集不仅耗费时间，而且并不现实。根据设计，大多数对象存储系统都不需要备份。与其相反，它们存储的数据具有足够的冗余，因此始终受到保护。由于对象存储解决方案通常被设计为分布式架构(并行运行的分布式服务器的集合，不需要使用特殊机器来提供或管理特定服务)，因此所有职责都是分开的，不需要采用中央“控制”的机器。因此，其架构中的单点故障(SPOF)的风险为零。分布式对象存储系统具有自我修复功能，可以提供极高的数据持久性。系统可以配置为容忍多个节点甚至分布式数据中心发生的故障。

•固有的元数据搜索和分类

在构建和训练有效的机器学习模型所需的数据准备阶段中，必须有详细的描述性元数据，这使得轻松标记、搜索、定位和分析数据成为可能。存储架构会影响收集元数据的能力。文件和块系统不支持应用程序或用户定义的扩展属性，但对象存储系统提供了独特的方法，可以使用极其丰富、可自定义的元数据来标识数据。其不受限制的性质使标签易于标记、具有强大而快速的可搜索性，以及有效管理大型数据集。

•多租户功能

通过多租户隔离工作负载，使多个数据科学家团队可以同时使用同一数据源，而不会互相影响或争夺资源。为服务多租户用例而设计的对象存储系统使得从一个可扩展的、与AWS S3兼容的接口中安全地管理租户数据变得更加简单。

•持续的吞吐量性能可缩短训练时间

（编辑：信阳站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

大数据项目可能出错的	MPP与Hadoop 两种主流
数据指标 VS 标签体系	几时使用机器学习