亚马逊如何利用数据湖解决大数据挑战

发布时间：2023-01-06 11:23:49 所属栏目：大数据来源：

导读：　　亚马逊的零售业务在全球拥有175个配送中心，每天超过25万员工运送数百万件商品

　　对于亚马逊全球运营团队来说，任务艰巨，因为其业务产生的数据非常大，都是PB级的。错误的分析指标，可能就会产生巨大的

　　亚马逊的零售业务在全球拥有175个配送中心，每天超过25万员工运送数百万件商品

　　对于亚马逊全球运营团队来说，任务艰巨，因为其业务产生的数据非常大，都是PB级的。错误的分析指标，可能就会产生巨大的损失。

　　该团队一直在寻找更有效管理和利用如此庞大数据的办法。

　　2019年团队内部产生了一个idea，建立一个可以支持地球上最大物流网络的数据湖——Galaxy数据湖，现在所有团队正努力将数据移入其中。

　　数据湖是一个集中式安全存储库，可让以任何规模存储，管理，发现和共享所有结构化和非结构化数据。

　　数据湖不需要预定义的架构，因此可以处理原始数据而不必知道将来可能要探索的见解。

　　下图显示了数据湖的关键组件：

　　zara 亚马逊沃尔玛如何使用大数据_亚马逊大数据_亚马逊大数据应用

　　大数据的挑战

　　亚马逊面对大数据的挑战与许多其他公司所面临的挑战相似：数据孤岛，分析各种数据集的难度，数据控制器能力，数据安全性以及整合机器学习。

　　数据湖如何帮助它们

　　选择创建数据湖的主要原因是要打破数据孤岛

　　为了在国际上扩张并快速创建新的运输计划，大多数运营计划团队一直在控制自己的数据和技术。所以，数据以不同的方式存储在不同的位置。这种方法使每个团队都能解决问题，响应客户需求并更快地进行创新。

　　但是，很难在组织和公司范围内理解数据。它需要从许多不同来源手动收集数据。如此众多的团队独立运作，失去了通过共同解决问题而可以实现的效率。

　　从数据中获取详细细节也是困难的，因为不是每个人都可以访问各种数据存储库。对于较小的查询，大部分可能只是在电子表格中共享一部分数据。

　　所以，当数据超出电子表格的容量时，就会遇到挑战，大型企业通常会遇到这种情况。

　　数据湖通过将所有数据合并到一个中央位置来解决此问题。

　　分析各种数据集

　　5G将加速万物互联，来自“物联网”设备（例如，配送中心机器上的传感器）的非结构化数据也越来越多。

　　如果您想在没有数据湖的传统数据仓库中合并所有这些数据，则将需要大量数据准备以及导出，转换和加载或ETL操作。您将不得不权衡要保留的内容和丢失的内容，并不断更改刚性系统的结构。

　　数据湖可让您以任何格式导入任何数量的数据，因为没有预定义的架构。

　　将所有数据移至数据湖也可以改善传统数据仓库的功能。可以灵活地将高度结构化，随时访问的数据存储在数据仓库中，同时还可以在数据湖存储中保留多达EB的结构化，半结构化和非结构化数据。

　　管理数据访问

　　由于数据存储在很多地方，因此很难访问所有数据并链接到外部工具进行分析。

　　亚马逊的运营财务数据分布在25多个数据库中，区域团队创建了自己的本地数据集。这给管理和调用带来了很大的挑战。

　　使用数据湖，可以在正确的时间将正确的数据提供给正确的人变得更加容易。不必管理对存储数据的所有不同位置的访问。

　　数据湖具有允许授权用户查看，访问，处理或修改特定资产的控件。

　　数据湖还有助于确保防止未经授权的用户采取可能损害数据机密性和安全性的措施。

　　数据也以开放格式存储，这使得使用不同的分析服务更加容易。开放格式还使数据更有可能与尚不存在的工具兼容。

　　组织中的各种角色亚马逊大数据，例如数据科学家，数据工程师，应用程序开发人员和业务分析师，都可以使用他们选择的分析工具和框架来访问数据。

　　加速机器学习

　　数据湖是机器学习和人工智能的强大基础，因为它有着庞大而多样化的数据。

　　机器学习使用从现有数据中学习的统计算法（一个称为训练的过程）来做出有关新数据的决策（一个称为推理的过程）。

　　在训练期间，将识别数据中的模式和关系以建立模型。

　　该模型使您能够对从未遇到过的数据做出明智的决策。您拥有的数据越多，就越可以训练您的机器学习模型，从而提高准确性。

　　亚马逊全球运营财务团队的最大职责之一是计划和预测亚马逊供应链的运营成本和资本支出，其中包括整个运输网络，数百个配送中心，分拣中心，配送站，全食超市，新鲜采摘场。上升点等等。

　　他们帮助回答重要的高级问题，例如“明年我们将运送多少包裹？”和“我们将在薪水上花费多少？”，还解决非常具体的问题，例如“下个月佛罗里达州需要每种尺寸的箱子多少个？”

　　预测越准确，越能提高业务效率和节省成本。如果估计太低或太高，都可能产生负面影响，从而影响您的客户和利润。

　　例如，

　　在亚马逊，如果预测需求太低，则配送中心的仓库工人可能没有足够的供应或驱动程序不足，这可能导致包裹延迟，更多的客户服务电话，订单被取消以及失去客户信任。

　　如果我们预测过高，您可能会在仓库中闲置库存和箱子，占据宝贵的空间。这种情况意味着对需求量更高的产品的空间较小。

　　像亚马逊这样的大多数组织都花费大量时间来预测未来。

　　去年，亚马逊运营财务团队进行了测试。

　　他们采用了一部分预测，并将传统的手动流程与Amazon Forecast进行了比较。AmazonForecast是一项完全托管的服务，使用机器学习来提供高度准确的预测。在此试运行中，由Forecast所完成的预测平均比通过手动过程完成的预测准确67％。

　　通过将所有数据移至数据湖，亚马逊的运营财务团队可以结合数据集来训练和部署更准确的模型。使用更相关的数据来训练机器学习模型可以提高预测的准确性。

　　此外，它还释放了手动执行此任务的员工来执行更具战略意义的项目，例如分析预测以推动现场运营的改善。

　　AWS上的Galaxy

　　亚马逊的零售业务使用某些技术，该技术早于2006年开始创建Amazon Web Services。在过去十年中，为了变得更具可扩展性，效率，性能和安全性，亚马逊零售业务中的许多工作负载已迁移到AWS。

　　Galaxy数据湖是内部称为Galaxy的大型大数据平台的重要组成部分。

　　下图显示了Galaxy依赖AWS的某些方式以及它使用的某些AWS服务：

　　亚马逊大数据_zara 亚马逊沃尔玛如何使用大数据_亚马逊大数据应用

　　Galaxy数据湖基于Amazon的Simple Storage Service或对象存储服务S3构建。

　　一些数据还存储在基于Amazon专有文件的数据存储中，即Andes和Elastic Data eXchange，它们都是Amazon S3之上的服务层。

　　其他一些数据源是数据仓库 Amazon Redshift ，Amazon Relational Database Service或RDS以及企业应用程序。

　　AWS Glue 是一项完全托管的ETL服务，可让您轻松准备和加载数据以进行分析，并且AWS Database Migration Service或DMS 用于将各种数据集加载到Amazon S3。

　　Galaxy将来自多种服务（包括Amazon Redshift，Amazon RDS和AWS Glue数据目录）的元数据资产合并到基于Amazon DynamoDB（键值和文档数据库）构建的统一目录层中。

　　Amazon Elasticsearch Service或 ES 用于在目录上启用更快的搜索查询。

　　在对数据进行分类或装入后，将在客户端层使用各种服务。

　　例如，交互式查询服务Amazon Athena，用于使用标准SQL进行临时探索性查询；Amazon Redshift，一项用于更结构化的查询和报告的服务；和Amazon SageMaker，用于机器学习。

　　AWSLake

　　亚马逊团队从头开始创建了Galaxy数据湖架构。他们在几个月内手动开发许多组件。在2019年8月，AWS发布了一项名为AWS Lake Formation的新服务。

　　可以简化数据湖的创建过程，并在几天（而不是几个月）内构建一个安全的数据湖。

　　Lake Formation帮助从数据库和对象存储中收集和分类数据，将数据移至新的Amazon S3数据湖中，使用机器学习算法对数据进行清理和分类，以及安全访问敏感数据。

（编辑：草根网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!