
关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, Amazon SageMaker Lake House, Zero Etl Replication, Application Data Integration, Data Ingestion Challenges, Apache Iceberg Format, Sagemaker Lakehouse Destination]
在当今数据驱动的环境中,组织依赖企业应用程序来管理关键业务流程。然而,将这些数据提取并整合到数据仓库和数据湖中可能会很复杂。本次会议探讨了一种新的零ETL功能,它简化了从Salesforce、ServiceNow和Zendesk等企业应用程序通过Amazon Glue将数据摄取到Amazon SageMaker Lakehouse和Amazon Redshift的过程。了解零ETL如何自动化提取和加载过程,利用有价值的SaaS数据扩展您的分析和机器学习解决方案。
以下是小编为您整理的本次演讲的精华。
在不断演进的数据驱动解决方案的领域中,从不同来源无缝集成和复制数据一直是一个巨大的障碍。企业面临着从无数应用程序、数据库和设备访问和整合信息的复杂性,每个系统都有其独特的协议和数据结构。这种异构系统的错综复杂织锦传统上需要开发复杂的提取、转换和Load (ETL)管道,需要专门的技能和大量的时间和资源投入。
展开剩余91%认识到这一普遍挑战,亚马逊云科技已着手推进一项彻底革新数据集成范式的宏伟计划。推出零ETL倡议,这种突破性的方法旨在消除为常见场景构建自定义ETL管道的需求,亚马逊云科技的目标是让客户专注于核心业务目标,而不是纠缠于数据摄取和复制的复杂性。
这一倡议的核心是对企业所面临的多样化数据环境的深刻理解。Amazon Glue和Amazon AppFlow的工程主管Nitin Bhadhur清楚阐述了这一挑战的多方面性质,他说:“您的数据存储在多个应用程序中,并由多个应用程序生成。”他强调了软件即服务(SaaS)应用程序、本地部署以及多云和混合架构日益增长的趋势。这种异构生态系统,加上无数数据库、物联网设备和应用程序,构成了一个复杂的织锦,需要统一的数据集成方法。
利用来自所有应用程序的数据构建智能AI和分析解决方案已成为企业寻求获得竞争优势的当务之急。然而,数据孤岛已成为实现这一目标的巨大障碍。Nitin Bhadhur强调将数据整合到单一存储库的必要性,他说:“如果你真的想构建利用所有应用程序数据的智能AI和分析解决方案,那么你需要将数据集中到一个地方。数据孤岛将无法帮助实现这一目标。”
深入探讨复制过程中固有的技术复杂性,Nitin Bhadhur阐明了挑战所在。“如果有新数据生成,将新数据从应用程序移动到目的地相对容易,传统ETL管道在这方面做得很好,”他解释道。然而,当涉及数据更新和删除时,挑战就会升级。无缝捕获和应用这些更改到目的地是真正复制的关键方面,否则可能导致错误的洞见和有缺陷的业务决策。他举了一个生动的例子:“想象你有一家汽车销售公司,你去经销商那里,经销商本应获得一批汽车。今天他们应该得到很多汽车,而你正在等待其中一辆,但只来了10辆。他们的库存系统之前记录了10辆汽车,但当只有10辆到达时,他们就删除了那10辆,因为那10辆实际上并没有到达。现在,当你复制时,你希望这个删除操作也反映在目的地上,因为那些基于复制数据进行分析查询的人,他们将获得对实际发生情况的错误理解。”
Nitin Bhadhur进一步阐述了数据复制过程中模式更新的复杂细微差别,这是一个关键考虑因素。“每家公司都有员工记录的概念。有一天,有人决定在员工记录模式中添加几个字段。现在你必须检测到模式发生了变化,并相应地更新目的地,”他解释道。虽然添加字段相对简单,但当字段被修改或删除时,复杂性就会增加,正如他所举例:“当模式发生变化并删除时,情况就变得非常困难,例如,有人决定将整数类型改为字符串,或者有人查看员工记录的模式并说这个字段已经5年没有使用了。让我们直接删除它吧。这是技术债务。现在他们突然在源应用程序上改变了模式,这种删除需要在目的地上镜像。”
为了应对这些多方面的挑战,亚马逊云科技采取了两管齐下的方法,分别针对数据湖和数据仓库。对于数据湖,选择Apache Iceberg作为摄取数据的表格式是一个战略性选择。广泛采用并得到强大开源工具支持的Apache Iceberg提供了一系列优势,包括随着数据量增长通过定期压缩和分区表来提高查询效率。Nitin Bhadhur解释说:“当你不断向Iceberg表添加更多数据时,可能会产生大量小文件,如果有大量小文件,就会影响查询性能。因此我们意识到,如果想要有效查询,就必须定期压缩Iceberg表,并且随着数据增长,你必须再次确保它得到良好分区,以免影响查询性能。”
在数据仓库领域,亚马逊云科技认识到在周期性摄取数据的同时保持查询性能的需求。Nitin Bhadhur解释说:“数据仓库为客户提供了自己的查询SLA。当数据周期性地被摄取到数据仓库时,我们必须确保不会影响查询SLA。”在设计零ETL解决方案时,如何在不影响查询性能的情况下容纳模式更改、记录删除和内部数据结构更新是一个关键考虑因素。
零ETL倡议源于对客户挑战和技术复杂性的深刻理解,已发展成为一套全面的全托管集成。亚马逊云科技 Principal Product Manager Sean Ma阐述了这种突破性方法的核心原则。“零ETL是亚马逊云科技提供的一组全托管集成,目标是消除或最小化为常见场景构建ETL数据管道的需求,涉及数据摄取和复制,”他说。
认识到应用程序在存储关键任务数据方面的重要作用,最近推出的零ETL扩大了范围,涵盖了Salesforce、ServiceNow、Zendesk、Salesforce Marketing、Facebook、Instagram Ads、Zoho CRM和SAP等多种应用程序。这一战略举措承认企业整合和利用这些应用程序数据的迫切需求,使他们能够推动AI的采用、简化分析并基于数据做出明智的业务决策。
其中一家客户罗氏公司是一家跨国制药和诊断公司,面临着将Salesforce数据摄取到Amazon S3上的数据湖以进行机器学习的挑战。他们的目标是结合公共和私有数据,利用AI和ML模型加快上市策略并获得宝贵洞见。然而,正如罗氏公司代表Janek Missteli博士所说:“最大的挑战是在不必构建和维护这些大型定制集成的情况下,以高效的方式从各个地方复制数据到数据湖。”
此外,与Amazon SageMaker Lakehouse的集成代表了零ETL之旅的一个重要里程碑。SageMaker Lakehouse是一种统一体验,将亚马逊云科技服务集成在一起,实现了跨数据仓库、数据湖、操作数据库和现在的应用程序的统一数据访问,已成为零ETL复制的关键目的地。Sean Ma阐述了这一集成的好处,他说:“Lakehouse是那个单一副本,让你可以在Redshift的高性能存储和S3的规模之间获益。”这个由Amazon Lake Formation和Glue数据目录管理的统一数据存储库,利用开放的Iceberg API,实现了与零ETL摄取和复制的无缝集成。
零ETL的优势不仅仅是数据整合;它还包括加速洞见、民主化摄取过程和确保成本效益的整体方法。Sean Ma将无代码界面视为民主化的关键推动力,允许更多人访问和利用数据洞见,而无需专门技能。“它也非常经济高效,但经济高效有两种不同的方式,”他补充说,强调了按使用付费模式和消除额外许可或连接器费用的优势。
维护和适应性同样是零ETL解决方案的关键方面。随着应用程序的发展和API的变化,亚马逊云科技将负责维护连接器和管道,确保无缝运行,免去客户管理这些复杂性的负担。“我们将维护连接器,确保它们保持最新。管道也由亚马逊云科技维护,所以如果出现问题,我们有责任查明问题所在并加以解决。你不必为此操心,”Sean Ma保证说。
为进一步阐述零ETL的实际实施,大数据高级销售架构师Carmen提供了技术深度解析和真实世界演示。她将零ETL数据管道比作传统方法,关键区别在于智能连接器不仅能够摄取数据,还能够理解其结构并将其转换为与SageMaker Lakehouse兼容的标准化格式。
卡门走过了零ETL集成的三个基本组件:选择数据源、选择要摄取的对象或表以及指定目标目的地。演示展示了初始加载过程,其中源系统中的所有数据都被复制到目标系统,然后是捕获和应用数据变更(包括插入、更新和删除)的复杂过程。她强调了一个重大改进:“我们在这里做的一个巨大改进实际上是让您能够在单个集成中选择多个对象。”这种简化的方法允许用户在继续集成之前预览数据模式和示例数据。
利用Apache Iceberg的强大功能,零ETL不仅复制数据,还保留了模式演化,从而实现了时间旅行并提供了数据转换的全面审计跟踪。卡门演示了查询版本化数据的能力,展示了如何跟踪记录删除以及随着时间推移获得数据和模式演化的见解。她执行了查询来说明数据变更的前后状态,例如机会状态的更新和记录删除。
演示最后展示了零ETL的运营方面,在CloudWatch Logs中记录了数据变更。卡门强调了详细的日志,其中捕获了初始记录计数为31,然后插入了3条新记录并删除了1条记录,与演示期间所做的更改一致。这种透明度和可审计性进一步加强了零ETL解决方案的健壮性和可靠性,确保客户可以信赖复制数据的完整性。
在演讲接近尾声时,Sean Ma重申了零ETL的核心价值主张,强调了它从各种数据源摄取和复制数据的能力。他强调了该计划的主要目标:让客户尽快从他们的数据中获得洞见,而无需设置和维护复杂的管道。
为了证实零ETL的现实世界影响,Sean Ma分享了一些尊贵客户采用这一变革性解决方案的成功案例。罗氏(Roche)是一家跨国制药和诊断公司,发现零ETL是一个游戏规则改变者,将他们的数据集成时间缩短了70%,相关成本降低了50%。Idealista是一家西班牙房地产上市公司,赞扬零ETL简化了他们的数据基础架构并简化了维护流程。此外,Tableau(Salesforce的子公司和零ETL的发布合作伙伴)认识到该计划有助于加速他们的客户从各种数据源获取洞见,与他们的可视化平台无缝集成。
在数据已成为现代企业生命线的世界里,零ETL计划代表了数据集成和复制的范式转变。通过消除构建和维护自定义ETL管道的复杂性,亚马逊云科技使客户能够专注于他们的核心竞争力,推动创新并释放他们的数据资产的全部潜力。
随着企业继续探索不断扩展的应用程序、数据库和设备领域,零ETL解决方案将成为简单和高效的指路明灯。通过与Amazon SageMaker Lakehouse无缝集成,企业现在可以利用统一数据存储库的优势,同时享受数据仓库和数据湖的双重优势,确保数据的新鲜度和运营弹性。
通往真正数据驱动智能的旅程已经迈出了重要一步,零ETL计划有望成为数字化转型的催化剂,使企业能够释放新的洞见领域,推动人工智能的采用,并在日益数据化的世界中开辟持续竞争优势之路。
下面是一些演讲现场的精彩瞬间:
一位学生解释了生成式人工智能如何帮助理解和回答复杂的论文问题,以助于他们的学习。
强调在数据复制过程中捕获删除操作的重要性,以确保获得准确的业务洞见。
在数据复制场景中,解决处理模式更新的挑战,尤其是模式删除和数据类型更改。
亚马逊的零 ETL 服务通过自动化管道和连接器管理来简化数据集成,消除了额外的许可费用,并提供按使用付费模式,实现无缝数据摄取和处理。
亚马逊云科技 零 ETL 集成首先执行初始数据加载,然后持续复制源系统中的数据变更,简化了传统 ETL 管道的构建。
演讲者演示了在亚马逊 Athena 中轻松创建 Salesforce 连接的过程,重点介绍了两个重要构造:创建指向亚马逊 S3 存储桶的数据库,以及设置带有 URL、身份验证机制和凭证存储的连接。
演讲者邀请观众扫描二维码,了解有关零 ETL 及其新的应用程序和 Lakehouse 支持功能的更多信息。
在一段引人入胜的叙述中,演讲者们揭开了亚马逊云科技的开创性零ETL解决方案,旨在简化从各种应用程序向Amazon SageMaker Lakehouse和Redshift的数据摄取和复制。受到一个关于帮助女儿学习的个人轶事的启发,Amazon Glue和Amazon AppFlow的工程主管Nitin Bhadhur着手简化复杂的数据集成领域。
挑战的关键在于各种应用程序所展现的多种协议、API和行为,使得数据复制成为一项艰巨的任务。真正的复制需要准确捕获插入、更新、删除和模式更改,以确保数据完整性并实现精确的业务洞察。传统的ETL管道往往无法解决这些复杂性,促使亚马逊云科技创新出一种无代码的无缝解决方案。
在主题演讲中推出的零ETL引入了从Salesforce、ServiceNow、Zendesk和Facebook/Instagram Ads等流行应用程序直接向Amazon SageMaker Lakehouse摄取数据的支持。这个统一平台结合了Redshift的性能优势和S3的可扩展性,利用Apache Iceberg的开放表格式,实现了时间旅行、模式演化和跨多个可用区的数据持久性。
通过现场演示,Carmen展示了配置零ETL集成、预览数据以及从Salesforce复制更改到SageMaker Lakehouse的简单性。在复制数据上进行SQL分析的强大功能,包括跟踪更新、插入和删除,得到了展示,凸显了该解决方案加速洞察力的能力,同时最小化了运营开销。
最后,Sean Ma强调了零ETL的关键优势:加速洞见时间、通过按使用付费定价实现成本效益,以及通过将运营复杂性卸载到亚马逊云科技上简化维护。罗氏、Idealista和Tableau等早期采用者赞扬了该解决方案的影响,减少了数据集成时间、降低了成本并简化了架构,为所有人都能触及数据驱动洞见的未来铺平了道路。
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。
发布于:新加坡久联优配提示:文章来自网络,不代表本站观点。