亚马逊AWS官方博客
Category: Analytics
使用 Amazon DataZone 和 Open Lineage 实现数据血缘
在 Amazon DataZone 中,已经实现了与 OpenLineage 兼容的数据血缘功能,帮助我们捕获、存储和可视化数据移动时产生的血缘。我们将详细地介绍如何在 Amazon DataZone 使用 OpenLineage 捕获和展示数据血缘。
深度剖析 – 基于亚马逊云科技使用 Apache DolphinScheduler 进行数据任务调度
pache DolphinScheduler 是一个分布式、可扩展的开源工作流编排平台,拥有强大的 DAG 可视化界面。目前 DolphinScheduler 已经原生集成了亚马逊云科技的大部分数据服务,如 EMR、Redshift、DMS、DataSync、Athena、S3。本文将详细介绍 DolphinScheduler 的云原生容器化部署 Amazon EKS。详细解释如何结合亚马逊云科技的任务插件、数据源插件、存储插件的集成。帮助更高效地使用 DolphinScheduler 进行云服务调用。
基于开源工具构建 EMR 数据分析平台(五)EMR 最佳实践
本文系统的从版本选择、节点选择、自动扩缩机制、集群配置等各个角度介绍和总结了常用的 EMR 最佳实践,从性能、可靠性、成本多方面阐述了 EMR 的优化方案和原理,最后通过项目实践展示了应用最佳实践后的效果,进一步验证了基于 EMR 和开源组件构建的数据分析平台在性能、成本和可靠性上的优势。
基于开源工具构建 EMR 数据分析平台(四)使用 Kyuubi 进行 Spark SQL 任务提交
通过将 Kyuubi 与 DolphinScheduler 集成,可以轻松实现 Spark Sql 任务的调度和管理,进一步提升了大数据工作流的效率和可视化管理能力。Kyuubi 在数据分析和处理场景中提供了强大的支持,为企业级大数据处理提供了一个灵活且高效的解决方案。
基于开源工具构建 EMR 数据分析平台(三)使用 DolphinScheduler 进行 EMR 任务调度
本文介绍了如何在基于开源工具构建的 EMR 数据分析平台中,通过引入 Apache DolphinScheduler,实现对 EMR 任务的统一管理和调度。DolphinScheduler 不仅提供了可视化的任务编排界面,还支持多种任务提交方式,能够满足不同场景下的 EMR 任务调度需求。
在 AWS EC2 上快速部署 NebulaGraph:图数据分析实战
随着数据关联性的日益增强,传统关系型数据库在处理复杂关系和大规模连接查询时表现出瓶颈。图数据库以其强大的关系表达能力和高效的遍历性能,成为社交网络、推荐系统、知识图谱等领域的首选技术。NebulaGraph 作为一款开源分布式图数据库,具备高性能、可扩展的特点,适合处理海量图数据。 本文将带你一步步在 AWS EC2 上快速部署 NebulaGraph,并通过一个示例场景完成图数据的生成与分析,帮助你快速上手 NebulaGraph 图数据库的实战应用。
AWS Lake Formation 数据权限管控实践指南:从 EMR 集成到 BI 工具访问控制
本文详细介绍 AWS Lake Formation 数据湖权限管控实践,展示如何通过集中式权限模型实现从元数据到底层数据的精细化访问控制。重点阐述 Lake Formation 与 EMR 的无缝集成及 BI 工具通过 Athena 访问数据时的权限控制,提供完整配置步骤和实战案例,助力企业构建安全可控的数据湖方案。
当 PyIceberg 和 DuckDB 遇见 AWS S3 Tables:打造 Serverless 数据湖“开源梦幻组合”
本文介绍了一套 Serverless 方案,利用 S3 Tables (内置 Iceberg) 存储用户行为数据,并通过 PyIceberg 和 DuckDB 在 AWS Lambda 等环境实现直接、高效的即时查询。无需集群运维,即可低成本地分析 S3 数据,加速用户行为洞察。
基于 Agentic AI + Amazon Redshift MCP Server 实现 Agentic Data Analysis
本文探讨和验证 Agentic AI 与 Amazon Redshift MCP Server 的结合如何实现 Agentic Data Analysis,并展望这一技术在未来数据分析领域的潜力和发展方向。
基于 AWS S3 Tables 构建高效数据分析平台:架构设计与实施要点
在当今数字化转型加速的商业环境中,企业在处理日活数据分析时面临着四大关键痛点: 首先,传统的 Iceberg存 […]