亚马逊AWS官方博客

Category: Analytics

语义搜图检索方案

图像检索(包括文搜图和图搜图)是各个行业中常见的一个应用场景。比如在电商场景中,基于以图搜图做相似商品查找;在云相册场景中,基于文搜图来找寻所需的图像素材……在本文中,我们将介绍两种基于语义的搜图检索方式以及部署方案,您可以实际测试两种方式在特定应用场景下的搜索率以及搜索的准确性,并选择更加适合的方案使用。

CDC 一键入湖:在 Amazon EMR Serverless 上运行 Apache Hudi DeltaStreamer

Apache Hudi 的 DeltaStreamer 是一种以近实时方式摄取数据并写入 Hudi 表的工具类,自 `0.10.0` 版开始,Hudi 在 DeltaStreamer 的基础上增加了基于 Debezium 的 CDC 数据处理能力。另一方面,越来越多的 Amazon EMR 的用户开始使用 Amazon EMR Serverless。一个是“全配置”的 Hudi 工具类, 一个是“开箱即用”的 Spark 运行环境,两者结合在一起,仅通过一条命令,就可以轻松实现 CDC 数据入湖。