Amazon DocumentDB(与 MongoDB 兼容弄)常见问题

一般性问题

Amazon DocumentDB(与 MongoDB 兼容)是一项快速、可扩展、高度可用且完全托管的企业文档数据库服务,支持原生 JSON 工作负载。作为一个文档数据库,Amazon DocumentDB 使得存储、查询和索引 JSON 数据变得简单。开发人员可以使用与今天相同的 MongoDB 应用程序代码、驱动程序和工具来运行、管理和扩展 Amazon DocumentDB 上的工作负载。享受改进的性能、可扩展性和可用性,而无需担心底层基础设施的管理。

客户可以使用 AWS Database Migration Service(DMS),轻松地将本地部署或 Amazon Elastic Compute Cloud(EC2)MongoDB 非关系数据库迁移到 Amazon DocumentDB,并且几乎不会出现停机。使用 Amazon DocumentDB 无需前期投资,客户只需为他们使用的容量付费。

针对文档的数据库是 noSQL 数据库中增长最快的类别之一,主要原因是文档数据库既提供了灵活的模式,又提供了广泛的查询能力。对于那些需要特别查询、索引和聚合的动态数据集,文档模型是一个很好的选择。Amazon DocumentDB 的规模十分广泛,它被各种各样的客户用于内容管理、个性化、目录、移动和网络应用、物联网和档案管理等用例。

“与 MongoDB 兼容”意味着 Amazon DocumentDB 可与 Apache 2.0 开源 MongoDB 3.6、4.0 和 5.0 API 进行交互。因此,您可以将相同的 MongoDB 驱动程序、应用程序和工具与 Amazon DocumentDB 配合使用,但只需进行少量更改或无需任何更改。虽然 Amazon DocumentDB 支持客户实际使用的绝大多数 MongoDB API,但它不支持所有的 MongoDB API。我们的重点一直是提供客户实际使用和所需的功能。

自推出以来,我们一直在与客户展开逆向思维合作,并提供了另外 80 多项功能,包括 MongoDB 4.0 和 5.0 兼容性、事务处理和分片。要了解有关支持的 MongoDB API 的更多信息,请参阅兼容性文档。要了解有关最近 Amazon DocumentDB 发布的更多信息,请参阅 Amazon DocumentDB 资源页面上的“Amazon DocumentDB 公告”。

否。Amazon DocumentDB 不使用任何 MongoDB SSPL 代码,因此不受此许可证的限制。相反,Amazon DocumentDB 可与 Apache 2.0 开源 MongoDB 3.6、4.0 和 5.0 API 进行交互。我们将继续倾听客户的心声,与他们开展逆向思维合作,以提供他们所需的功能。要了解有关支持的 MongoDB API 的更多信息,请参阅兼容性文档。要了解有关最近 Amazon DocumentDB 发布的更多信息,请参阅 Amazon DocumentDB 资源页面上的“Amazon DocumentDB 公告”。

客户可以使用 AWS Database Migration Service(DMS),轻松地将本地部署或 Amazon Elastic Compute Cloud(EC2)MongoDB 数据库迁移到 Amazon DocumentDB,并且几乎不会出现停机。借助 DMS,您可以从 MongoDB 副本集或从分片式集群迁移到 Amazon DocumentDB。此外,您还可以使用大多数现有工具将数据从 MongoDB 数据库迁移到 Amazon DocumentDB,包括 mongodump/mongorestore、mongoexport/mongoimport 以及通过操作日志为变更数据捕获(CDC)提供支持的第三方工具。有关更多信息,请参阅迁移到 Amazon DocumentDB

不需要,Amazon DocumentDB 可以与大多数兼容 MongoDB 3.4+ 的 MongoDB 驱动程序配合使用。

符合。发布了对 MongoDB 4.0 兼容性的支持后,Amazon DocumentDB 支持跨多个文档、语句、集合和数据库执行原子性、一致性、隔离性、持久性(ACID)事务处理

不需要,Amazon DocumentDB 不遵守相同的支持生命周期,因为 MongoDB 和 MongoDB 的 EOL 计划不适用于 Amazon DocumentDB。

Amazon DocumentDB 集群部署在客户的 Amazon VPC(VPC)中,并且可由部署在同一 VPC 中的 Amazon Elastic Compute Cloud(EC2)实例或其他 AWS 服务直接访问。此外,Amazon DocumentDB 还可供部署在同一区域或其他区域的不同 VPC 中的 Amazon EC2 实例或其他 AWS 服务通过 VPC 对等连接访问。您必须通过 Mongo Shell 或 MongoDB 驱动程序访问 Amazon DocumentDB 集群。Amazon DocumentDB 要求您在连接到集群时进行身份验证。有关其他选项,请参阅从 Amazon VPC 外部连接到 Amazon DocumentDB 集群

对于一些管理功能,例如实例生命周期管理、使用 Amazon Key Management Service(KMS)密钥加密静态数据和安全组管理,Amazon DocumentDB 利用了与 Amazon Relational Database Service(RDS)和 Amazon Neptune 共享的操作技术。使用 describe-db-instances 和 describe-db-clusters AWS CLI API 时,建议使用以下参数筛选 Amazon DocumentDB 资源:“--filter Name=engine,Values=docdb”。

请参阅 Amazon DocumentDB 定价页面,了解在每个区域可用的实例类型的最新信息。

要试用 Amazon DocumentDB,请参阅入门指南

符合。有关更多信息,请参阅 Amazon DocumentDB(与 MongoDB 兼容)服务等级协议

性能

在写入存储时,Amazon DocumentDB 只保留预写式日志,不需要写入完整的缓冲区页面同步数据。这种优化不会影响持久性,因此 Amazon DocumentDB 的写入速度通常比传统数据库快。Amazon DocumentDB 集群可以横向扩展到每秒数百万次读取,最多可读取 15 个副本

定价

请参阅 Amazon DocumentDB 定价页面,了解有关区域和价格的最新信息。

可以。您现在可以免费试用 Amazon DocumentDB 1 个月。如果您之前没有使用过 Amazon DocumentDB,则符合免费试用一个月的条件。您的企业每月可免费享有 750 小时的 t3.medium 实例使用时间、3000 万次 IO、5GB 存储和 5GB 备份存储,为期 30 天。如果您的一个月免费试用到期或者您的使用时长超过免费限额,您可以关闭集群,从而避免产生任何费用,或者保留集群并按我们的标准按需费率支付费用。详情请参阅 DocumentDB 免费试用页面

当您需要可预测的成本或具有 I/O 密集型应用程序时,Amazon DocumentDB I/O 优化版是理想的选择。如果您预计 I/O 成本超过 Amazon DocumentDB 数据库总成本的 25%,则此选项可提供更高的性价比。请参阅我们的 Amazon DocumentDB I/O 优化版文档以了解更多信息,包括如何开始。

您可以每 30 天将现有数据库集群切换到 Amazon DocumentDB I/O 优化版。您可以随时切换回 Amazon DocumentDB 标准存储配置。

是的,跨区域复制数据所需的 I/O 操作将继续收取费用。Amazon DocumentDB I/O 优化版不对读取和写入 I/O 操作收费,这与数据复制不同。要了解更多信息,请参阅我们的 Amazon DocumentDB I/O 优化版文档

Elastic Clusters

借助 Amazon DocumentDB Elastic Clusters,能够弹性扩展文档数据库,处理数百万次写入和读取操作,存储容量为 PB 级。Elastic Clusters 可自动管理底层基础设施,且无需创建、删除、升级或扩展实例,从而简化了客户与 Amazon DocumentDB 的交互方式。

您可以使用 Amazon DocumentDB API、SDK、CLI、CloudFormation(CFN)或 AWS 管理控制台创建 Elastic Clusters 集群。预置集群时,需要指定工作负载所需的分片数量和每个分片的计算量。创建集群后,便可以开始利用 Elastic Clusters 的弹性可扩展性了。现在,您可以连接到 Elastic Clusters 集群并从应用程序读取或写入数据。Elastic Clusters 具有弹性。根据工作负载的需要,可以通过使用 AWS 管理控制台、API、CLI 或 SDK 修改分片数量和/或每个分片的计算量来添加或删除计算。Elastic Clusters 将自动预置/取消预置底层基础设施,并重新平衡数据。

Elastic Clusters 使用分片在 Amazon DocumentDB 的分布式存储系统中对数据进行分区。分片(也称为分区)可将大型数据集跨多个节点拆分为小型数据集,从而使客户能够超越单个数据库的垂直扩展限制横向扩展数据库。Elastic Clusters 利用 Amazon DocumentDB 中的计算与存储相分离的特性。Elastic Clusters 可以在分布式存储系统内高效地复制数据,而不是通过在计算节点之间移动小数据块来对集合重新分区。

Elastic Clusters 支持基于哈希的分区。

利用 Elastic Clusters,无论数据大小如何,都可以轻松地在 Amazon DocumentDB 上横向扩展或横向缩减工作负载,通常情况下,几乎没有应用程序停机或性能影响。MongoDB 上的类似操作会影响应用程序性能,且需要数小时,有时甚至数天。Elastic Clusters 还提供了差异化的管理功能,如无影响备份和快速时间点还原,使客户能够将更多的时间集中在应用程序上,而不是管理数据库上。

不需要。无需对应用程序进行任何更改即可使用 Elastic Clusters。

不可以,在近期内,您可以利用 AWS Database Migration Service (DMS) 将数据从现有的 Amazon DocumentDB 集群迁移到 Elastic Clusters 集群。

为 Elastic Clusters 选择最佳分片键与其他数据库没有任何区别。好的分片键有两个特性 – 高频率和高基数。例如,如果应用程序将 user_orders 存储在 DocumentDB 中,那么通常必须按用户检索数据。因此,您希望与给定用户相关的所有订单都位于一个分片中。在这种情况下,user_id 将是一个很好的分片键。阅读更多信息。 

  • Elastic Clusters:一种 Amazon DocumentDB 集群,可将工作负载的吞吐量扩展到每秒数百万次读取/写入,并将存储容量扩展到 PB 级。Elastic Clusters 集群由一个或多个用于计算的分片和一个存储卷组成,具有高可用性,默认情况下,可跨多个可用区使用。
  • 分片:分片为 Elastic Clusters 集群提供计算。默认情况下,一个分片有三个节点,一个写入器节点和两个读取器节点。最多可以有 32 个分片,每个分片最多可以有 64 个 vCPU。
  • 分片键:分片键是 JSON 文档中的一个可选字段,Elastic Clusters 使用它将读写流量分配给匹配的分片。建议您选择具有许多唯一值的键。好的分片键将在底层分片之间均匀地对数据进行分区,为工作负载提供最佳的吞吐量和性能。 
  • 分片集合:数据分布在 Elastic Clusters 集群中的集合。

Elastic Clusters 与其他 AWS 服务的集成方式与目前的 DocumentDB 相同。首先,可以使用 AWS Database Migration Service(DMS)从 MongoDB 和其他关系数据库迁移到 Elastic Clusters。其次,可以使用 Amazon CloudWatch 监控 Elastic Clusters 集群的运行状况和性能。第三,可以通过 AWS IAM 用户和角色设置身份验证和授权,并使用 AWS VPC 建立只支持 VPC 的安全连接。最后,可以使用 AWS Glue 将数据导入到其他 AWS 服务(如 S3、Redshift 和 OpenSearch)以及从其他服务导出数据。

符合。可以将现有的 MongoDB 分片工作负载迁移到 Elastic Clusters。可以使用 AWS Database Migration Service 或原生 MongoDB 工具(如 mongodump 和 mongorestore)将 MongoDB 工作负载迁移到 Elastic Clusters。Elastic Clusters 还支持 MongoDB 的常用 API,如 shardCollection(),从而您能够灵活地在 Amazon DocumentDB 中重用现有的工具和脚本。

硬件、扩展和存储

最低存储为 10GB。根据您的集群使用情况,您的 Amazon DocumentDB 存储将以 10GB 的增量自动增长到 128 TiB,而不会影响性能。使用 Amazon DocumentDB Elastic Clusters,存储将以 10GB 的增量自动增长到 4PB。无论是哪种情况,都无需提前预置存储。

Amazon DocumentDB 在两个维度上扩展:存储和计算。在基于实例的集群中,Amazon DocumentDB 存储空间可自动从 10GB 扩展到 128TiB,而对于 Amazon DocumentDB Elastic Clusters,最多可扩展到 4PB。Amazon DocumentDB 的计算能力可以通过创建更大的实例来纵向扩展,也可以通过向集群中添加额外的副本实例来横向扩展(从而获得更大的读取吞吐量)。

在 AWS 管理控制台中,选择所需的实例并单击“修改”按钮,即可扩展分配至实例的计算资源。您可通过更改实例类来修改内存和 CPU 资源。

修改实例类时,在指定的维护时间将应用您请求的更改。或者,您可以使用“立即应用”标记来立即应用您的扩展请求。当您执行扩展操作时,这两种选项均会造成几分钟的可用性影响。请注意,任何其他待定的系统更改也将同时应用。

备份和还原

Amazon DocumentDB 集群上始终都会启用自动备份。借助 Amazon DocumentDB 简单易用的数据库备份功能,您可以对集群进行时间点恢复。您最多可以将时间点还原的备份时间延长至 35 天。备份不影响数据库性能。

符合。您可以在备份时段以外的时间保留手动快照,而且在拍摄快照时不会影响性能。请注意,从集群快照中还原数据需要创建一个新的集群。

Amazon DocumentDB 可跨一个区域的三个可用区(AZ)自动维护您的数据持久性,并将自动尝试在运行状况正常的可用区恢复您的实例,而不会造成数据丢失。如果您的数据在 Amazon DocumentDB 存储中可用,您可以从集群快照中进行还原或对新集群执行时间点还原操作。请注意,时间点还原操作的最迟可还原时间在过去最长可达 5 分钟。

您可以选择在删除实例时创建最终快照。这样,您便可使用此快照稍后还原已删除的实例。在删除实例后,Amazon DocumentDB 会将这个用户创建的最终快照与所有其他手动创建的快照一起保留。删除实例后只会保留快照(即,为时间点还原创建的自动备份不会保留)。

删除 AWS 账户将删除账户中包含的所有自动备份和快照备份。

符合。借助 Amazon DocumentDB,您可以创建集群快照,以便日后用于还原集群。您可以与其他 AWS 账户共享快照,并且对方可以使用您的快照来还原包含您的数据的集群。您甚至还可以将您的快照公开,这样,任何人都能还原包含您的(公开)数据的集群。您可以使用此功能在拥有不同 AWS 账户的各种环境(生产、开发/测试、模拟等)之间共享数据,也可以将所有数据的备份安全保存到一个单独的账户中,以防主 AWS 账户受到安全威胁。

在账户之间共享快照不需要付费。但是,您需要为快照本身以及通过共享快照还原的任何集群付费。

我们不支持共享自动集群快照。要共享快照,您必须手动创建一个快照,然后共享该快照。

不能。只有与共享快照的账户位于同一区域的账户才能访问您的共享 Amazon DocumentDB 快照。

符合。您可以共享加密的 Amazon DocumentDB 快照。共享快照的接收者必须能够访问用于加密快照的 KMS 密钥。

不能。Amazon DocumentDB 快照只能在该服务内部使用。

您可以选择在删除集群时创建最终快照。这样,您便可使用此快照稍后还原已删除的集群。在删除集群后,Amazon DocumentDB 会将这个用户创建的最终快照与所有其他手动创建的快照一起保留。

高可用性和复制

Amazon DocumentDB 会将您的存储卷分成分散在多个磁盘上的 10GB 分段。存储卷的每个 10GB 组块都能跨三个可用区 (AZ) 以六种方法进行复制。Amazon DocumentDB 的设计能以透明方式应对多达两个数据副本丢失的情况,而不会影响写入可用性,还能在不影响读取可用性的情况下应对多达三个副本丢失的情况。Amazon DocumentDB 的存储卷还具有自我修复能力,可连续扫描数据块和磁盘有无出错并自动修复之。

与其他数据库不同的是,Amazon DocumentDB 在数据库崩溃之后不需要重放最后一个数据库检查点(通常为五分钟)的重做日志,且不需要在数据库可用于操作之前确认所有更改都已应用。在大多数情况下,这会将数据库的重启时间缩短到 60 秒以下。Amazon DocumentDB 会将缓存移出数据库进程,并在重启时使其立即可用。这将防止您限制访问,直到重新填充缓存以避免停止。

Amazon DocumentDB 支持只读副本,这些副本与主实例共享相同的底层存储卷。主实例作出的更新对所有的 Amazon DocumentDB 副本可见。

  • 功能:Amazon DocumentDB 只读副本
  • 副本数量:最多 15 个
  • 复制类型:异步(通常需要数毫秒)
  • 对主实例的性能影响:低
  • 充当失效转移目标:是(无数据丢失)
  • 自动失效转移:是

能,您可以使用全局集群功能跨区域复制数据。全局集群跨越多个 AWS 区域。全局集群将您的数据复制到最多五个区域的集群中,对性能几乎没有影响。全局集群提供在发生区域级故障时进行灾难恢复的能力,并支持低延迟全局读取。要了解详情,请参阅我们的博客文章

符合。您可以为集群中的每个实例指定一个提升优先级分层。如果主实例发生故障,Amazon DocumentDB 会将优先级最高的副本提升为主实例。如果同一优先级分层中的两个或更多副本出现不一致,Amazon DocumentDB 将提升大小与主实例相同的副本。

您随时可以修改实例的优先级分层。单纯地修改优先级分层并不会触发失效转移

如果您不希望副本被提升为主实例,则可为其指定较低的优先级分层。不过,如果集群上优先级较高的副本因为某些原因无法运行或使用,那么 Amazon DocumentDB 将提升优先级较低的副本。

Amazon DocumentDB 可以通过将多个 AWS 可用区中的副本实例用作故障转移目标来采用高可用性配置进行部署。如果主实例发生故障,副本实例将在尽可能不中断服务的情况下被自动提升为新的主实例。

您可以添加额外的 Amazon DocumentDB 副本。Amazon DocumentDB 副本与主实例共享同一个底层存储。任何 Amazon DocumentDB 副本都能在不丢失任何数据的情况下被提升为主实例,因此可以用于在主实例发生故障时提高容错能力。要提高集群可用性,只需在多个可用区中创建 1 到 15 个副本,且 Amazon DocumentDB 会在实例发生故障时自动将其纳入故障转移主选择中。

Amazon DocumentDB 会自动处理失效转移,以便您的应用程序可以尽快恢复数据库操作,而无需人工管理干预。

  • 如果您在相同或不同的可用区中有 Amazon DocumentDB 副本实例,当进行故障转移时,Amazon DocumentDB 会翻转您的实例的规范名称记录(CNAME)以指向运行状态正常的副本;相应地,此副本会晋升为新的主实例。从开始到结束,故障转移通常会在 30 秒内完成。 
  • 如果您没有 Amazon DocumentDB 副本实例(即单个实例集群),Amazon DocumentDB 将尝试在与原实例相同的可用区中创建新实例。原实例会尽量替换,但可能不会成功,例如出现全面影响该可用区的问题时。 

您的应用程序应在连接丢失时重试数据库连接。

Amazon DocumentDB 将自动检测您的主实例发生的问题,并开始将您的读取/写入流量路由到 Amazon DocumentDB 副本实例。平均来说,此故障转移将在 30 秒内完成。此外,您的 Amazon DocumentDB 副本实例提供的读取流量将短暂中断。

Amazon DocumentDB 副本与主实例共享同一个数据卷,因此几乎没有复制滞后。据我们观察,滞后时间一般在 10 毫秒内。

安全性与合规性

符合。所有 Amazon DocumentDB 集群都必须在 VPC 中创建。借助 Amazon VPC,您可以定义一个与自己数据中心内运行的传统网络非常相似的虚拟网络拓扑。这样一来,您便可完全控制谁能访问您的 Amazon DocumentDB 集群。

Amazon DocumentDB 通过内置角色支持 RBAC。RBAC 可以限制用户有权执行的操作,使您可以将最低权限作为最佳实践执行。有关更多信息,请参阅 Amazon DocumentDB 基于角色的访问控制

Amazon DocumentDB 利用了 VPC 严格的网络和授权边界。Amazon DocumentDB 管理 API 的身份验证和授权由 IAM 用户、角色和策略提供。对 Amazon DocumentDB 数据库的身份验证是使用 Salted Challenge Response Authentication Mechanism (SCRAM) 通过标准的 MongoDB 工具和驱动程序完成的,这是 MongoDB 的默认身份验证机制。

符合。Amazon DocumentDB 支持您使用通过 AWS Key Management Service(KMS)管理的密钥来加密集群。在通过 Amazon DocumentDB 加密运行的集群实例上,静态存储于底层存储的数据都经过加密,同一集群的自动备份、快照和副本也是如此。加密和解密操作的处理都是无缝的。有关将 KMS 与 Amazon DocumentDB 配合使用的更多信息,请参阅加密静态 Amazon DocumentDB 数据

目前不支持加密现有的未加密 Amazon DocumentDB 集群。要将 Amazon DocumentDB 加密用于现有的未加密集群,请在启用加密的情况下创建新集群,并将您的数据迁移到该集群中。

Amazon DocumentDB 旨在满足最高安全标准,并方便您验证我们的安全性以及履行您自己的法规和合规义务。Amazon DocumentDB 经评估符合 PCI DSSISO 9001270012701727018SOC 1、2 和 3 以及健康信息信任联盟(HITRUST)共同安全框架(CSF)认证,并且符合 HIPAA 要求。您可在 AWS Artifact 中下载 AWS 合规报告。

主要版本升级

就地主要版本升级(MVU)可让您使用 AWS 管理控制台、软件开发工具包(SDK)或命令行界面(CLI)将 Amazon DocumentDB 3.6 或 4.0 集群升级到 Amazon DocumentDB 5.0。使用就地 MVU 无需创建新集群或更改端点。就地 MVU 现已在所有可以使用 Amazon DocumentDB 5.0 的区域推出。要开始使用就地 MVU,请查看就地 MVU 文档

就地 MVU 可让您将 Amazon DocumentDB 3.6 或 4.0 集群无缝升级到版本 5.0,而无需执行备份和还原到另一个集群,也无需使用其他数据迁移工具。这样便可减少与常规升级过程相关的时间和精力,因为常规升级过程需要配置源端点和目标端点、迁移索引和数据、更改应用程序代码等。

升级后,您无需在应用程序中更改端点。由于数据保留在同一集群中,因此使用该功能升级无需额外费用。

不同集群的停机时间可能有所不同,具体视集合、索引、数据库和实例的数量而定。在生产集群上运行就地主要版本升级之前,我们强烈建议在较低的环境中运行该升级,以测试停机时间和性能,并验证升级后应用程序是否按预期工作。

您还可以利用 Amazon DocumentDB 的快速克隆功能来克隆集群数据以进行测试。根据您的 Amazon DocumentDB 实施的复杂性,您可以联系我们的数据库解决方案架构师寻求更多帮助。

仅支持 Amazon DocumentDB 3.6 或 4.0 作为源,版本 5.0 作为目标的就地 MVU。该功能不支持 Amazon DocumentDB Global Clusters 或 Elastic Clusters 或者以 DocumentDB 4.0 作为目标。

机器学习

Amazon DocumentDB 与 Amazon SageMaker Canvas 集成,让您可以轻松构建机器学习(ML)模型,并使用 Amazon DocumentDB 中存储的数据自定义基础模型,而无需编写任何代码。您不再需要在 Amazon DocumentDB 和 SageMaker Canvas 之间开发自定义数据和 ML 管道。您可以从 Amazon DocumentDB 控制台中启动 SageMaker Canvas,并将现有 Amazon DocumentDB 数据库添加为数据来源,以开始构建机器学习模型。您可以使用 SageMaker Canvas 中的 DocumentDB 中的数据构建模型来预测客户流失、检测欺诈、预测维护故障、预测财务指标和销售、优化库存、汇总内容以及生成内容。

生成式人工智能和机器学习

Amazon SageMaker Canvas 提供了一个无代码界面,可使用来自各种数据来源(包括 Amazon DocumentDB)的数据来构建机器学习模型。您需要为使用 SageMaker Canvas 以及 SageMaker Canvas 从 Amazon DocumentDB 实例读取数据时产生的 I/O 付费。使用 DocumentDB 作为 Amazon SageMaker Canvas 中的数据来源无需额外付费。请访问 Amazon DocumentDB 定价页面SageMaker Canvas 定价页面以了解更多信息。

Amazon DocumentDB 的向量搜索将基于 JSON 的文档数据库的灵活性和丰富的查询功能与向量搜索的强大功能相结合。您可以使用现有的 Amazon DocumentDB 数据或灵活的文档数据结构来构建机器学习和生成式人工智能用例,例如语义搜索体验、产品推荐、个性化、聊天机器人、欺诈检测和异常检测。请访问 Amazon DocumentDB 向量搜索文档以了解更多信息。

Amazon DocumentDB 的向量搜索支持使用语义搜索,因此您可以捕获数据背后的含义、上下文和意图。关键字搜索根据实际文本或预定义的同义词映射来查找文档。例如,在传统的电子商务应用程序中,搜索“红色连衣裙”可能会返回描述中包含“红色”和“连衣裙”字样的产品。语义搜索则会检索包含不同色调的红色连衣裙的结果,这就可以改善用户体验。 

使用 Amazon DocumentDB 的向量搜索无需支付额外费用。当您在 Amazon DocumentDB 中存储、索引和搜索向量时,将收取标准计算、I/O、存储和备份费用。请访问 Amazon DocumentDB 定价页面以了解更多信息。

Amazon DocumentDB 与 Amazon SageMaker Canvas 集成,让您可以使用 Amazon DocumentDB 中存储的数据轻松构建生成式人工智能(AI)和机器学习(ML)应用程序。您不再需要在 Amazon DocumentDB 和 SageMaker Canvas 之间开发自定义数据和 ML 管道。控制台内集成消除了连接和访问数据的无差别繁重工作,从而通过低代码无代码(LCNC)体验加速您的 ML 开发。您可以从 Amazon DocumentDB 控制台中启动 SageMaker Canvas,并将现有 Amazon DocumentDB 数据库添加为数据来源。

零 ETL 集成

这种与 Amazon OpenSearch Service 的零 ETL 集成消除了从 Amazon DocumentDB 集合中提取、转换和加载数据到 Amazon OpenSearch 托管集群或无服务器集合的复杂操作。通过这种集成,您不再需要构建或管理数据管线或转换数据。

如果您想使用 MongoDB API,则应使用 Amazon DocumentDB 的原生数据库功能对文档数据执行向量搜索。Amazon DocumentDB 与 Amazon OpenSearch Service 的零 ETL 集成非常适合跨集合进行搜索,以及存储和索引维度超过 2000 个的向量。

Amazon DocumentDB 与 Amazon OpenSearch Service 的零 ETL 集成使用 Amazon OpenSearch Ingestion 将操作性数据从 Amazon DocumentDB 无缝移动到 Amazon OpenSearch Service。首先,在需要复制的 Amazon DocumentDB 集合上启用更改流功能。此零 ETL 集成功能会在您的账户中设置 Amazon OpenSearch Ingestion 管线,该管线自动将数据复制到 Amazon OpenSearch Service 托管集群或无服务器集合。

Amazon OpenSearch Ingestion 会自动理解 Amazon DocumentDB 集合中数据的格式,并将数据映射到 Amazon OpenSearch Service,以产生性能最优的搜索结果。您可以通过多个管线将来自多个 Amazon DocumentDB 集合的数据同步到一个 Amazon OpenSearch 托管集群或无服务器集合中,以提供对多个应用程序的全面洞察。或者,您可以在 Amazon OpenSearch Service 中定义摄取配置时指定自定义数据处理器。DocumentDB 集合的后续更新也将复制到 Amazon OpenSearch Service,无需任何手动干预。

此零 ETL 集成利用 Amazon OpenSearch Ingestion 管线的原生数据转换功能,对动态数据进行聚合和筛选。

如果您需要定制的转换功能,也可以编写自定义转换逻辑,Amazon OpenSearch Ingestion 将管理转换过程。或者,如果想要在不进行自定义的情况下将全部数据从源移至目标位置,Amazon OpenSearch Ingestion 将提供开箱即用的蓝图,这样您只需单击几下按钮即可执行集成。

为确保 Amazon OpenSearch Ingestion 拥有从 Amazon DocumentDB 复制数据的必要权限,零 ETL 集成功能会创建一个 IAM 角色,该角色具有从 Amazon DocumentDB 集合中读取数据并写入 Amazon OpenSearch 域或集合所需的权限。然后,Amazon OpenSearch Ingestion 管道将担任此角色,以确保在将数据从源移至目标时始终保持正确的安全状态。

您可以在 Amazon DocumentDB 和 OpenSearch Ingestion 管线提供的控制台控制面板上查看与 Amazon DocumentDB 的零 ETL 集成相关的所有指标。您还可以在 Amazon CloudWatch 中查询实时日志,并使用 Amazon CloudWatch 设置自定义警报,这些警报将在突破用户定义的阈值时触发。

了解有关定价的详情

访问 Amazon DocumentDB(兼容 MongoDB)定价页面。

了解更多 
注册免费账户

立即享受 AWS Free Tier。 

注册 
开始在控制台中构建

在 AWS 控制台中开始使用 Amazon DocumentDB(兼容 MongoDB)进行构建。

登录