新闻中心
使用 Langchain 将 DocumentDB 作为向量存储

本文档介绍了如何使用 Langchain 将 DocumentDB 作为向量存储。由于 DocumentDB 的向量搜索查询 API 与 MongoDB 不同,因此直接使用 MongoDB 的集成方式可能会遇到问题。本文将介绍如何使用 Langchain 提供的 DocumentDB 向量存储集成,并提供示例代码和注意事项,帮助你成功地将 DocumentDB 作为向量存储使用。
Langchain 与 DocumentDB 向量存储集成
DocumentDB 最近发布了向量搜索功能。虽然 DocumentDB 与 MongoDB 兼容,但其向量搜索查询 API 与 MongoDB 不同。因此,直接使用为 MongoDB Atlas 设计的代码可能无法正常工作。Langchain 现在直接支持 DocumentDB 作为向量存储,从而解决了这个问题。
安装必要的库
首先,确保安装了 Langchain 和 DocumentDB 相关的库。可以使用 pip 进行安装:
pip install langchain pymongo
连接到 DocumentDB
连接到 DocumentDB 数据库,你需要提供连接字符串。确保连接字符串包含正确的凭据和数据库信息。
from pymongo import MongoClient # 替换为你的 DocumentDB 连接字符串 CONNECTION_STRING = "mongodb://your_username:your_password@your_documentdb_cluster.us-east-1.docdb.amazonaws.com:27017/?replicaSet=rs0&readPreference=secondaryPreferred" client = MongoClient(CONNECTION_STRING) db = client["your_database_name"] # 替换为你的数据库名称 collection = db["your_collection_name"] # 替换为你的集合名称
使用 Langchain 创建 DocumentDB 向量存储
接下来,使用 Langchain 的 DocumentDB 类创建向量存储。首先,你需要准备好文档和嵌入模型。
from langchain.document_loaders import TextLoader
from langchain.embeddings import OpenAIEmbeddings # 你可以使用任何 Langchain 支持的嵌入模型
from langchain.vectorstores import DocumentDB
from langchain.text_splitter import CharacterTextSplitter
# 加载文档
loader = TextLoader("your_document.txt") # 替换为你的文档路径
documents = loader.load()
# 分割文档
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)
# 初始化嵌入模型
embeddings = OpenAIEmbeddings() # 需要 OpenAI API 密钥
# 创建 DocumentDB 向量存储
vector_store = DocumentDB.from_documents(
docs,
embeddings,
collection=collection,
)代码解释:
95Shop仿醉品商城
95Shop可以免费下载使用,是一款仿醉品商城网店系统,内置SEO优化,具有模块丰富、管理简洁直观,操作易用等特点,系统功能完整,运行速度较快,采用ASP.NET(C#)技术开发,配合SQL Serve2000数据库存储数据,运行环境为微软ASP.NET 2.0。95Shop官方网站定期开发新功能和维护升级。可以放心使用! 安装运行方法 1、下载软件压缩包; 2、将下载的软件压缩包解压缩,得到we
0
查看详情
- TextLoader 用于加载文本文件。你可以根据你的文档类型选择不同的加载器。
- CharacterTextSplitter 用于将文档分割成更小的块,以便更好地进行向量化。
- OpenAIEmbeddings 用于生成文档的嵌入向量。你需要提供 OpenAI API 密钥。你可以选择其他 Langchain 支持的嵌入模型,例如 CohereEmbeddings 或 HuggingFaceEmbeddings。
- DocumentDB.from_documents 用于从文档创建 DocumentDB 向量存储。它接受文档列表、嵌入模型和 MongoDB 集合作为参数。
执行相似性搜索
创建向量存储后,可以使用 similarity_search 方法执行相似性搜索。
query = "What is this document about?" results = vector_store.similarity_search(query) print(results)
代码解释:
- query 是你要搜索的查询语句。
- vector_store.similarity_search 用于执行相似性搜索。它返回与查询语句最相似的文档列表。
完整示例代码
以下是一个完整的示例代码,展示了如何使用 Langchain 将 DocumentDB 作为向量存储:
from pymongo import MongoClient
from langchain.document_loaders import TextLoader
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import DocumentDB
from langchain.text_splitter import CharacterTextSplitter
# 替换为你的 DocumentDB 连接字符串
CONNECTION_STRING = "mongodb://your_username:your_password@your_documentdb_cluster.us-east-1.docdb.amazonaws.com:27017/?replicaSet=rs0&readPreference=secondaryPreferred"
client = MongoClient(CONNECTION_STRING)
db = client["your_database_name"] # 替换为你的数据库名称
collection = db["your_collection_name"] # 替换为你的集合名称
# 加载文档
loader = TextLoader("your_
document.txt") # 替换为你的文档路径
documents = loader.load()
# 分割文档
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)
# 初始化嵌入模型
embeddings = OpenAIEmbeddings() # 需要 OpenAI API 密钥
# 创建 DocumentDB 向量存储
vector_store = DocumentDB.from_documents(
docs,
embeddings,
collection=collection,
)
# 执行相似性搜索
query = "What is this document about?"
results = vector_store.similarity_search(query)
print(results)注意事项
- 确保你的 DocumentDB 集群已启用向量搜索功能。
- 选择合适的嵌入模型,并根据你的需求调整嵌入模型的参数。
- 根据你的文档大小和复杂度,调整 CharacterTextSplitter 的 chunk_size 和 chunk_overlap 参数。
- 在使用 OpenAIEmbeddings 时,确保你已设置 OpenAI API 密钥。
总结
本文介绍了如何使用 Langchain 将 DocumentDB 作为向量存储。通过使用 Langchain 提供的 DocumentDB 向量存储集成,你可以轻松地将 DocumentDB 集成到你的 Langchain 应用程序中,并利用 DocumentDB 的向量搜索功能。 记住,DocumentDB的向量搜索API与MongoDB不同,因此必须使用Langchain提供的DocumentDB集成。
以上就是使用 Langchain 将 DocumentDB 作为向量存储的详细内容,更多请关注其它相关文章!
# 连接到
# 常州seo监控排名
# 个人seo博客模板
# seo艺术 pdf下载
# 鹤岗教育网站建设
# 淄博网站建设弊端有哪些
# 河南网站推广经理
# 网站建设执业规划
# 苏州网站建设首页
# qq空间推广黄网站
# 国外广告联盟营销推广
# 中带
# 自动生成
# word
# 压缩包
# 可以使用
# 搜索功能
# 加载
# 如何使用
# 你可以
# 文档
# red
# openai
# ai
# mongodb
# go
相关栏目:
【
科技资讯46185 】
【
网络学院92790 】
相关推荐:
Composer的 archive 命令怎么用_快速打包你的PHP项目及其Composer依赖
如何将一个大型PHP应用拆分为多个Composer包_微服务与模块化架构的Composer实践
俄罗斯Yandex免登录入口_Yandex搜索引擎官网一键直达
MongoDB聚合管道:正确匹配对象数组中_id的方法
Composer如何处理Git子模块(submodule)依赖_Composer与Git Submodule的对比与选择
QQ邮箱在线登录平台 QQ邮箱个人邮箱网页版入口
jQuery Mask 插件中实现电话号码固定前导零的教程
HTML空白字符处理机制:渲染、DOM与编码实践
Odoo 16:在表单视图中基于当前记录动态修改Tree视图属性
《刺客信条4:黑旗》重制版新细节曝光:无缝加载 地图更细致!
必由学网页版入口 必由学官方平台直接访问
HTML5原生日期选择器与jQuery UI:实现日期选择器的联动与程序化控制
Yandex搜索引擎官网入口_俄罗斯Yandex免登录一键直达
谷歌浏览器无痕模式怎么开 Chrome开启无痕浏览设置方法【教程】
邮编格式怎么匹配地址_根据邮编格式快速匹配详细地址的技巧
蛙漫漫画免费阅读入口_蛙漫官方正版无广告纯净版
印象笔记怎样用批量导出备知识库_印象笔记用批量导出备知识库【备份方法】
最新韩小圈网页版登录入口_官网在线观看官方链接
J*aScript中向JSON对象添加新属性的正确姿势
qq游戏免费畅玩入口_qq游戏电脑版快速启动
抖音创作助手登录入口_抖音创作辅助工具官网直达
机构:以往存储涨价周期小米利润率实际上有所改善 能转嫁给消费者等
Composer的 "licenses" 命令如何帮助你遵守开源协议_检查项目依赖的许可证合规性
“音游” × “怪文书” 题材的节奏冒险游戏 《晕晕电波症候群》确定于2026年4月发售!
PyTorch模型训练准确率不提升:诊断与修复常见指标计算错误
小米汽车11月交付量突破40000台!雷军:将继续努力
c++ 命名空间怎么用 c++ namespace使用指南
html5 app怎么运行环境_配html5 app运行环境【教程】
学习通网页版官方登录 超星学习通电脑端入口指南
qq音乐在线播放入口_qq音乐电脑版登录链接
抖音商城签到领现金是真的吗_抖音商城签到奖励与提现说明
J*aScript实现动态背景色下的文本与按钮颜色自适应调整
微信网页版扫码登录入口 微信网页版二维码登录入口
汽水音乐网页版使用入口_汽水音乐电脑版播放指南
优化 Python 函数中的条件逻辑:解决 if-else 嵌套与参数选择问题
Python实现多节点属性重叠度分析教程
文心一言怎样用批量生成做多版文案_文心一言用批量生成做多版文案【批量创作】
c++中的const_cast和reinterpret_cast怎么用_c++四种类型转换
React项目中导航栏Logo自适应布局:避免裁剪与布局溢出
Excel Power Pivot如何处理XML数据源 构建高级数据模型
谷歌邮箱注册显示错误Gmail服务器异常与延迟处理
2026春节假期时间安排 2026春节假日查询
腾讯视频怎么举报不良内容_腾讯视频内容举报流程与违规信息处理方法
深入理解字体排版:Adobe光学字偶距与CSS字偶距的差异与实现
Pandas DataFrame:高效添加条件计算列
印象笔记如何设离线包出差查阅_印象笔记设离线包出差查阅【离线阅读】
支付宝解绑银行卡步骤_支付宝如何解除绑定银行卡
Go与Ruby之间实现AES加密互通:CFB模式下的密钥长度匹配策略
poki免费入口快捷访问 poki人气小游戏直接玩站点
怎么去除衣服上的口红印_生活小妙招教你用酒精轻松擦除


2025-11-03
浏览次数:次
返回列表
document.txt") # 替换为你的文档路径
documents = loader.load()
# 分割文档
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)
# 初始化嵌入模型
embeddings = OpenAIEmbeddings() # 需要 OpenAI API 密钥
# 创建 DocumentDB 向量存储
vector_store = DocumentDB.from_documents(
docs,
embeddings,
collection=collection,
)
# 执行相似性搜索
query = "What is this document about?"
results = vector_store.similarity_search(query)
print(results)