转载&学习:云上LLM数据泄露风险研究系列(一):基于向量数据库的攻击面分析
研究背景
- 云计算赋能LLM发展
- 提供弹性算力资源,降低LLM训练/推理成本
- 云服务商提供预训练模型API和微调工具,加速业务部署
- 云生态集成数据存储与分析工具,推动LLM商业化
- 向量数据库的核心作用
- 解决非结构化数据(文本、图像等)的存储与检索难题
- 通过Embedding技术将数据转为向量,支持语义相似性搜索
- 应用场景:
- LLM训练数据清洗与去重
- 增强模型实时知识库,减少幻觉
- 安全注入私有数据
主流开源向量数据库分析
数据库特点全球部署量主要云平台分布技术参数Milvus高扩展性,实时相似性搜索3500+阿里云(18%)、AWS(12%)、腾讯云(9%)维度上限32K,Go/C++开发Qdrant支持复杂过滤,分布式部署3700+AWS(18%)、谷歌云(7%)、Azure(4%)无维度限制,Rust开发Weaviate多模态支持,内置知识图谱8000+AWS(25%)、谷歌云(18%)、阿里云(7%)维度上限65K,Go开发Chroma轻量级嵌入式,开发者友好4700+AWS(32%)、谷歌云(10%)、Azure(8%)参数未公开,Python开发专用向量数据库:Milvus、Qdrant、Weaviate、Chroma与用ES存储有什么区别?
核心架构与设计目标
类别专用向量数据库Elasticsearch (ES)定位专为高维向量相似性搜索优化,支持大规模非结构化数据管理通用全文搜索引擎,通过插件扩展向量功能(如dense_vector)架构- Milvus:分布式微服务架构,计算与存储分离
- Qdrant:Rust编写,内存效率优先
- Chroma:轻量级嵌入式设计基于Lucene的倒排索引,向量搜索作为附加功能数据模型原生支持向量存储与相似性计算,内置向量索引算法(HNSW、IVF等)需通过字段类型dense_vector定义向量,依赖插件实现近似搜索性能对比
[table][tr]维度专用向量数据库Elasticsearch[/tr][tr][td]搜索速度[/td][td]- Milvus/Qdrant:亿级向量毫秒级响应(单查询 |