面向大规模向量数据的云原生存储解决方案 Milvus 向量数据库的经验.pdf

面向大规模向量数据的云原生存储解决方案 Milvus 向量数据库的经验.pdf

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

⾯向⼤规模向量数据的云

原⽣存储解决⽅案

徐冬-Zilliz

DataFunCon#2024

个⼈介绍

•Zilliz⾸席⼯程师

•⼤数据系统⼯程师,ApacheHiveHadoop贡献者

•前阿⾥⾼级专家

关于Zilliz

•全球第⼀款向量数据库•向量数据库云服务

•⾼性能和⾼吞吐•超⾼性能

•线性扩展•全托管

•⾼度可定制

•模型编排

•⼤模型缓存

Contents

⽬录

向量数据库

典型⽤例

存储解决⽅案

向量数据库

为AI打造的⾮结构化数据解决⽅案

嵌⼊

•数据的向量表达

•⽆监督特征抽取

•语义相似性度量

ANNSearch

向量存储

向量存储是AI系统的核⼼组件

为什么不使⽤向量索引库?

•向量索引库没有完备的数据库功能

•数据更新

•条件查询和分组查询

•数据类型⽀持和函数⽀持

•向量索引库使⽤⻔槛⾼

•部署

•管理:监控、备份

•向量索引库⽆法多机扩展

为什么不使⽤传统数据库?

•向量索引能⼒

•复杂向量操作

•多向量查询

•混合查询

•⾮结构化存储挑战

向量数据库的关键指标

•查询性能-延迟、吞吐和召回率

•成本-存储密度、压缩编码

•功能-混合查询、分组、多模态

•扩展性-存储计算分离的弹性伸缩

•稳定性

Zilliz向量数据库产品

典型⽤例

Codeassist-VannaAI

问答系统-OSSChat

存储解决⽅案

Milvus如何⽀持百亿数据规模⾼性能存取

向量存储的挑战

•索引•访问模式

•为⼤规模数据构建•标量过滤

•成本⾼•向量有哪些信誉好的足球投注网站

•索引更新能⼒

•向量和标量数据的异构特性

•压缩率和编码效率

•存储空间差异

读写分离的设计

•平衡连续索引的时效

和成本

•区分计算密集型和IO

密集型作业

•灵活扩缩容

数据分⽚

•Shard:并发操作单元•Segment:索引单元•File:对象存储的并发读写单元

分层存储

⽂件格式

•列式存储vs⾏式存储

•向量的编码和数据类型

•压缩效率

总结

•专⽤的向量数据库在索引性能和查询功能上有决定性优势,是AI-Infra

的必备组件

•Milvus是开源的向量数据库,为云原⽣、分布式和⾼性能设计

•Milvus⾯向云原⽣的存储的关键技术包括读写分离、数据分⽚、分层

存储和⽂件格式优化

谢谢

linktr.ee/Milvusio@milvusio@milvus-ioZilliz

文档评论(0)

百强名校试卷 + 关注
实名认证
内容提供者

百强名校试卷

1亿VIP精品文档

相关文档