- 1、本文档共23页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
⾯向⼤规模向量数据的云
原⽣存储解决⽅案
徐冬-Zilliz
DataFunCon#2024
个⼈介绍
•Zilliz⾸席⼯程师
•⼤数据系统⼯程师,ApacheHiveHadoop贡献者
•前阿⾥⾼级专家
关于Zilliz
•全球第⼀款向量数据库•向量数据库云服务
•⾼性能和⾼吞吐•超⾼性能
•线性扩展•全托管
•⾼度可定制
•模型编排
•⼤模型缓存
Contents
⽬录
向量数据库
典型⽤例
存储解决⽅案
向量数据库
为AI打造的⾮结构化数据解决⽅案
嵌⼊
•数据的向量表达
•⽆监督特征抽取
•语义相似性度量
ANNSearch
向量存储
向量存储是AI系统的核⼼组件
为什么不使⽤向量索引库?
•向量索引库没有完备的数据库功能
•数据更新
•条件查询和分组查询
•数据类型⽀持和函数⽀持
•向量索引库使⽤⻔槛⾼
•部署
•管理:监控、备份
•向量索引库⽆法多机扩展
为什么不使⽤传统数据库?
•向量索引能⼒
•复杂向量操作
•多向量查询
•混合查询
•⾮结构化存储挑战
向量数据库的关键指标
•查询性能-延迟、吞吐和召回率
•成本-存储密度、压缩编码
•功能-混合查询、分组、多模态
•扩展性-存储计算分离的弹性伸缩
•稳定性
Zilliz向量数据库产品
典型⽤例
Codeassist-VannaAI
问答系统-OSSChat
存储解决⽅案
Milvus如何⽀持百亿数据规模⾼性能存取
向量存储的挑战
•索引•访问模式
•为⼤规模数据构建•标量过滤
•成本⾼•向量有哪些信誉好的足球投注网站
•索引更新能⼒
•向量和标量数据的异构特性
•压缩率和编码效率
•存储空间差异
读写分离的设计
•平衡连续索引的时效
和成本
•区分计算密集型和IO
密集型作业
•灵活扩缩容
数据分⽚
•Shard:并发操作单元•Segment:索引单元•File:对象存储的并发读写单元
分层存储
⽂件格式
•列式存储vs⾏式存储
•向量的编码和数据类型
•压缩效率
总结
•专⽤的向量数据库在索引性能和查询功能上有决定性优势,是AI-Infra
的必备组件
•Milvus是开源的向量数据库,为云原⽣、分布式和⾼性能设计
•Milvus⾯向云原⽣的存储的关键技术包括读写分离、数据分⽚、分层
存储和⽂件格式优化
谢谢
linktr.ee/Milvusio@milvusio@milvus-ioZilliz
文档评论(0)