网站大量收购闲置独家精品文档,联系QQ:2885784924

腾讯大数据基于 StarRocks 的向量检索探索 - 2024 StarRocks峰会.pdf

腾讯大数据基于 StarRocks 的向量检索探索 - 2024 StarRocks峰会.pdf

  1. 1、本文档共36页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

基于StarRocks的向

量检索探索

——腾讯大数据

赵裕隆

腾讯大数据研发工程师

向量检索技术浅析

StarRocks实现向量检索的原理及优化

StarRocks向量检索在腾讯的实践案例

挑战及未来规划

向量检索技术浅析

01

什么是向量检索

向量检索

•新型应用不断涌现:听歌识曲、以图搜

图、广告推荐、大模型检索增强等等;

•Embedding技术的成熟:大量非结构化

数据(视频、语音、图像等)可以通过

深度学习技术转化成高维向量(数组);

•统一数据特征表达:将非结构化数据

Embedding后,对高维特征向量进行最

近邻(或k近邻)查询即可查找相似内

容:给定查询向量,在特征数据库中寻

找距离查询向量最近(即相似度最高)

的k个向量;

-get_topN(distance),id

-id,metrics_distance(query_vector,vector_column):distance

-scan_table(id,vector_column)

近似最近邻查询

维度灾难高维空间的向量很难进行快速而准确的近邻查询,主要原因在于:

•高维度导致的计算复杂性:数据维度较高,通用的距离函数都需要成百上千次浮点运

算,十分耗时;

•维度灾难(CurseofDimensionality):随着维度的增大,有哪些信誉好的足球投注网站空间将呈指数增长的现

象;

•为了解决高维向量KNN查询的效率问题,近似最近邻查询(ApproximateNearestNeighborSearch,ANNS)应运而生,其通过返回近似查询结果,来显著提升查询

效率(通常为数百倍以上)。

•目前ANNS使用的最常见的是距离度量是欧式距离和余弦距离。

•通常使用召回率(Recall)来衡量ANNS的查询精度,即近似查询结果中正确答案占实际正确答案的比例。

近邻索引技术

•哈希/树:用于ANNS的哈希方法主要是局部敏各索引技术对比

感哈希;树索引的基本思路是对空间进行划分,

并采用树型结构维护空间划分的层次关系。

•量化与倒排(主流):乘积量化(Product

Quantization,PQ)先把向量分为多个子段,

然后对每段进行分别聚类与编码。量化是一种压

缩技术,虽然能够极大的减少存储空间占用和距

离计算开销,但是仍然要对全量数据进行距离排

序,没有剪枝作用,所以通常需要配合倒排索引

技术(InvertedFile,IVF),求取TopK个聚

类中心的进行剪枝,进一步减少访问的数据量。

•近邻图(主流):近邻图的基本思想是“近邻的

近邻也是近邻”,其将每个向量作为图中的一个

Node,在距离相近的向量之间建立边连接构成近

邻图。查询时从固定入口出发,不断地贪心遍历

离查询向量更近的邻节点,直到没有更近的节点

停止有哪些信誉好的足球投注网站。

业务背景

•业务场景:一个典型检索场景

•检索链路复杂:一次检索经过四套系统

•写入链路复杂:写入维护三条链路

•端到端延迟高:端到端分钟级延迟

•数据一致性保障

•业务诉求

文档评论(0)

优选文档 + 关注
实名认证
内容提供者

专注于发布优质文档,喜欢的可以关注一下哦~

1亿VIP精品文档

相关文档