论文笔记:DiskANN: Fast Accurate Billion-point Nearest Neighbor Search on a Single Node

Authors: Devvrit, Suhas Jayaram Subramanya Created: October 4, 2022 9:45 PM PublishedAt: NIPS URL: https://suhasjs.github.io/files/diskann_neurips19.pdf Year: 2019 Summary DiskANN使用64G RAM来索引和服务100维左右的10亿数据集,95%以上的1-recall@1的时延在5ms以内。 提出Vamana图算法,直径比NSG和HNSW更小。 将点加入重叠聚类,每个聚类构建Vamana索引,然后通过合并边来实现图合并,和所有数据点构建单一索引的搜索性能相近。 Strength 通过将点加入重叠聚类,构建的图简单合并也有不错的效果。 Weakness 图索引用在SSD上,直觉上太多随机访问效果应该会打折扣,虽然Vamana做了优化。后续的SPANN通过层次均衡聚类构建倒排索引,性能超过了DiskANN。 索引中需要同时存原始向量和PQ压缩向量,应该磁盘使用会比较大。 性能数据只比较了1-recall@1,很多系统在召回时不止召回一个。 Take Away 图索引合并。 ...

braft源码分析

brat是百度开源的RAFT实现。 初始化 braft::add_service添加的服务 1 2 3 4 5 6 7 8 9 10 11 ...

论文笔记:PolarDB Serverless

Authors: Wei Cao, Yingqiang Zhang Created: August 21, 2022 7:46 AM PublishedAt: SIGMOD Tags: Database, serverless URL: https://www.cs.utah.edu/~lifeifei/papers/polardbserverless-sigmod21.pdf Year: 2021 Summary 通过计算、内存和存储的分离,来支持serverless按需分配资源。相当于将单机的实现原语扩展到分布式环境,使用各种方法来解决网络传输引入的问题(如时延、B树一致性)。 ...