Authors: Mao Yang, Wei Lin Created: November 26, 2022 8:29 PM PublishedAt: MSR-TR-2008-25 Tags: distributed-system URL: https://www.microsoft.com/en-us/research/wp-content/uploads/2008/02/tr-2008-25.pdf Year: 2008 Summary 论文提出了一种基于日志的分布式存储系统实现方式,将复制组的成员管理和数据复制解耦开来,前者使用配置管理器(如Paxos)来管理,后者使用primary/backup机制:主节点接收到客户端的写请求后,将其复制到所有的从节点后再向客户端发送响应;在强一致性模式下只有主节点会处理读请求;数据管理节点最多可以容忍n-1个节点失败。
...
Authors: Devvrit, Suhas Jayaram Subramanya Created: October 4, 2022 9:45 PM PublishedAt: NIPS URL: https://suhasjs.github.io/files/diskann_neurips19.pdf Year: 2019 Summary DiskANN使用64G RAM来索引和服务100维左右的10亿数据集,95%以上的1-recall@1的时延在5ms以内。 提出Vamana图算法,直径比NSG和HNSW更小。 将点加入重叠聚类,每个聚类构建Vamana索引,然后通过合并边来实现图合并,和所有数据点构建单一索引的搜索性能相近。 Strength 通过将点加入重叠聚类,构建的图简单合并也有不错的效果。 Weakness 图索引用在SSD上,直觉上太多随机访问效果应该会打折扣,虽然Vamana做了优化。后续的SPANN通过层次均衡聚类构建倒排索引,性能超过了DiskANN。 索引中需要同时存原始向量和PQ压缩向量,应该磁盘使用会比较大。 性能数据只比较了1-recall@1,很多系统在召回时不止召回一个。 Take Away 图索引合并。
...
Authors: Wei Cao, Yingqiang Zhang Created: August 21, 2022 7:46 AM PublishedAt: SIGMOD Tags: Database, serverless URL: https://www.cs.utah.edu/~lifeifei/papers/polardbserverless-sigmod21.pdf Year: 2021 Summary 通过计算、内存和存储的分离,来支持serverless按需分配资源。相当于将单机的实现原语扩展到分布式环境,使用各种方法来解决网络传输引入的问题(如时延、B树一致性)。
...