海量数据设计问题 这部分经常用法的阶梯思路: 分治 哈希&一致性哈希 前缀树 bitmap 大顶堆&小顶堆 常见的题目: 如何从大量的 URL 中找出相同的 URL? 如何从大量数据中找出高频词? 如何找出某一天访问百度网站最多的 IP? 如何在大量的数据中找出不重复的整数? 如何在大量的数据中判断一个数是否存在? 如何查询最热门的查询串? 如何统计不同电话号码的个数? 如何从 5 亿个数中找出中位数? 如何按照 query 的频度排序? 如何找出排名前 500 的数? 讲讲大数据中 TopK 问题的常用套路? 设计一个敏感词过滤系统,有什么思路? 链接1