世界热资讯！有赞一面：亿级用户DAU日活统计，有几种方案？

来源：博客园 2023-05-13 06:17:11

文章很长，且持续更新，建议收藏起来，慢慢读！疯狂创客圈总目录博客园版为您奉上珍贵的学习资源：

【资料图】

免费赠送 :《尼恩Java面试宝典》持续更新+ 史上最全 + 面试必备 2000页+ 面试必备 + 大厂必备 +涨薪必备免费赠送 :《尼恩技术圣经+高并发系列PDF》，帮你实现技术自由，完成职业升级，薪酬猛涨！加尼恩免费领免费赠送经典图书:《Java高并发核心编程（卷1）加强版》面试必备 + 大厂必备 +涨薪必备加尼恩免费领免费赠送经典图书:《Java高并发核心编程（卷2）加强版》面试必备 + 大厂必备 +涨薪必备加尼恩免费领免费赠送经典图书:《Java高并发核心编程（卷3）加强版》面试必备 + 大厂必备 +涨薪必备加尼恩免费领

免费赠送资源宝库： Java 必备百度网盘资源大合集价值>10000元加尼恩领取

有赞一面：亿级用户日活统计，有几种方案？

说在前面

在40岁老架构师尼恩的读者交流群(50+)中，最近有小伙伴拿到了一线互联网企业如极兔、有赞、希音、百度、网易、滴滴的面试资格，遇到一几个很重要的面试题：

(1) 亿级用户场景，如何高性能统计日活？
(2) 如何实现亿级数据统计？
(3) 亿级用户日活统计，有几种方案？
等等等等......

高并发Redis的使用，是面试的重点和高频点。

尼恩作为技术中台、数据中台的架构师，致力于为大家研究出一个 3高架构知识宇宙，所以，这里，带大家完成一个亿级用户场景，如何高性能统计日活的架构分析和实操。

当然，作为一篇文章，仅仅是抛砖引玉，后面有机会，带大家做一下这个高质量的实操，并且指导大家写入简历。

让面试官爱到 “不能自已、口水直流”。

也一并把这个题目以及参考答案，收入咱们的《尼恩Java面试宝典》V65版本，供后面的小伙伴参考，提升大家的 3高架构、设计、开发水平。

注：本文以 PDF 持续更新，最新尼恩架构笔记、面试题的PDF文件，请从公众号【技术自由圈】获取，暗号：领电子书

本文目录

有赞一面：亿级用户日活统计，有几种方案？
- 说在前面
- 本文目录
- 业务场景分析
- 亿级用户日活统计的存储架构
  - 方式1：通过 Redis 的 Set 集合来实现
  - 方式2：利用 Hash 类型实现
  - 方式3：利用 bitmap 实现
  - 方式4：利用 HyperLogLog 实现
- 存储方案的问题分析
  - bigkey问题
  - 准确性问题
  - 方案选择
- 回顾：什么是 Big Key?
  - Big Key的危害？
    - 1、阻塞请求
    - 2、内存增大
    - 3、阻塞网络
    - 4、影响主从同步、主从切换
- HyperLogLog 原理和实操
  - 什么是 HyperLogLog？
  - HyperLogLog 与 bitmap 对比
    - 1、bitmap
    - 2、HyperLogLog
  - HyperLogLog 的使用场景
    - 大数据去重：
    - 用户活跃度统计：
    - 网站UV统计：
    - 社交网络推荐：
- HyperLogLog 的相关命令
- SpringBoot 实操：利用 HyperLogLog 实现网站UV统计
- 超高并发异步架构
  - 队列缓存+批量写入的架构
- 本文的版本计划和基础学习资料
- 技术自由的实现路径：
  - 实现你的架构自由：
  - 实现你的响应式自由：
  - 实现你的 spring cloud 自由：
  - 实现你的 linux 自由：
  - 实现你的网络自由：
  - 实现你的分布式锁自由：
  - 实现你的王者组件自由：
  - 实现你的面试题自由：
- 免费获取11个技术圣经PDF：

业务场景分析

什么是日活？

日活跃用户数量(Daily Active User，DAU)是用于反映网站、互联网应用或网络游戏的运营情况的统计指标。

日活跃用户数量通常统计一日（统计日）之内，登录或使用了某个产品的用户数（去除重复登录的用户）。

受统计方式限制，互联网行业使用的日均活跃用户数指在统计周期(周/月)内，该App的每日活跃用户数的平均值。

亿级用户日活统计的存储架构

一个用户一天内多次访问一个网站只能算作一次，

怎么做存储架构呢？

大概有四种方案，可供技术选型：

方式1：通过 Redis 的 Set 集合来实现。
方式2：利用 Hash 类型实现
方式3：利用 bitmap 实现
方式4：利用 HyperLogLog 实现

方式1：通过 Redis 的 Set 集合来实现

将用户id 放到 Set 中，Set 的去重功能能保证不会重复记录同一个用户 ID。

一个ZSET类型的Key，它的成员数量为10000个

一般来说，这个ZSET就是bigkey

方式2：利用 Hash 类型实现

将用户 ID 作为 Hash 集合的 key，访问页面则执行 HSET命令将 value 设置成 1。

即使用户重复访问，重复执行命令，也只会把这个 userId 的值设置成 “1"。

利用 HLEN命令，统计 Hash 集合中的元素个数就是 UV。

一个Hash类型的Key，它的成员数量虽然只有1000个但这些成员的Value值总大小为100MB，

一般来说，这个 Hash 就是bigkey

方式3：利用 bitmap 实现

使用bitmap，记录用户id的访问，则把指定key的用户id对应的bit位标记为1，

统计日活，就是就是指定key中1的个数。

显然这里是操作位，相比2中，一个字节为8位，估算一下占用空间：96M/8=12M，

1千万用户只要 1M多的空间，但是 1亿的用户需要12M的大小即可记录。

一个String类型的Key，它的值为5MB，就是bigkey

bitmap 底层结构，和String类型是类似的。

方式4：利用 HyperLogLog 实现

在输入用户数量非常大时，计算基数所需要的空间总是固定的,并且是很小的,

每个hyperloglog键需要12kb内存可以计算2^64个不同元素的基数,

这和元素基数元素越多，耗费内存越多的集合形成鲜明对比,

但是hyperloglog只会根据元素来计算基数，不会存储元素本身,所以不能像其它类型一样返回各个元素

hyperloglog是概率算法，是牺牲准确率换区空间的,

对于对精度要求不高的情况下可以使用，因为概率算法本身不直接存储数据本身，能保证误差在一定范围内，又不占用空间,误差在0.81%左右

存储方案的问题分析

bigkey问题

方案1、方案2、方案3

准确性问题

方案4

方案选择

如果允许存在准确性问题，就使用 hyperloglog 存储架构

如果允许存在 bigkey 问题，或者解决 bigkey 问题，就使用方案3 存储架构

这里优先使用 hyperloglog 存储架构

回顾：什么是 Big Key?

通俗易懂的讲，Big Key就是某个key对应的value很大，占用的redis空间很大，本质上是大value问题。

key往往是程序可以自行设置的，value往往不受程序控制，因此可能导致value很大。

redis中这些Big Key对应的value值很大，在序列化/反序列化过程中花费的时间很大，因此当我们操作Big Key时，通常比较耗时，这就可能导致redis发生阻塞，从而降低redis性能。

BigKey指以Key的大小和Key中成员的数量来综合判定，用几个实际的例子对大Key的特征进行描述：

Key本身的数据量过大：一个String类型的Key，它的值为5MB
Key中的成员数过多：一个ZSET类型的Key，它的成员数量为10000个
Key中成员的数据量过大：一个Hash类型的Key，它的成员数量虽然只有1000个但这些成员的Value值总大小为100MB

Big Key的危害？

1、阻塞请求

Big Key对应的value较大，我们对其进行读写的时候，需要耗费较长的时间，这样就可能阻塞后续的请求处理。Redis的核心线程是单线程，单线程中请求任务的处理是串行的，前面的任务完不成，后面的任务就处理不了。

2、内存增大

读取Big Key耗费的内存比正常Key会有所增大，如果不断变大，可能会引发 OOM（内存溢出），或达到redis的最大内存maxmemory设置值引发写阻塞或重要Key被逐出。

3、阻塞网络

读取单value较大时会占用服务器网卡较多带宽，自身变慢的同时可能会影响该服务器上的其他Redis实例或者应用。

4、影响主从同步、主从切换

删除一个大Key造成主库较长时间的阻塞并引发同步中断或主从切换。

HyperLogLog 原理和实操

HyperLogLog 是大数据基数统计中的常见方法，无论是 Redis，Spark 还是 Flink 都提供了这个功能，其目的就是在一定的误差范围内，用最小的空间复杂度来估算一个数据流的基数。

这个最小的空间，小到什么程度呢？在 Redis 中实现的 HyperLogLog，只需要12K内存就能统计2^64个数据。不过有得必有失，HyperLogLog计数存在一定的误差，误差率整体较低。标准误差为 0.81% ，不到1%。当然，误差可以被设置辅助计算因子进行降低。

什么是 HyperLogLog？

HyperLogLog 是一种概率性数据结构，它是 LogLog 算法的升级版，作用是能够提供不精确的去重计数。HyperLogLog 下面简称为HLL，

Redis中的HLL是基于string结构实现的，单个HLL的内存永远小于16kb，内存占用低的令人发指！作为代价，其测量结果是概率性的，有小于0.81％的误差。

HLL是一种用于基数统计的算法，可以用来估计一个集合中不同元素的数量，而不需要存储这些元素本身。它可以高效地处理大规模的数据集，且占用的空间非常小，通常只需要几千个字节的存储空间就可以处理数十亿个元素。HLL算法的实现非常简单，可以使用位图和随机哈希函数来实现。

HLL算法的基本思想是利用随机哈希函数将元素映射到一个二进制字符串中，并根据哈希函数的结果将字符串分为若干个桶。在每个桶中，记录哈希值的最大前导零的数量。

对于一个大的数据集，可以对每个元素进行哈希并记录其对应桶的最大前导零的数量，然后计算所有桶的平均值，得到一个近似的基数估计值。

HLL算法的误差率可以控制在0.81/sqrt(m)以内，其中m是桶的数量。

因此，随着桶的数量增加，误差率将变得越来越小。

HLL算法的优点在于它具有极低的内存消耗和高效的计算速度，并且可以处理极大的数据集。

HyperLogLog 与 bitmap 对比

1、bitmap

优势是：非常均衡的特性，精准统计，可以得到每个统计对象的状态，秒出。

缺点是：当你的统计对象数量十分十分巨大时，可能会占用到一点存储空间，但也可在接受范围内。也可以通过分片，或者压缩的额外手段去解决。

注意：bitmap是精确的

2、HyperLogLog

优势是：

可以统计夸张到无法想象的数量，并且占用小的夸张的内存。

缺点是：

建立在牺牲准确率的基础上，而且无法得到每个统计对象的状态。

注意：HyperLogLog 不是精确的，误差在 1%左右

HyperLogLog 的使用场景

HyperLogLog算法主要用于基数统计场景，即需要快速统计一个数据集中不同元素的数量的场合。在实际应用中，HyperLogLog算法通常应用于以下场景：

大数据去重：

在大数据场景下，需要去重的数据量非常大，如果使用传统的去重算法，需要对每个元素进行存储和比对，时间和空间消耗非常高。HyperLogLog算法可以在占用极小的空间的情况下，高效地对大规模数据进行去重，提高去重效率。

用户活跃度统计：

在Web应用和移动应用中，需要对用户的活跃度进行统计。如果每个用户的活跃度都进行存储，需要消耗大量的存储空间。HyperLogLog算法可以在占用极小的空间的情况下，高效地统计活跃用户数量，提高统计效率。

网站UV统计：

在Web应用中，需要统计网站每日独立访客数量（即UV），但是由于数据量非常大，不能简单地直接计数，因为会导致内存不足。HyperLogLog算法可以在占用极小的空间的情况下，高效地对大规模的访问日志进行去重和统计，提高统计效率。

社交网络推荐：

在社交网络中，需要对用户的兴趣爱好进行统计，以便向用户推荐相关内容。HyperLogLog算法可以在占用极小的空间的情况下，高效地对用户行为进行去重和统计，提高推荐效率。

总之，HyperLogLog算法可以在需要高效处理大规模数据集的场景下发挥作用，适用于各种基数统计场合，可以提高数据处理效率，减少存储空间的消耗。

HyperLogLog 的相关命令

Redis提供了多个HyperLogLog相关的指令，包括以下几个：

PFADD：将一个或多个元素添加到指定的HyperLogLog数据结构中。语法：PFADD key element [element ...]

PFADD hll_key a b c

PFCOUNT：统计指定的HyperLogLog数据结构中不同元素的数量。语法：PFCOUNT key [key ...]

PFCOUNT hll_key

PFMERGE：将多个HyperLogLog数据结构合并为一个。语法：PFMERGE destkey sourcekey [sourcekey ...]

PFMERGE hll_key1 hll_key2 hll_key3

这些指令可以方便地对HyperLogLog数据结构进行添加、统计和合并操作，以满足各种基数统计场景的需求。

需要注意的是，HyperLogLog数据结构虽然占用空间非常小，但是在添加元素时需要进行哈希计算，因此添加元素的效率可能会受到影响。

因此，在java代码中，可以使用队列缓存+ 批量写入的架构，进行批量添加，尽量减少io时间。

在使用HyperLogLog数据结构时，需要根据实际情况评估其效率和误差率，以确定是否适合使用HyperLogLog算法。

SpringBoot 实操：利用 HyperLogLog 实现网站UV统计

利用HyperLogLog实现网站UV统计，代码如下：

测试如下：

误差计算：

1百万，减去 99 6723 ，大概在 4000左右，不到1%

超高并发异步架构

通过阻塞队列，使用队列缓存+批量写入的架构

队列缓存+批量写入的架构

这里用了阻塞队列，这个非常常用

具体的架构图如下：

所以阻塞队列的结构，以及底层原理，大家好好掌握

BlockingDeque dauList = new LinkedBlockingDeque<>();

访问记录，直接进入到阻塞队列，参考代码如下

异步写入的参考代码如下：

本文的版本计划和基础学习资料

尼恩作为技术中台、数据中台的架构师，高并发是尼恩架构的重点，所以，后面会大家从架构到实操，多个维度、多种场景的高并发实操。

而且尼恩指导简历的过程中，也指导过小伙伴写过 10Wqps 超高并发网关、超高并发秒杀、超高并发物联网等等简历，里边涉及到大量的设计模式，

经过尼恩的指导之后，很多小伙伴的简历，里边立马金光闪闪，并且顺利走上了架构师之路。

后面有机会，带大家做一下这个高质量的实操，并且指导大家写入简历。

所以，这个材料后面也会进行持续迭代，大家可以找尼恩来获取最新版本和技术交流。

尼恩编著的400页PDF电子书《SpringCloud Alibaba 技术圣经》

尼恩编著的500页 PDF电子书《Java高并发核心编程卷2 加强版》，清华大学出版社出版

pdf领取方式，请参见公众号：技术自由圈

技术自由的实现路径：

实现你的架构自由：

《吃透8图1模板，人人可以做架构》

《10Wqps评论中台，如何架构？B站是这么做的！！！》

《阿里二面：千万级、亿级数据，如何性能优化？教科书级答案来了》

《峰值21WQps、亿级DAU，小游戏《羊了个羊》是怎么架构的？》

《100亿级订单怎么调度，来一个大厂的极品方案》

《2个大厂 100亿级超大流量红包架构方案》

… 更多架构文章，正在添加中

实现你的响应式自由：

《响应式圣经：10W字，实现Spring响应式编程自由》

这是老版本《Flux、Mono、Reactor 实战（史上最全）》

实现你的 spring cloud 自由：

《Spring cloud Alibaba 学习圣经》 PDF

《分库分表 Sharding-JDBC 底层原理、核心实战（史上最全）》

《一文搞定：SpringBoot、SLF4j、Log4j、Logback、Netty之间混乱关系（史上最全）》

实现你的 linux 自由：

《Linux命令大全：2W多字，一次实现Linux自由》

实现你的网络自由：

《TCP协议详解 (史上最全)》

《网络三张表：ARP表, MAC表, 路由表，实现你的网络自由！！》

实现你的分布式锁自由：

《Redis分布式锁（图解 - 秒懂 - 史上最全）》

《Zookeeper 分布式锁 - 图解 - 秒懂》

实现你的王者组件自由：

《队列之王： Disruptor 原理、架构、源码一文穿透》

《缓存之王：Caffeine 源码、架构、原理（史上最全，10W字超级长文）》

《缓存之王：Caffeine 的使用（史上最全）》

《Java Agent 探针、字节码增强 ByteBuddy（史上最全）》

实现你的面试题自由：

4000页《尼恩Java面试宝典》 40个专题

世界热资讯！有赞一面：亿级用户DAU日活统计，有几种方案？

有赞一面：亿级用户日活统计，有几种方案？

说在前面

本文目录

业务场景分析

亿级用户日活统计的存储架构

方式1：通过 Redis 的 Set 集合来实现

方式2：利用 Hash 类型实现

方式3：利用 bitmap 实现

方式4：利用 HyperLogLog 实现

存储方案的问题分析

bigkey问题

准确性问题

方案选择

回顾：什么是 Big Key?

Big Key的危害？

1、阻塞请求

2、内存增大

3、阻塞网络

4、影响主从同步、主从切换

HyperLogLog 原理和实操

什么是 HyperLogLog？

HyperLogLog 与 bitmap 对比

1、bitmap

2、HyperLogLog

HyperLogLog 的使用场景

大数据去重：

用户活跃度统计：

网站UV统计：

社交网络推荐：

HyperLogLog 的相关命令

SpringBoot 实操：利用 HyperLogLog 实现网站UV统计

超高并发异步架构

队列缓存+批量写入的架构

本文的版本计划和基础学习资料

技术自由的实现路径：

实现你的 架构自由：

实现你的 响应式 自由：

实现你的 spring cloud 自由：

实现你的 linux 自由：

实现你的 网络 自由：

实现你的 分布式锁 自由：

实现你的 王者组件 自由：

实现你的 面试题 自由：

免费获取11个技术圣经PDF：

推荐阅读

茅台月饼礼盒最高被炒到658元 “衍生品”炒作现象要予以遏制

“银发族就业”成热潮 “90后”开始为退休父母找工作

云南广西广东等地有较强降水 京津冀等地有高温天气

京九铁路江西段启动集中修 助力企业复工复产

最近更新

世界热资讯！有赞一面：亿级用户DAU日活统计，有几种方案？

明星真的好有钱！刘亦菲走机场近百万的穿搭惊到我，一件T恤6千块_视点

议标流程_议标是什么意思

天天简讯:叠纸游戏成立乐叠科技公司

Epic将于5月18日起送出4款神秘游戏：不是《艾尔登法环》《荒野大镖客：救赎2》

白鹭湖管理区：安全防范在心中 防震演练在行动 天天观速讯

全球快看：库尔勒市总工会：劳模宣讲进企业 凝心铸魂跟党走

孟东兰：誓做学无止境的大工匠

报道：幼小衔接要怎么做？孩子的看法，可能让你很意外

三个“与众不同”助力共同缔造安全江夏 焦点快报

快资讯：白果有什么功效与作用_白果功效与作用有什么

世界观焦点：2023上海中级会计职称网上报名时间6月26日起

ACCA报班多少钱？

新品发布全线添员，九号全力奔向“红海”深处？|天天时讯

热浪席卷东南亚 多国高温破历史纪录

日照市人大常委会原党组书记、主任高杰受贿案一审公开开庭_世界今头条

全球观焦点：医生说 病患说 家人说 他们眼中的白衣“天使”

环球视点！各时代国脚齐聚为年维泗祝90大寿 武磊：为中国足球做更多贡献

成长计划怎么写? 成长计划怎么写

【世界速看料】中铁·青岛世界博览城：解码新时代品质建筑

从挑战到被挑战，20岁的淘宝进入“调整期”|焦点要闻

韩国的房价也是神一样的存在，韩国年轻人活得相当割裂

自己制作头像的网站_自己制作头像

中小板娱乐股股票有这几家！ 世界视讯

74家中药上市公司PK：龙津药业毛利率大涨48%，大理药业毛利率下滑16.87%，珍宝岛降15.49%，中恒集团降14.9% 播资讯

齐齐哈尔：克山城管深化市容环境卫生提升行动全力护航“夜间经济”守住城市“烟火气”

夏天的写景作文三百字左右(必备23篇)

绿地香港：前4月合约销售金额49.83亿元|世界快资讯

事关新能源、可再生能源 我国又有多项世界第一_每日动态

实现你的架构自由：

实现你的响应式自由：

实现你的网络自由：

实现你的分布式锁自由：

实现你的王者组件自由：

实现你的面试题自由：

云南广西广东等地有较强降水京津冀等地有高温天气

京九铁路江西段启动集中修助力企业复工复产

白鹭湖管理区：安全防范在心中防震演练在行动天天观速讯

全球快看：库尔勒市总工会：劳模宣讲进企业凝心铸魂跟党走

三个“与众不同”助力共同缔造安全江夏焦点快报

热浪席卷东南亚多国高温破历史纪录

全球观焦点：医生说病患说家人说他们眼中的白衣“天使”

环球视点！各时代国脚齐聚为年维泗祝90大寿武磊：为中国足球做更多贡献

中小板娱乐股股票有这几家！世界视讯

事关新能源、可再生能源我国又有多项世界第一_每日动态

波贝加：我们没有按照想要的方式进入比赛，必须提高强度和节奏环球关注

总投资115亿元！华能合浦智慧化源网荷储一体化风光基地项目成功签约北海皇氏阳光科技有限公司3GW组件（一期项目）正式投产

假面骑士设定搬运02——旋风号今日观点

20家银行集体行动，新一轮“降息”潮到来全球热消息

页码怎么从第二页开始为1_页码怎么从第二页开始今日精选

千亩湖居大盘中山敏捷锦绣国际花城打造城市中央公园-热点评

阿里巴巴-SW(09988)将于下周四披露FY2023全年业绩大行更新评级及目标价(表)|焦点关注

当日快讯：北京：对重点行业开放应用场景推广信创标准的重大建设项目给予资金支持

当前资讯!我让老婆偷人我偷看口述喜欢老婆偷人的小说

浠水杂技带热旅游环球热讯

外交部发言人宣布加拿大驻上海总领馆一名外交官为“不受欢迎的人” 全球信息

当前聚焦：直击股东大会｜新日股份：客户回款问题致直销收入下滑钠离子电池仍具备一定成本优势

天天速读：龙虎榜丨中电港今日涨停上榜营业部席位合计净买入7220.43万元

今年春耕期间我国化肥市场供应总体充足价格总体平稳环球快报

案值1.71亿元！广州海关破获一起走私医美产品案环球新资讯

学农活知农事——经开区中小学生体验农耕文化

通灵神探迅雷通灵神探迅雷下载世界百事通