登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
导读
排行榜
资讯
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
写博客
小组
VIP申请
VIP网盘
网盘
联系我们
发帖说明
道具
勋章
任务
淘帖
动态
分享
留言板
导读
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
安全
›
场景题:有40亿个QQ号如何去重?仅1GB内存 ...
场景题:有40亿个QQ号如何去重?仅1GB内存
[ 复制链接 ]
滕佩杉
2025-6-1 21:26:39
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
场景题也有一些套路可以考虑,比如去重、判断给定数据是否存在
1.大数据去重
1.1 现在有40亿个QQ号如何去重?仅1GB内存
参考链接:https://juejin.cn/post/7396332696660131849
介绍2种方法:Bitmap和布隆过滤器
方法一:Bitmap
首先介绍下什么是位图Bitmap
位图是使用bit数组表示的,它只存储0或者1,因此我们可以把全部的QQ号放到位图中,当index位置为1时表示该索引位的QQ号已经存在。
数据规模分析+可行性分析
QQ号是32位的无符号整型数据,整型数据范围是[-2^31, 2^31-1],总计数据量有43亿,可以覆盖40亿的QQ号。直接存储40亿QQ号,需要的空间为40亿 * 4字节 = 14.9GB,超过1GB了。
使用Bitmap来存储,每个QQ号仅占1位,比如:QQ号23333,只需要判断Bitmap的索引位23333是否为1,为1表示数据已经存在,就能判断是否重复了。所需要内存空间: 2 ^ 32 * 1bit / 8 = 512MB
实现步骤
直接用java自带的Bitset来实现代码,假设QQ号都在整型范围内
[code]//初始化长度为2 ^ 32位的位数组BitSet bitmap = new BitSet(1L
场景
40亿个
QQ
号如
何去
相关帖子
Apollo场景建议配置指南:充分发挥分布式配置中心优势
算力赋能场景:RK主板的技术演进与行业应用全景
Laravel 乐观锁:高并发场景下的性能优化利器
【大数据高并发核心场景实战】 数据持久化层 - 分表分库
星图云开发者平台功能详解 | 孪生场景编辑器:积木式搭建高保真三维场景
Electron.js 详解、应用场景及完整案例
关于renpy游戏小范围QQ群内部测试的一个思路
假如有10亿QQ号如何去重?
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
安全
Apollo场景建议配置指南:充分发挥分布式配置中心优势
1
252
郁兰娜
2025-11-07
安全
算力赋能场景:RK主板的技术演进与行业应用全景
2
329
兮督
2025-11-13
业界
Laravel 乐观锁:高并发场景下的性能优化利器
1
253
丧血槌
2025-11-25
安全
【大数据高并发核心场景实战】 数据持久化层 - 分表分库
1
497
澹台忆然
2025-11-30
安全
星图云开发者平台功能详解 | 孪生场景编辑器:积木式搭建高保真三维场景
1
368
亢安芙
2025-12-02
安全
Electron.js 详解、应用场景及完整案例
3
714
甘子萱
2025-12-08
安全
关于renpy游戏小范围QQ群内部测试的一个思路
1
232
垢峒
2025-12-13
业界
假如有10亿QQ号如何去重?
0
812
颛孙中
2025-12-15
回复
(6)
肿圬后
2025-10-15 13:55:36
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
新版吗?好像是停更了吧。
姚望舒
2025-10-31 14:10:30
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
懂技术并乐意极积无私分享的人越来越少。珍惜
轨项尺
2025-11-24 01:49:33
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
这个有用。
崔瑜然
2025-11-26 14:52:57
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
热心回复!
归筠溪
2025-12-1 12:00:56
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
谢谢分享,试用一下
阕阵闲
6 天前
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
谢谢分享,辛苦了
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
浏览过的版块
业界
签约作者
程序园优秀签约作者
发帖
滕佩杉
6 天前
关注
0
粉丝关注
17
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
anyue1937
9994893
kk14977
6845357
3934307807
991123
4
xiangqian
638210
5
韶又彤
9998
6
宋子
9983
7
闰咄阅
9993
8
刎唇
9993
9
俞瑛瑶
9998
10
蓬森莉
9951
查看更多
今日好文热榜
528
AI手机的“简单替换陷阱”与Hadoop、Cloude
471
用C#重现Gin风格:极简、效率与可扩展性设
237
AI运动识别插件-APP版新版特性速览
776
NetBox 自动化导入资产 - IP地址
80
在调度的花园里面挖呀挖
766
ACP:让 AI 编程工具配置从此告别碎片化 —
860
画高保真原型图用什么软件?产品经理与设计
63
企业数字化转型如何破局?看这三大招
752
解决 iOS 上 Swiper 滑动图片闪烁问题:原
424
OpenCV (C++) 提速技巧(以Haar小波变换为
206
Claude Code 使用 Skills
670
资源总是不够用?这次,我用一套系统盘活了
977
UniEdit:首个大型开放域大模型知识编辑基
575
Karmada v1.16 版本发布!支持多模板工作负
311
《ESP32-S3使用指南—IDF版 V1.6》第五十五
941
纯前端调用大模型真的安全吗?我踩过的坑比
898
【分析式AI】-带你秒弄懂决策树与随机森林
98
DBLens 的数据安全、登录方式与离线使用说
72
国内开发者合规订阅 Claude Code 的 3 条最
156
Perforce QAC 2025.3 新版上线 | 速度与深