仰翡邸 发表于 2025-12-22 15:55:02

流式数据集:效率提升 100 倍!

快速了解(TLDR)

现在只需一行代码,就能通过 load_dataset('dataset', streaming=True) 以流式方式加载数据集,无需下载!
无需复杂配置、不占磁盘空间、不再担心 “磁盘已满” 或 429 请求过多错误,立即开始训练 TB 级数据集!
性能非常强劲:在 64×H100、256 个并发 worker 环境下,流式加载速度甚至超过本地 SSD!
我们优化后的流式系统:请求数减少 100 倍 → 数据解析速度提升 10 倍 → 样本处理速度翻倍 → 即使在 256 个并发 worker 下也 0 崩溃。

在机器学习中,特别是在处理 TB 级别的数据时,数据加载一直是个大难题。我们自己在训练 SmolLM3 时也深有体会,有段时间每次训练前都得等上 3 小时下载数据。

虽然 datasets 库早就支持流式加载,但在大规模训练中依然面临瓶颈。今天,这一切都变了
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

闵雇 发表于 2026-1-16 02:09:04

不错,里面软件多更新就更好了

炀餮氢 发表于 2026-1-17 18:59:46

谢谢楼主提供!

吕梓美 发表于 2026-1-17 20:51:26

新版吗?好像是停更了吧。

翳舀 发表于 2026-1-18 07:55:52

yyds。多谢分享

思矿戳 发表于 2026-1-19 12:32:07

谢谢分享,试用一下

痕伯 发表于 2026-1-21 19:39:52

东西不错很实用谢谢分享

涂流如 发表于 2026-1-23 20:12:47

鼓励转贴优秀软件安全工具和文档!

闹忧踫 发表于 2026-1-25 19:07:01

谢谢分享,试用一下

蒲善思 发表于 7 天前

鼓励转贴优秀软件安全工具和文档!

艾晓梅 发表于 6 天前

不错,里面软件多更新就更好了

滕佩杉 发表于 4 天前

感谢,下载保存了

空娅芬 发表于 昨天 02:05

感谢发布原创作品,程序园因你更精彩

抑卞枯 发表于 昨天 04:58

东西不错很实用谢谢分享

乐敬 发表于 昨天 10:00

鼓励转贴优秀软件安全工具和文档!

百里宵月 发表于 17 小时前

东西不错很实用谢谢分享

柴古香 发表于 3 小时前

过来提前占个楼
页: [1]
查看完整版本: 流式数据集:效率提升 100 倍!