流式数据集：效率提升 100 倍！

仰翡邸 发表于 2025-12-22 15:55:02

快速了解（TLDR）

现在只需一行代码，就能通过 load_dataset('dataset', streaming=True) 以流式方式加载数据集，无需下载！
无需复杂配置、不占磁盘空间、不再担心 “磁盘已满” 或 429 请求过多错误，立即开始训练 TB 级数据集！
性能非常强劲：在 64×H100、256 个并发 worker 环境下，流式加载速度甚至超过本地 SSD！
我们优化后的流式系统：请求数减少 100 倍 → 数据解析速度提升 10 倍 → 样本处理速度翻倍 → 即使在 256 个并发 worker 下也 0 崩溃。

在机器学习中，特别是在处理 TB 级别的数据时，数据加载一直是个大难题。我们自己在训练 SmolLM3 时也深有体会，有段时间每次训练前都得等上 3 小时下载数据。

虽然 datasets 库早就支持流式加载，但在大规模训练中依然面临瓶颈。今天，这一切都变了
来源：程序园用户自行投稿发布，如果侵权，请联系站长删除
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

闵雇发表于 2026-1-16 02:09:04

不错，里面软件多更新就更好了

炀餮氢 发表于 2026-1-17 18:59:46

谢谢楼主提供！

吕梓美 发表于 2026-1-17 20:51:26

新版吗？好像是停更了吧。

翳舀发表于 2026-1-18 07:55:52

yyds。多谢分享

思矿戳 发表于 2026-1-19 12:32:07

谢谢分享，试用一下

痕伯发表于 2026-1-21 19:39:52

东西不错很实用谢谢分享

涂流如 发表于 2026-1-23 20:12:47

鼓励转贴优秀软件安全工具和文档！

闹忧踫 发表于 2026-1-25 19:07:01

谢谢分享，试用一下

蒲善思 发表于 7 天前

鼓励转贴优秀软件安全工具和文档！

艾晓梅 发表于 6 天前

不错，里面软件多更新就更好了

滕佩杉 发表于 4 天前

感谢，下载保存了

空娅芬 发表于昨天 02:05

感谢发布原创作品，程序园因你更精彩

抑卞枯 发表于昨天 04:58

东西不错很实用谢谢分享

乐敬发表于昨天 10:00

鼓励转贴优秀软件安全工具和文档！

百里宵月 发表于 17 小时前

东西不错很实用谢谢分享

柴古香 发表于 3 小时前

过来提前占个楼

页: [1]

程序园's Archiver

流式数据集：效率提升 100 倍！