流式数据集:效率提升 100 倍!
快速了解(TLDR)现在只需一行代码,就能通过 load_dataset('dataset', streaming=True) 以流式方式加载数据集,无需下载!
无需复杂配置、不占磁盘空间、不再担心 “磁盘已满” 或 429 请求过多错误,立即开始训练 TB 级数据集!
性能非常强劲:在 64×H100、256 个并发 worker 环境下,流式加载速度甚至超过本地 SSD!
我们优化后的流式系统:请求数减少 100 倍 → 数据解析速度提升 10 倍 → 样本处理速度翻倍 → 即使在 256 个并发 worker 下也 0 崩溃。
在机器学习中,特别是在处理 TB 级别的数据时,数据加载一直是个大难题。我们自己在训练 SmolLM3 时也深有体会,有段时间每次训练前都得等上 3 小时下载数据。
虽然 datasets 库早就支持流式加载,但在大规模训练中依然面临瓶颈。今天,这一切都变了
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! 不错,里面软件多更新就更好了 谢谢楼主提供! 新版吗?好像是停更了吧。 yyds。多谢分享 谢谢分享,试用一下 东西不错很实用谢谢分享 鼓励转贴优秀软件安全工具和文档! 谢谢分享,试用一下 鼓励转贴优秀软件安全工具和文档! 不错,里面软件多更新就更好了 感谢,下载保存了 感谢发布原创作品,程序园因你更精彩 东西不错很实用谢谢分享 鼓励转贴优秀软件安全工具和文档! 东西不错很实用谢谢分享 过来提前占个楼
页:
[1]