【有手就行】自己花20分钟从0开始训练一个“大模型”

飧沾发表于 2025-12-7 00:45:01

一、说在前面

训练基座大模型那都是大公司们的事情，普通人、普通公司肯定是玩不起的，但是作为一个技术人，你可以不去做真正的大模型训练，但是你还是有必要知道和了解一下一个大模型是如何训练出来的。
而GPT_teacher-3.37M-cn 是一个很好的示例项目，让你可以用一台普通的PC，用CPU来训练一个3.37M的中文GPT模型，整个训练耗时不到20分钟，回答训练集里的问题的效果也还是挺不错的。感兴趣的同学可以用这个项目来练手、实操复现一下“自己动手从0开始训练一个大模型”的完整流程。
二、项目概述

一个轻量级中文GPT模型项目，专为在CPU上快速训练和演示而设计：
模型参数量：3.37M
架构：4层Transformer解码器
特点：使用RMSNorm、RoPE位置编码、权重共享等优化技术
目标：45分钟内在普通CPU上训练出可用的中文问答模型
参考训练时长：

[*]我的笔记本：CPU: i7-8850H CPU @ 2.60GHz+16G内存，整个训练花了1419.35秒，约需要23.65分钟。
[*]一台Mac Pro（2.6GHz 6核 i7, 16GB内存），整个训练1186.8秒，约需要19.78分钟。

三、完整复现流程

介绍完了，就让我们来实操整个从0到1的训练吧。
先下载代码：
git clone https://gitee.com/baidumap/GPT_teacher-3.37M-cn1. 环境准备

# 进入项目目录
cd g:\oddmeta\oddllm\GPT_teacher-3.37M-cn

# 安装依赖
python -m pip install -r requirements.txt依赖项包括：
pip>=21.0 # 确保依赖解析能力，避免安装失败torch>=2.2,=6.0,=1.24,=0.15,=0.1.99,

蔺堰发表于 2025-12-21 08:06:52

懂技术并乐意极积无私分享的人越来越少。珍惜

博咱发表于 2025-12-21 11:04:47

这个好，看起来很实用

焦和玉 发表于 2026-1-2 09:30:04

前排留名，哈哈哈

科元料 发表于 2026-1-14 00:15:08

东西不错很实用谢谢分享

蔺堰发表于 2026-1-16 20:46:37

东西不错很实用谢谢分享

姚望舒 发表于 2026-1-18 20:12:09

谢谢楼主提供！

滤冽发表于 2026-1-19 04:24:58

喜欢鼓捣这些软件，现在用得少，谢谢分享！

酒跚骼 发表于 2026-1-20 08:54:54

用心讨论，共获提升！

能杜孱 发表于 2026-1-23 10:18:05

谢谢分享，辛苦了

晌集涟 发表于 2026-1-29 04:14:16

懂技术并乐意极积无私分享的人越来越少。珍惜

里豳朝 发表于 2026-1-29 05:53:48

过来提前占个楼

劳暄美 发表于 2026-1-29 06:03:14

yyds。多谢分享

各卧唯 发表于 2026-1-30 05:22:42

很好很强大我过来先占个楼待编辑

琉艺戕 发表于 2026-1-30 08:22:05

感谢分享，学习下。

余思洁 发表于 2026-2-5 04:46:33

yyds。多谢分享

廖雯华 发表于 2026-2-8 19:28:45

很好很强大我过来先占个楼待编辑

杆树发表于 2026-2-9 06:16:02

收藏一下不知道什么时候能用到

叟澡帅 发表于 2026-2-9 11:22:17

感谢分享

轮达发表于 2026-2-9 21:35:00

很好很强大我过来先占个楼待编辑

页: [1] 2

程序园's Archiver

【有手就行】自己花20分钟从0开始训练一个“大模型”