飧沾 发表于 2025-12-7 00:45:01

【有手就行】自己花20分钟从0开始训练一个“大模型”

一、说在前面

训练基座大模型那都是大公司们的事情,普通人、普通公司肯定是玩不起的,但是作为一个技术人,你可以不去做真正的大模型训练,但是你还是有必要知道和了解一下一个大模型是如何训练出来的。
而GPT_teacher-3.37M-cn 是一个很好的示例项目,让你可以用一台普通的PC,用CPU来训练一个3.37M的中文GPT模型,整个训练耗时不到20分钟,回答训练集里的问题的效果也还是挺不错的。感兴趣的同学可以用这个项目来练手、实操复现一下“自己动手从0开始训练一个大模型”的完整流程。
二、项目概述

一个轻量级中文GPT模型项目,专为在CPU上快速训练和演示而设计:
模型参数量:3.37M
架构:4层Transformer解码器
特点:使用RMSNorm、RoPE位置编码、权重共享等优化技术
目标:45分钟内在普通CPU上训练出可用的中文问答模型
参考训练时长:

[*]我的笔记本:CPU: i7-8850H CPU @ 2.60GHz+16G内存,整个训练花了1419.35秒,约需要23.65分钟。
[*]一台Mac Pro(2.6GHz 6核 i7, 16GB内存),整个训练1186.8秒,约需要19.78分钟。

三、完整复现流程

介绍完了,就让我们来实操整个从0到1的训练吧。
先下载代码:
git clone https://gitee.com/baidumap/GPT_teacher-3.37M-cn1. 环境准备

# 进入项目目录
cd g:\oddmeta\oddllm\GPT_teacher-3.37M-cn

# 安装依赖
python -m pip install -r requirements.txt依赖项包括:
pip>=21.0          # 确保依赖解析能力,避免安装失败torch>=2.2,=6.0,=1.24,=0.15,=0.1.99,

蔺堰 发表于 2025-12-21 08:06:52

懂技术并乐意极积无私分享的人越来越少。珍惜

博咱 发表于 2025-12-21 11:04:47

这个好,看起来很实用

焦和玉 发表于 2026-1-2 09:30:04

前排留名,哈哈哈

科元料 发表于 2026-1-14 00:15:08

东西不错很实用谢谢分享

蔺堰 发表于 2026-1-16 20:46:37

东西不错很实用谢谢分享

姚望舒 发表于 2026-1-18 20:12:09

谢谢楼主提供!

滤冽 发表于 2026-1-19 04:24:58

喜欢鼓捣这些软件,现在用得少,谢谢分享!

酒跚骼 发表于 2026-1-20 08:54:54

用心讨论,共获提升!

能杜孱 发表于 2026-1-23 10:18:05

谢谢分享,辛苦了

晌集涟 发表于 2026-1-29 04:14:16

懂技术并乐意极积无私分享的人越来越少。珍惜

里豳朝 发表于 2026-1-29 05:53:48

过来提前占个楼

劳暄美 发表于 2026-1-29 06:03:14

yyds。多谢分享

各卧唯 发表于 2026-1-30 05:22:42

很好很强大我过来先占个楼 待编辑

琉艺戕 发表于 2026-1-30 08:22:05

感谢分享,学习下。

余思洁 发表于 2026-2-5 04:46:33

yyds。多谢分享

廖雯华 发表于 2026-2-8 19:28:45

很好很强大我过来先占个楼 待编辑

杆树 发表于 2026-2-9 06:16:02

收藏一下   不知道什么时候能用到

叟澡帅 发表于 2026-2-9 11:22:17

感谢分享

轮达 发表于 2026-2-9 21:35:00

很好很强大我过来先占个楼 待编辑
页: [1] 2
查看完整版本: 【有手就行】自己花20分钟从0开始训练一个“大模型”