找回密码
 立即注册
首页 业界区 安全 【有手就行】自己花20分钟从0开始训练一个“大模型” ...

【有手就行】自己花20分钟从0开始训练一个“大模型”

飧沾 昨天 00:45
一、说在前面

训练基座大模型那都是大公司们的事情,普通人、普通公司肯定是玩不起的,但是作为一个技术人,你可以不去做真正的大模型训练,但是你还是有必要知道和了解一下一个大模型是如何训练出来的。
而GPT_teacher-3.37M-cn 是一个很好的示例项目,让你可以用一台普通的PC,用CPU来训练一个3.37M的中文GPT模型,整个训练耗时不到20分钟,回答训练集里的问题的效果也还是挺不错的。感兴趣的同学可以用这个项目来练手、实操复现一下“自己动手从0开始训练一个大模型”的完整流程。
二、项目概述

一个轻量级中文GPT模型项目,专为在CPU上快速训练和演示而设计:
模型参数量:3.37M
架构:4层Transformer解码器
特点:使用RMSNorm、RoPE位置编码、权重共享等优化技术
目标:45分钟内在普通CPU上训练出可用的中文问答模型
参考训练时长:

  • 我的笔记本:CPU: i7-8850H CPU @ 2.60GHz+16G内存,整个训练花了1419.35秒,约需要23.65分钟。
  • 一台Mac Pro(2.6GHz 6核 i7, 16GB内存),整个训练1186.8秒,约需要19.78分钟。
1.png

三、完整复现流程

介绍完了,就让我们来实操整个从0到1的训练吧。
先下载代码:
  1. git clone https://gitee.com/baidumap/GPT_teacher-3.37M-cn
复制代码
1. 环境准备
  1. # 进入项目目录
  2. cd g:\oddmeta\oddllm\GPT_teacher-3.37M-cn
  3. # 安装依赖
  4. python -m pip install -r requirements.txt
复制代码
依赖项包括:
[code]pip>=21.0          # 确保依赖解析能力,避免安装失败torch>=2.2,=6.0,=1.24,=0.15,=0.1.99,

相关推荐

您需要登录后才可以回帖 登录 | 立即注册