Skip to main content

DeepSpeed

Megatron-DeepSpeed 是一个用于训练大型语言模型的工具。Megatron-DeepSpeed 结合了 Megatron-LM 和 DeepSpeed 技术,可以有效地并行训练巨大的模型,提高了训练效率和规模。

1. 云主机选择

在潞晨云中,打开算力市场,按照计费方式、地区、显卡型号筛选可供租用的机器。在本例中,DeepSpeed 可以在单卡 H800 上完成,因此,我们选择 1 块 H800 GPU。

在镜像选项中,我们选择预置的 "DeepSpeed (2.4)" 镜像。

2. DeepSpeed 微调 LLaMA

连接上云主机后,即可开箱即用 DeepSpeed。在本例中,我们以预置的 Llama-2-7b-hf 模型与数据集 alpaca 为例,执行如下指令即可开启 DeepSpeed 加速微调。

conda activate deepspeed
cd ~/Megatron-DeepSpeed
mkdir /data
ln -s ~/notebook/common_data/Llama-2-7b-hf/ /data/llama-7b
ln -s ~/notebook/common_data/alpaca/alpaca_data.json ~/Megatron-DeepSpeed/alpaca_data.json

# 1. Converting Hugging Face Model Weights to Megatron-Deepspeed Model
bash examples_deepspeed/finetune_hf_llama/finetune_llama.sh convert
# 2. Fine-tuning Process
bash examples_deepspeed/finetune_hf_llama/finetune_llama.sh

更多关于 DeepSpeed 的使用,可以参阅:https://github.com/microsoft/Megatron-DeepSpeed