百川微调指南

软件依赖

Python 3.8+ 和 PyTorch 1.13.1+
🤗Transformers, Datasets, Accelerate, PEFT 和 TRL
sentencepiece 和 tiktoken
jieba, rouge-chinese 和 nltk (用于评估)
gradio 和 matplotlib (用于网页端交互)
uvicorn, fastapi 和 sse-starlette (用于 API)

以及 强而有力的 GPU！

如何使用

数据准备（可跳过）

关于数据集文件的格式，请参考 data/example_dataset 文件夹的内容。构建自定义数据集时，既可以使用单个 .json 文件，也可以使用一个数据加载脚本和多个文件。

注意：使用自定义数据集时，请更新 data/dataset_info.json 文件，该文件的格式请参考 data/README.md。

环境搭建（可跳过）

git clone https://github.com/ArtificialZeng/Baichuan-Chat-Tuning
conda create -n baichuan_etuning python=3.10
conda activate baichuan_etuning
cd Baichuan-Chat-Tuning
pip install -r requirements.txt

如果要在 Windows 平台上开启量化 LoRA（QLoRA），需要安装预编译的 bitsandbytes 库, 支持 CUDA 11.1 到 12.1.

pip install https://github.com/jllllll/bitsandbytes-windows-webui/releases/download/wheels/bitsandbytes-0.39.1-py3-none-win_amd64.whl

浏览器一键微调/测试

CUDA_VISIBLE_DEVICES=0 python src/train_web.py

目前网页 UI 仅支持单卡训练。如果要多卡训练，请用以下的命令行形式：

Baichuan指令监督微调(SFT - 一般这个用的最多，预训练脚本在下面)

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
    --stage sft \
    --model_name_or_path path_to_your_model \
    --do_train \
    --dataset alpaca_gpt4_zh \
    --template baichuan \
    --finetuning_type lora \
    --output_dir path_to_sft_checkpoint \
    --overwrite_cache \
    --per_device_train_batch_size 4 \
    --gradient_accumulation_steps 4 \
    --lr_scheduler_type cosine \
    --logging_steps 10 \
    --save_steps 1000 \
    --learning_rate 5e-5 \
    --num_train_epochs 3.0 \
    --plot_loss \
    --lora_target W_pack \
    --fp16

预训练

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
    --stage pt \
    --model_name_or_path path_to_your_model \
    --do_train \
    --dataset wiki_demo \
    --template default \
    --finetuning_type lora \
    --output_dir path_to_pt_checkpoint \
    --overwrite_cache \
    --per_device_train_batch_size 4 \
    --gradient_accumulation_steps 4 \
    --lr_scheduler_type cosine \
    --logging_steps 10 \
    --save_steps 1000 \
    --learning_rate 5e-5 \
    --num_train_epochs 3.0 \
    --plot_loss \
    --fp16

Baichuan Efficient Tuning

[ English | 中文 ]

更新日志

[23/08/12] 现在我们支持了 RoPE 插值来扩展 LLaMA 模型的上下文长度。请尝试使用 --rope_scaling linear 参数训练模型或使用 --rope_scaling dynamic 参数评估模型。

[23/08/11] 现在我们支持了指令模型的 DPO 训练。详情请参阅此示例（实验性功能）。

[23/08/03] 现在我们支持了 Qwen-7B 模型的训练。请尝试使用 --model_name_or_path Qwen/Qwen-7B-Chat 和 --lora_target c_attn 参数。使用 Qwen-7B-Chat 模型时请添加 --template chatml 参数。

[23/07/31] 现在我们支持了数据流式加载。请尝试使用 --streaming 和 --max_steps 10000 参数来流式加载数据集。

[23/07/29] 我们在 Hugging Face 发布了两个 13B 指令微调模型。详细内容请查阅我们的 Hugging Face 项目（LLaMA-2 / Baichuan）。

[23/07/19] 现在我们支持了 LLaMA-2 模型的训练。请尝试使用 --model_name_or_path meta-baichuan/Llama-2-7b-hf 参数。使用 LLaMA-2-chat 模型时请添加 --template baichuan2 参数。

[23/07/18] 我们开发了支持训练和测试的一体化浏览器界面。请尝试使用 train_web.py 在您的浏览器中微调模型。感谢 @KanadeSiina 和 @codemayq 在该功能开发中付出的努力。

[23/07/11] 现在我们支持了 Baichuan-13B 模型的训练。请尝试使用 --model_name_or_path baichuan-inc/Baichuan-13B-Base 和 --lora_target W_pack 参数。使用 Baichuan-13B-Chat 模型时请添加 --template baichuan 参数。

[23/07/09] 我们开源了 FastEdit ⚡🩹，一个简单易用的、能迅速编辑大模型事实记忆的工具包。如果您感兴趣请关注我们的 FastEdit 项目。

[23/07/07] 现在我们支持了 InternLM-7B 模型的训练。请尝试使用 --model_name_or_path internlm/internlm-7b 参数。使用 InternLM-chat 模型时请添加 --template intern 参数。

[23/07/05] 现在我们支持了 Falcon-7B/40B 模型的训练。请尝试使用 --model_name_or_path tiiuae/falcon-7b 和 --lora_target query_key_value 参数。

[23/06/29] 我们提供了一个可复现的指令模型微调示例，详细内容请查阅 Hugging Face 项目。

[23/06/22] 我们对齐了示例 API 与 OpenAI API 的格式，您可以将微调模型接入任意基于 ChatGPT 的应用中。

[23/06/15] 现在我们支持了 Baichuan-7B 模型的训练。请尝试使用 --model_name_or_path baichuan-inc/Baichuan-7B 和 --lora_target W_pack 参数。

[23/06/03] 现在我们实现了 4 比特的 LoRA 训练（也称 QLoRA）。请尝试使用 --quantization_bit 4 参数进行 4 比特量化微调。

[23/05/31] 现在我们支持了 BLOOM & BLOOMZ 模型的训练。请尝试使用 --model_name_or_path bigscience/bloomz-7b1-mt 和 --lora_target query_key_value 参数。

模型

模型名	模型大小	默认模块	Template
LLaMA	7B/13B/33B/65B	q_proj,v_proj	-
LLaMA-2	7B/13B/70B	q_proj,v_proj	baichuan2
BLOOM	560M/1.1B/1.7B/3B/7.1B/176B	query_key_value	-
BLOOMZ	560M/1.1B/1.7B/3B/7.1B/176B	query_key_value	-
Falcon	7B/40B	query_key_value	-
Baichuan	7B/13B	W_pack	baichuan
InternLM	7B	q_proj,v_proj	intern
Qwen	7B	c_attn	chatml
XVERSE	13B	q_proj,v_proj	-
ChatGLM2	6B	query_key_value	chatglm2

默认模块是 --lora_target 参数的部分可选项。请使用 python src/train_bash.py -h 查看全部可选项。
对于所有“基座”（Base）模型，--template 参数可以是 default, alpaca, vicuna 等任意值。但“对话”（Chat）模型请务必使用对应的模板。

训练方法

方法	全参数训练	部分参数训练	LoRA	QLoRA
预训练	✅	✅	✅	✅
指令监督微调	✅	✅	✅	✅
奖励模型训练			✅	✅
PPO 训练			✅	✅
DPO 训练	✅		✅	✅

使用 --quantization_bit 4/8 参数来启用 QLoRA 训练。

数据集

使用方法请参考 data/README.md 文件。

部分数据集的使用需要确认，我们推荐使用下述命令登录您的 Hugging Face 账户。

pip install --upgrade huggingface_hub
huggingface-cli login

奖励模型训练

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
    --stage rm \
    --model_name_or_path path_to_your_model \
    --do_train \
    --dataset comparison_gpt4_zh \
    --template default \
    --finetuning_type lora \
    --resume_lora_training False \
    --checkpoint_dir path_to_sft_checkpoint \
    --output_dir path_to_rm_checkpoint \
    --per_device_train_batch_size 2 \
    --gradient_accumulation_steps 4 \
    --lr_scheduler_type cosine \
    --logging_steps 10 \
    --save_steps 1000 \
    --learning_rate 1e-5 \
    --num_train_epochs 1.0 \
    --plot_loss \
    --fp16

PPO 训练

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
    --stage ppo \
    --model_name_or_path path_to_your_model \
    --do_train \
    --dataset alpaca_gpt4_zh \
    --template default \
    --finetuning_type lora \
    --resume_lora_training False \
    --checkpoint_dir path_to_sft_checkpoint \
    --reward_model path_to_rm_checkpoint \
    --output_dir path_to_ppo_checkpoint \
    --per_device_train_batch_size 2 \
    --gradient_accumulation_steps 4 \
    --lr_scheduler_type cosine \
    --logging_steps 10 \
    --save_steps 1000 \
    --learning_rate 1e-5 \
    --num_train_epochs 1.0 \
    --plot_loss

DPO 训练

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
    --stage dpo \
    --model_name_or_path path_to_your_model \
    --do_train \
    --dataset comparison_gpt4_zh \
    --template default \
    --finetuning_type lora \
    --resume_lora_training False \
    --checkpoint_dir path_to_sft_checkpoint \
    --output_dir path_to_dpo_checkpoint \
    --per_device_train_batch_size 2 \
    --gradient_accumulation_steps 4 \
    --lr_scheduler_type cosine \
    --logging_steps 10 \
    --save_steps 1000 \
    --learning_rate 1e-5 \
    --num_train_epochs 1.0 \
    --plot_loss \
    --fp16

多 GPU 分布式训练

使用 Huggingface Accelerate

accelerate config # 首先配置分布式环境
accelerate launch src/train_bash.py # 参数同上

使用 DeepSpeed ZeRO-2 进行全参数微调的 Accelerate 配置示例

compute_environment: LOCAL_MACHINE
deepspeed_config:
  gradient_accumulation_steps: 4
  gradient_clipping: 0.5
  offload_optimizer_device: none
  offload_param_device: none
  zero3_init_flag: false
  zero_stage: 2
distributed_type: DEEPSPEED
downcast_bf16: 'no'
machine_rank: 0
main_training_function: main
mixed_precision: fp16
num_machines: 1
num_processes: 4
rdzv_backend: static
same_network: true
tpu_env: []
tpu_use_cluster: false
tpu_use_sudo: false
use_cpu: false

使用 DeepSpeed

deepspeed --num_gpus 8 --master_port=9901 src/train_bash.py \
    --deepspeed ds_config.json \
    ... # 参数同上

使用 DeepSpeed ZeRO-2 进行全参数微调的 DeepSpeed 配置示例

{
  "train_micro_batch_size_per_gpu": "auto",
  "gradient_accumulation_steps": "auto",
  "gradient_clipping": "auto",
  "zero_allow_untested_optimizer": true,
  "fp16": {
    "enabled": "auto",
    "loss_scale": 0,
    "initial_scale_power": 16,
    "loss_scale_window": 1000,
    "hysteresis": 2,
    "min_loss_scale": 1
  },  
  "zero_optimization": {
    "stage": 2,
    "allgather_partitions": true,
    "allgather_bucket_size": 5e8,
    "reduce_scatter": true,
    "reduce_bucket_size": 5e8,
    "overlap_comm": false,
    "contiguous_gradients": true
  }
}

指标评估（BLEU 分数和汉语 ROUGE 分数）

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
    --stage sft \
    --model_name_or_path path_to_your_model \
    --do_eval \
    --dataset alpaca_gpt4_zh \
    --template default \
    --finetuning_type lora \
    --checkpoint_dir path_to_checkpoint \
    --output_dir path_to_eval_result \
    --per_device_eval_batch_size 8 \
    --max_samples 100 \
    --predict_with_generate

我们建议在量化模型的评估中使用 --per_device_eval_batch_size=1 和 --max_target_length 128。

模型预测

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
    --stage sft \
    --model_name_or_path path_to_your_model \
    --do_predict \
    --dataset alpaca_gpt4_zh \
    --template default \
    --finetuning_type lora \
    --checkpoint_dir path_to_checkpoint \
    --output_dir path_to_predict_result \
    --per_device_eval_batch_size 8 \
    --max_samples 100 \
    --predict_with_generate

API 服务

python src/api_demo.py \
    --model_name_or_path path_to_your_model \
    --template default \
    --finetuning_type lora \
    --checkpoint_dir path_to_checkpoint

关于 API 文档请见 http://localhost:8000/docs。

命令行测试

python src/cli_demo.py \
    --model_name_or_path path_to_your_model \
    --template default \
    --finetuning_type lora \
    --checkpoint_dir path_to_checkpoint

浏览器测试

python src/web_demo.py \
    --model_name_or_path path_to_your_model \
    --template default \
    --finetuning_type lora \
    --checkpoint_dir path_to_checkpoint

导出微调模型

python src/export_model.py \
    --model_name_or_path path_to_your_model \
    --template default \
    --finetuning_type lora \
    --checkpoint_dir path_to_checkpoint \
    --output_dir path_to_export

TODO

实现 flash attention (torch / xformers / flashattn)。
在推理阶段使用 Multi-query attention 进行加速。
支持 RLHF 的全参数微调。

协议

本仓库的代码依照 Apache-2.0 协议开源。

使用模型权重时，请遵循对应的模型协议：

引用

如果您觉得此项目有帮助，请考虑以下列格式引用

@Misc{baichuan-efficient-tuning,
  title = {LLaMA Efficient Tuning},
  author = {hiyouga},
  howpublished = {\url{https://github.com/hiyouga/Baichuan-Chat-Tuning}},
  year = {2023}
}

致谢

本项目是 ChatGLM-Efficient-Tuning 的同类项目。采用了类似的代码结构和训练方法。

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
assets		assets
data		data
src		src
tests		tests
.DS_Store		.DS_Store
LICENSE		LICENSE
README.md		README.md
README_en.md		README_en.md
pyproject.toml		pyproject.toml
requirements.txt		requirements.txt
setup.py		setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

百川微调指南

软件依赖

如何使用

数据准备（可跳过）

环境搭建（可跳过）

浏览器一键微调/测试

Baichuan指令监督微调(SFT - 一般这个用的最多，预训练脚本在下面)

预训练

Baichuan Efficient Tuning

更新日志

模型

训练方法

数据集

奖励模型训练

PPO 训练

DPO 训练

多 GPU 分布式训练

使用 Huggingface Accelerate

使用 DeepSpeed

指标评估（BLEU 分数和汉语 ROUGE 分数）

模型预测

API 服务

命令行测试

浏览器测试

导出微调模型

TODO

协议

引用

致谢

Star History

About

Releases

Packages

Languages

License

ArtificialZeng/Baichuan-Chat-Tuning

Folders and files

Latest commit

History

Repository files navigation

百川微调指南

软件依赖

如何使用

数据准备（可跳过）

环境搭建（可跳过）

浏览器一键微调/测试

Baichuan指令监督微调(SFT - 一般这个用的最多，预训练脚本在下面)

预训练

Baichuan Efficient Tuning

更新日志

模型

训练方法

数据集

奖励模型训练

PPO 训练

DPO 训练

多 GPU 分布式训练

使用 Huggingface Accelerate

使用 DeepSpeed

指标评估（BLEU 分数和汉语 ROUGE 分数）

模型预测

API 服务

命令行测试

浏览器测试

导出微调模型

TODO

协议

引用

致谢

Star History

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages