examples/pytorch/llama/run_train_llama.sh

DATA_PARALLEL_SIZE=4


export PYTHONPATH=$PYTHONPATH:./
torchrun --nproc_per_node $DATA_PARALLEL_SIZE examples/pytorch/llama/finetune_llama.py \
    --work_dir './tmp' \
    --model 'skyline2006/llama-7b' \
    --deepspeed 'default_offload_opt_param.json' \
    --eval_interval 100 \
    --max_epochs 3 \
[to #48855014] llama finetune + deepspeed 1. llama base finetune：使用trainer从llama finetune至alpaca，效果确认并提供example 2. deepspeed通用性完善：mpu解耦；deepspeed的训练信息支持从ms log透出（目前ms打印的log有误）；支持从modelscope configuration.json 进行 deepspeed config 配置；deepspeed optimizer和lr_scheduler 初始化支持；解决deepspeed和ddp同时使用报错；解决保存ckpt时报错 Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/12651323 2023-06-14 10:00:23 +08:00			`DATA_PARALLEL_SIZE=4`


			`export PYTHONPATH=$PYTHONPATH:./`
			`torchrun --nproc_per_node $DATA_PARALLEL_SIZE examples/pytorch/llama/finetune_llama.py \`
			`--work_dir './tmp' \`
			`--model 'skyline2006/llama-7b' \`
			`--deepspeed 'default_offload_opt_param.json' \`
support load dataset for llama support loading dataset for llama: 1.load dataset by MsDataset when parameters train dataset name and val dataset name were set. but there is no suitable dataset in hub. 2.load dataset by MsDataset when only parameter train dataset name was set, and then split into train dataset and validation dataset . 3.load dataset by MsDataset when user set parameter src_txt, which is a file path such as 'alpaca_data.json', and then split into training dataset and validation dataset. 4.load dataset by build dataset from file in flex training. Link: https://code.alibaba-inc.com/Ali-MaaS/MaaS-lib/codereview/13505335 2023-08-07 19:48:36 +08:00			`--eval_interval 100 \`
			`--max_epochs 3 \`