Skip to content
This repository has been archived by the owner on Jul 14, 2023. It is now read-only.

第1回大規模言語モデル分散学習ハッカソンで使用したソースコードです

Notifications You must be signed in to change notification settings

shunk031/abci-llm-distributed-training-hackathon-01

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

レポジトリのセットアップ

git clone https://github.com/shunk031/abci-llm-distributed-training-hackathon-01
cd /path/to/abci-llm-distributed-training-hackathon-01

Python 環境の構築

  • ABCI プリインストールモジュールの読み込み
module load python/3.10 cuda/11.7 cudnn/8.6

module list
# Currently Loaded Modulefiles:
#  1) python/3.10/3.10.10   2) cuda/11.7/11.7.1   3) cudnn/8.6/8.6.0
  • python 環境の構築
python3 -m venv .venv
source .venv/bin/activate

pip install -U pip wheel setuptools
pip install ruff black mypy

mosaicml/llm-foundry のインストール

  • mosaicml/llm-foundry を clone
git clone https://github.com/mosaicml/llm-foundry
cd llm-foundry

# Clone したときの commit hash を確認
git show --format="%H" --no-patch
# ef350d9e64d13cb1db35ab7941bf9039b1b499fd
  • mosaicml/llm-foundry をインストール
pip install cmake packaging torch
pip install -e ".[gpu]" # 結構時間かかります
pip install git+https://github.com/mosaicml/composer.git@dev

ジョブを投入

export GROUP=XXXXXXXXXX
export WANDB_API_KEY=XXXXXXXXXX

cd /path/to/abci-llm-distributed-training-hackathon-01

qsub -g $GROUP scripts/exp03.sh

モデルの種類

  • exp02.sh: MPT-7B 用
  • exp03.sh: MPT-30B 用

学習結果

wandb から確認できます:

About

第1回大規模言語モデル分散学習ハッカソンで使用したソースコードです

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published