deepspeed support #78

jiangix-paper · 2024-02-06T05:10:29Z

Hello, I want to finetune llama2 70B medusa head. But for A100-80G, if I do not want use quantized model, it can not fit the model in a single A100. So, can I finetune it using deepspeed stage 3?

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

deepspeed support #78

deepspeed support #78

jiangix-paper commented Feb 6, 2024

deepspeed support #78

deepspeed support #78

Comments

jiangix-paper commented Feb 6, 2024