-
Notifications
You must be signed in to change notification settings - Fork 173
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
关于训练后的模型文件结构以及使用方式上的疑惑 #439
Comments
请补充下使用的 xtuner 版本,xtuner >= v0.1.12 对于对话模板部分有扩展性更新 |
关于对话模板部分的问题,可以先看下这个文档(xtuner>=0.1.12) |
请问这个我直接在控制台bash输入即可吗?还是说有python代码部署推理的方法呀 |
xtuner 保存后的模型是标准的 transformers 格式,和原本的模型是相同的,只是 qwen 官方 ckpt 中额外加了一些非 transformers 格式的东西,不会影响 transformers 的加载
由于 qwen 对话模板中有没有被训练过的 token,qlora 训练时 embedding 和 lm_head 是不训练的。
如果支持简单地在 terminal 里交互式对话,可以使用 如果是指部署成一个服务,xtuner 目前还没有提供部署的能力,训练好后的模型可以使用 |
以上为我qlora之后得到的lora文件以及合并后的文件结构,以下为原始qwen-1.8b-chat文件结构,两者并不完全一致。
由于qwen在modelscope上对chat模型做了特殊的问答代码处理,比如chat模型可以以history保存对话记录,如果我们的模型结构不一致,并且少了部分文件,是否可以用同样的代码调用训练好的模型呢?
The text was updated successfully, but these errors were encountered: