You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
lmdeploy教程量化部分 分别介绍了如何做KV Cache量化和W4A16量化,两者结果都得到turbomind格式的模型。
但怎么把这两者结合起来?比如在KV Cache量化的结果上做W4A16量化。 lmdeploy lite calibrate和lmdeploy lite auto_awq都𣎴接受turbomind格式的模型,该如何去叠加?
lmdeploy教程量化部分 分别介绍了如何做KV Cache量化和W4A16量化,两者结果都得到turbomind格式的模型。
但怎么把这两者结合起来?比如在KV Cache量化的结果上做W4A16量化。
lmdeploy lite calibrate
和lmdeploy lite auto_awq
都𣎴接受turbomind格式的模型,该如何去叠加?另外,如果想把量化后的模型和别人共享,怎么把turbomind格式的转换成hugging face格式的?
The text was updated successfully, but these errors were encountered: