lmdeploy教程疑问 - KV Cache量化和W4A16量化怎么叠加？ #376

melonwine · 2024-01-17T15:22:38Z

lmdeploy教程量化部分分别介绍了如何做KV Cache量化和W4A16量化，两者结果都得到turbomind格式的模型。
但怎么把这两者结合起来？比如在KV Cache量化的结果上做W4A16量化。
lmdeploy lite calibrate和lmdeploy lite auto_awq都𣎴接受turbomind格式的模型，该如何去叠加？

另外，如果想把量化后的模型和别人共享，怎么把turbomind格式的转换成hugging face格式的？

The text was updated successfully, but these errors were encountered:

SchweitzerGAO · 2024-01-18T13:27:41Z

反过来，先W4A16，再KV Cache

hscspring · 2024-01-29T09:04:37Z

@melonwine 教程里应该写了这个，w4a16得到参数后，kv cache量化用到的数据会放到参数文件夹下面，然后修改配置就生效了。
量化后的模型会在量化后的文件夹里，是先量化后再转为TurboMind的格式的。所以你需要分享的话直接拿那个量化模型就行。
TurboMind格式其实和TritonServer/FasterTransformer的是一样的，刚刚说了并不需要转回去。
如果确实想转回去（学习或探索目的），其实也是一样的，把TurboMind的参数依次读进去，再合并组装成HF格式的就行了。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

lmdeploy教程疑问 - KV Cache量化和W4A16量化怎么叠加？ #376

lmdeploy教程疑问 - KV Cache量化和W4A16量化怎么叠加？ #376

melonwine commented Jan 17, 2024

SchweitzerGAO commented Jan 18, 2024

hscspring commented Jan 29, 2024

lmdeploy教程疑问 - KV Cache量化和W4A16量化怎么叠加？ #376

lmdeploy教程疑问 - KV Cache量化和W4A16量化怎么叠加？ #376

Comments

melonwine commented Jan 17, 2024

SchweitzerGAO commented Jan 18, 2024

hscspring commented Jan 29, 2024