New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
计划支持多模态模型,比如llava1.5的long sequence的训练吗 #629
Comments
llava 1.5 有支持 long sequence 训练吗? |
目前看起来没有 |
长序列训练不是问题,目前 xtuner 已经支持了。主要问题是需要多模态的长序列数据集 |
能不能问下你的长序列训练场景是什么呢?我看目前Llava训练的序列长度普遍不长 |
目前很多视频理解模型都是基于llava的,但是理解长度都短,长视频的理解需要更多的图像token |
我其实困惑就在于 多模态数据集处理的时候,是要过vision encoder和projector的,但是如果多图的话,比如几百上千张图,不可能等到你把llm的sequence都拼完了 再来切吧,这样效率感觉就低了。就是有vision encoder之后感觉 这套训练流程 似乎得改 |
如果允许vision encoder的重复计算,现有xtuner的序列并行方法应该比较好支持,如果不允许sequence parallel group内的重复计算,可能就复杂多了 |
如题,
The text was updated successfully, but these errors were encountered: