Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

计划支持多模态模型,比如llava1.5的long sequence的训练吗 #629

Open
dyyoungg opened this issue Apr 30, 2024 · 7 comments
Open

Comments

@dyyoungg
Copy link

如题,

@hhaAndroid
Copy link
Collaborator

llava 1.5 有支持 long sequence 训练吗?

@dyyoungg
Copy link
Author

llava 1.5 有支持 long sequence 训练吗?

目前看起来没有

@hhaAndroid
Copy link
Collaborator

长序列训练不是问题,目前 xtuner 已经支持了。主要问题是需要多模态的长序列数据集

@HIT-cwh
Copy link
Collaborator

HIT-cwh commented Apr 30, 2024

能不能问下你的长序列训练场景是什么呢?我看目前Llava训练的序列长度普遍不长

@dyyoungg
Copy link
Author

能不能问下你的长序列训练场景是什么呢?我看目前Llava训练的序列长度普遍不长

目前很多视频理解模型都是基于llava的,但是理解长度都短,长视频的理解需要更多的图像token

@dyyoungg
Copy link
Author

长序列训练不是问题,目前 xtuner 已经支持了。主要问题是需要多模态的长序列数据集

我其实困惑就在于 多模态数据集处理的时候,是要过vision encoder和projector的,但是如果多图的话,比如几百上千张图,不可能等到你把llm的sequence都拼完了 再来切吧,这样效率感觉就低了。就是有vision encoder之后感觉 这套训练流程 似乎得改

@HIT-cwh
Copy link
Collaborator

HIT-cwh commented May 8, 2024

长序列训练不是问题,目前 xtuner 已经支持了。主要问题是需要多模态的长序列数据集

我其实困惑就在于 多模态数据集处理的时候,是要过vision encoder和projector的,但是如果多图的话,比如几百上千张图,不可能等到你把llm的sequence都拼完了 再来切吧,这样效率感觉就低了。就是有vision encoder之后感觉 这套训练流程 似乎得改

如果允许vision encoder的重复计算,现有xtuner的序列并行方法应该比较好支持,如果不允许sequence parallel group内的重复计算,可能就复杂多了

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants