Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

想问下,模型pretrain的时候用了那个类似UHD的切图吗? #168

Closed
GYxiaOH opened this issue May 14, 2024 · 8 comments
Closed

Comments

@GYxiaOH
Copy link

GYxiaOH commented May 14, 2024

如题。。如果pretrain就把图片切那么多份,训练成本是不是有些cover不住

@czczup
Copy link
Member

czczup commented May 16, 2024

对的,我们pretrain就切了12个块,从实验结果看,pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切,只在finetune切,会有1-2个点的性能下降

@GYxiaOH
Copy link
Author

GYxiaOH commented May 16, 2024

对的,我们pretrain就切了12个块,从实验结果看,pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切,只在finetune切,会有1-2个点的性能下降

感谢分享,你们卡真是充足(笑),另外问下为什么从Y i-34B切换回internLM2 20B了,按照论文的理论,越大的LLM应该和Intern vit6B配合的越好啊? 而且从其他一些数据上Yi34B确实效果好于20B

@GYxiaOH
Copy link
Author

GYxiaOH commented May 16, 2024

对的,我们pretrain就切了12个块,从实验结果看,pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切,只在finetune切,会有1-2个点的性能下降

另外论文中没写出来,训练过程中,如果图片大小不够切12块是怎么处理的? 全0吗

@czczup
Copy link
Member

czczup commented May 16, 2024

对的,我们pretrain就切了12个块,从实验结果看,pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切,只在finetune切,会有1-2个点的性能下降

感谢分享,你们卡真是充足(笑),另外问下为什么从Y i-34B切换回internLM2 20B了,按照论文的理论,越大的LLM应该和Intern vit6B配合的越好啊? 而且从其他一些数据上Yi34B确实效果好于20B

Yi34B效果确实好,我们跑的新的40B模型,点数比现在开源的这个26B的有大幅提升,每个数据集都涨了好几个点,就是那个太大了估计也没什么人跑得动,所以还没放出来。

@czczup
Copy link
Member

czczup commented May 16, 2024

对的,我们pretrain就切了12个块,从实验结果看,pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切,只在finetune切,会有1-2个点的性能下降

另外论文中没写出来,训练过程中,如果图片大小不够切12块是怎么处理的? 全0吗

训练是动态分辨率的,1-12个块都可以,切出来是几个块就用几个块训练,不会强行pad到12个块

@GYxiaOH
Copy link
Author

GYxiaOH commented May 17, 2024

对的,我们pretrain就切了12个块,从实验结果看,pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切,只在finetune切,会有1-2个点的性能下降

另外论文中没写出来,训练过程中,如果图片大小不够切12块是怎么处理的? 全0吗

训练是动态分辨率的,1-12个块都可以,切出来是几个块就用几个块训练,不会强行pad到12个块

👌最后一个问题,之前有篇论文讲的是LLM的base和chat版本比base版本更适合MLLM训练。我看论文里强调你们用的是chat版本,也是实验结果比较好吗

@czczup
Copy link
Member

czczup commented May 30, 2024

对的,我们pretrain就切了12个块,从实验结果看,pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切,只在finetune切,会有1-2个点的性能下降

另外论文中没写出来,训练过程中,如果图片大小不够切12块是怎么处理的? 全0吗

训练是动态分辨率的,1-12个块都可以,切出来是几个块就用几个块训练,不会强行pad到12个块

👌最后一个问题,之前有篇论文讲的是LLM的base和chat版本比base版本更适合MLLM训练。我看论文里强调你们用的是chat版本,也是实验结果比较好吗

我感觉好像大多数人在用chat模型做多模态训练,我有试过对比base模型和chat模型,chat模型的benchmark点数更高。

@GYxiaOH
Copy link
Author

GYxiaOH commented Jun 4, 2024

对的,我们pretrain就切了12个块,从实验结果看,pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切,只在finetune切,会有1-2个点的性能下降

另外论文中没写出来,训练过程中,如果图片大小不够切12块是怎么处理的? 全0吗

训练是动态分辨率的,1-12个块都可以,切出来是几个块就用几个块训练,不会强行pad到12个块

👌最后一个问题,之前有篇论文讲的是LLM的base和chat版本比base版本更适合MLLM训练。我看论文里强调你们用的是chat版本,也是实验结果比较好吗

我感觉好像大多数人在用chat模型做多模态训练,我有试过对比base模型和chat模型,chat模型的benchmark点数更高。

是的我们测试也是这样,但是之前一篇论文是说base好一点。。感谢回复 问题关闭了

@GYxiaOH GYxiaOH closed this as completed Jun 4, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants