-
Notifications
You must be signed in to change notification settings - Fork 251
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
想问下,模型pretrain的时候用了那个类似UHD的切图吗? #168
Comments
对的,我们pretrain就切了12个块,从实验结果看,pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切,只在finetune切,会有1-2个点的性能下降 |
感谢分享,你们卡真是充足(笑),另外问下为什么从Y i-34B切换回internLM2 20B了,按照论文的理论,越大的LLM应该和Intern vit6B配合的越好啊? 而且从其他一些数据上Yi34B确实效果好于20B |
另外论文中没写出来,训练过程中,如果图片大小不够切12块是怎么处理的? 全0吗 |
Yi34B效果确实好,我们跑的新的40B模型,点数比现在开源的这个26B的有大幅提升,每个数据集都涨了好几个点,就是那个太大了估计也没什么人跑得动,所以还没放出来。 |
训练是动态分辨率的,1-12个块都可以,切出来是几个块就用几个块训练,不会强行pad到12个块 |
👌最后一个问题,之前有篇论文讲的是LLM的base和chat版本比base版本更适合MLLM训练。我看论文里强调你们用的是chat版本,也是实验结果比较好吗 |
我感觉好像大多数人在用chat模型做多模态训练,我有试过对比base模型和chat模型,chat模型的benchmark点数更高。 |
是的我们测试也是这样,但是之前一篇论文是说base好一点。。感谢回复 问题关闭了 |
如题。。如果pretrain就把图片切那么多份,训练成本是不是有些cover不住
The text was updated successfully, but these errors were encountered: