想问下，模型pretrain的时候用了那个类似UHD的切图吗？ #168

GYxiaOH · 2024-05-14T01:57:01Z

如题。。如果pretrain就把图片切那么多份，训练成本是不是有些cover不住

czczup · 2024-05-16T05:38:48Z

对的，我们pretrain就切了12个块，从实验结果看，pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切，只在finetune切，会有1-2个点的性能下降

GYxiaOH · 2024-05-16T06:06:38Z

对的，我们pretrain就切了12个块，从实验结果看，pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切，只在finetune切，会有1-2个点的性能下降

感谢分享，你们卡真是充足（笑），另外问下为什么从Y i-34B切换回internLM2 20B了，按照论文的理论，越大的LLM应该和Intern vit6B配合的越好啊？而且从其他一些数据上Yi34B确实效果好于20B

GYxiaOH · 2024-05-16T06:07:26Z

对的，我们pretrain就切了12个块，从实验结果看，pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切，只在finetune切，会有1-2个点的性能下降

另外论文中没写出来，训练过程中，如果图片大小不够切12块是怎么处理的？全0吗

czczup · 2024-05-16T06:26:15Z

对的，我们pretrain就切了12个块，从实验结果看，pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切，只在finetune切，会有1-2个点的性能下降

感谢分享，你们卡真是充足（笑），另外问下为什么从Y i-34B切换回internLM2 20B了，按照论文的理论，越大的LLM应该和Intern vit6B配合的越好啊？而且从其他一些数据上Yi34B确实效果好于20B

Yi34B效果确实好，我们跑的新的40B模型，点数比现在开源的这个26B的有大幅提升，每个数据集都涨了好几个点，就是那个太大了估计也没什么人跑得动，所以还没放出来。

czczup · 2024-05-16T06:27:10Z

对的，我们pretrain就切了12个块，从实验结果看，pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切，只在finetune切，会有1-2个点的性能下降

另外论文中没写出来，训练过程中，如果图片大小不够切12块是怎么处理的？全0吗

训练是动态分辨率的，1-12个块都可以，切出来是几个块就用几个块训练，不会强行pad到12个块

GYxiaOH · 2024-05-17T06:25:20Z

对的，我们pretrain就切了12个块，从实验结果看，pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切，只在finetune切，会有1-2个点的性能下降

另外论文中没写出来，训练过程中，如果图片大小不够切12块是怎么处理的？全0吗

训练是动态分辨率的，1-12个块都可以，切出来是几个块就用几个块训练，不会强行pad到12个块

👌最后一个问题，之前有篇论文讲的是LLM的base和chat版本比base版本更适合MLLM训练。我看论文里强调你们用的是chat版本，也是实验结果比较好吗

czczup · 2024-05-30T16:14:26Z

对的，我们pretrain就切了12个块，从实验结果看，pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切，只在finetune切，会有1-2个点的性能下降

另外论文中没写出来，训练过程中，如果图片大小不够切12块是怎么处理的？全0吗

训练是动态分辨率的，1-12个块都可以，切出来是几个块就用几个块训练，不会强行pad到12个块

👌最后一个问题，之前有篇论文讲的是LLM的base和chat版本比base版本更适合MLLM训练。我看论文里强调你们用的是chat版本，也是实验结果比较好吗

我感觉好像大多数人在用chat模型做多模态训练，我有试过对比base模型和chat模型，chat模型的benchmark点数更高。

GYxiaOH · 2024-06-04T02:25:37Z

对的，我们pretrain就切了12个块，从实验结果看，pretrain和finetune对齐切图策略的性能是最好的。如果pretrain不切，只在finetune切，会有1-2个点的性能下降

另外论文中没写出来，训练过程中，如果图片大小不够切12块是怎么处理的？全0吗

训练是动态分辨率的，1-12个块都可以，切出来是几个块就用几个块训练，不会强行pad到12个块

👌最后一个问题，之前有篇论文讲的是LLM的base和chat版本比base版本更适合MLLM训练。我看论文里强调你们用的是chat版本，也是实验结果比较好吗

我感觉好像大多数人在用chat模型做多模态训练，我有试过对比base模型和chat模型，chat模型的benchmark点数更高。

是的我们测试也是这样，但是之前一篇论文是说base好一点。。感谢回复问题关闭了

GYxiaOH closed this as completed Jun 4, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

想问下，模型pretrain的时候用了那个类似UHD的切图吗？ #168

想问下，模型pretrain的时候用了那个类似UHD的切图吗？ #168

GYxiaOH commented May 14, 2024

czczup commented May 16, 2024

GYxiaOH commented May 16, 2024

GYxiaOH commented May 16, 2024

czczup commented May 16, 2024

czczup commented May 16, 2024

GYxiaOH commented May 17, 2024

czczup commented May 30, 2024

GYxiaOH commented Jun 4, 2024

想问下，模型pretrain的时候用了那个类似UHD的切图吗？ #168

想问下，模型pretrain的时候用了那个类似UHD的切图吗？ #168

Comments

GYxiaOH commented May 14, 2024

czczup commented May 16, 2024

GYxiaOH commented May 16, 2024

GYxiaOH commented May 16, 2024

czczup commented May 16, 2024

czczup commented May 16, 2024

GYxiaOH commented May 17, 2024

czczup commented May 30, 2024

GYxiaOH commented Jun 4, 2024