Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

【提问】关于其他测试集的支持 #97

Open
mary-0830 opened this issue Feb 28, 2024 · 3 comments
Open

【提问】关于其他测试集的支持 #97

mary-0830 opened this issue Feb 28, 2024 · 3 comments

Comments

@mary-0830
Copy link

hi,
感谢你们团队的工作。
我想咨询一下,

  1. 请问后续会支持GQA,OKVQA,CMMMU这些测试集的推理评估吗?
  2. 后续会像opencompass一样,支持调用api进行多模态评估吗?
  3. chartqa,textvqa这些分数对不上官方论文的数值,请问后续会进行优化吗?
@kennymckormick
Copy link
Member

Hi, @mary-0830 ,

  1. 有计划
  2. 目前我们已支持 API 评估,请参考 GPT-4v, GeminiProVision 等样例
  3. 后续有安排,约在一两周后

@mary-0830
Copy link
Author

hi, @kennymckormick
感谢你的回复哈。还想咨询两个问题:

  1. sciqa的数据量好像和官方的数据量对不齐(sciqa_test数据量是4241,而您提供的是2017)。是不是因为sciqa这部分只抽取了vlm的部分,纯文本的部分就去掉了。那如果想要使用vlmeval测试sciqa是需要执行两个库才能完成吗?
  2. chartqa也有数据量不对齐的问题,我看chartqa_human的部分测试数量是1250,但是您提供的数量是2210。

@mary-0830
Copy link
Author

hi, @kennymckormick , 感谢你的回复哈。还想咨询两个问题:

  1. sciqa的数据量好像和官方的数据量对不齐(sciqa_test数据量是4241,而您提供的是2017)。是不是因为sciqa这部分只抽取了vlm的部分,纯文本的部分就去掉了。那如果想要使用vlmeval测试sciqa是需要执行两个库才能完成吗?
  2. chartqa也有数据量不对齐的问题,我看chartqa_human的部分测试数量是1250,但是您提供的数量是2210。

针对第二个问题,chartqa这个数据集您包含了test共1250条数据,val共960条数据,所以数据量是2210。对于这个分数分数太低的问题,您可以在VLMEvalKit/vlmeval/utils/dataset.py中build_prompt添加这一串prompt,效果会得到一定的提升。(我看其他模型测试时也添加了这个提示)
elif DATASET_TYPE(dataset) == 'VQA': prompt += "\nAnswer the question using a single word or phrase."

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

2 participants