评测multi-modal task的dataset与benchmarkLLaVA images与ALLaVaLLaVA全称为Large Language and Vision Assistant。LLaVa images包含595K张image-text对。ALLaVa进一步使用高质量的训练数据(high-quality training data)可以在一个轻量化的模型上实现与大型vision-language model(LVLM)近似的表现。他们主要作为LVLM的pretrain训练数据。
MathVista其全称为Mathematical reasoning benchmark in Visual contexts,其在2024年的ICLR上提出。其目标主要是用于检验multi-modal模型的数学推理能力。其包含6141个样本。
表现最好的模型是GPT-4V,取得了49.9%的平均精度,而人类测试者取得的成绩是65%。
文中列出了数学推理能力对于模型的重要意义,其目标是满足解决教学中的问题、对统计数据进行有逻辑地整理甚至辅助科研等等的需求。
它集中解决5类问题:
Figu ...