🚀 MMAlaya2
MMAlaya2基于InternVL - Chat - V1 - 5模型微调了20个LoRA模块。随后,使用PEFT模型合并方法TIES,将这些微调后的LoRA模块与InternVL - Chat - V1 - 5模型进行合并。
你可以在此处找到推理代码。
✨ 主要特性
- 模型微调:基于InternVL - Chat - V1 - 5模型微调20个LoRA模块,并使用TIES方法合并。
- 数据集准备:在MMBench基准测试的
mmbench_dev_cn_20231003.tsv
数据集中,针对20个类别,先使用思维链(CoT)一致性与InternVL - Chat - V1 - 5模型准备训练数据集。对于特定类别,如自然关系、图像情感、图像场景、动作识别和图像风格,分析InternVL - Chat - V1 - 5模型的错误案例,并从在线资源中准备图像和问答文本以解决这些问题。
- 性能提升:在MMBench Test (CN)上的平均得分达到82.1,比InternVL - Chat - V1 - 5模型的80.7分高出1.4分,与排名第4的GPT - 4o(0513,detail - high)得分相当。在其他四个基准测试中,得分也提高了0.2到0.6分,进一步缩小了与GPT - 4o性能的差距。
模型性能对比
模型 |
MMBench Test (CN) |
MMBench v1.1 Test (CN) |
CCBench dev |
MMBench Test |
MMBench v1.1 Test |
GPT - 4o (0513, detail - high) |
4/82.1 |
5/81.5 |
7/71.2 |
4/83.4 |
5/83 |
MMAlaya2 |
7/82.1 |
8/79.7 |
8/70 |
9/82.5 |
9/80.6 |
InternVL - Chat - V1.5 |
14/80.7 |
15/79.1 |
9/69.8 |
11/82.3 |
10/80.3 |
📚 详细文档
数据集处理
MMBench基准测试的mmbench_dev_cn_20231003.tsv
数据集包含20个类别。对于每个类别,首先使用思维链(CoT)一致性与InternVL - Chat - V1 - 5模型准备训练数据集。对于自然关系、图像情感、图像场景、动作识别和图像风格等特定类别,分析InternVL - Chat - V1 - 5模型产生的错误案例,并从在线资源中准备图像和问答文本,以解决这些问题。
模型合并
微调20个LoRA模块后,使用TIES方法将它们与InternVL - Chat - V1 - 5模型进行合并。
性能评估
非常感谢OpenCompass MMBench团队于2024年8月27日更新排行榜。我们从排行榜上收集了排名和分数以供参考。例如,排名“7/82.1”表示在该类别中排名第7,得分为82.1。我们选择GPT - 4o(0513,detail - high),因为它是MMBench Test (CN)中性能最佳的GPT - 4o模型。
MMAlaya2在MMBench Test (CN)上的平均得分达到82.1,比InternVL - Chat - V1 - 5模型的80.7分高出1.4分。虽然排名为第7,但该得分与排名第4的GPT - 4o相当。此外,在MMBench v1.1 Test (CN)、CCBench dev、MMBench Test和MMBench v1.1 Test这四个基准测试中,得分也提高了0.2到0.6分,进一步缩小了与GPT - 4o性能的差距。
📄 许可证
本项目遵循MIT许可证,与InternVL - Chat - V1 - 5模型的许可证一致。不过,InternLM2遵循Apache - 2.0许可证。
📚 引用
如果您在研究中发现本项目有用,请考虑引用:
@misc{datacanvas2024mmalaya2,
author = {DataCanvas Ltd.},
title = {MMAlaya2},
year = {2024},
howpublished = {\url{https://huggingface.co/DataCanvas/MMAlaya2}},
}