🚀 MMAlaya2
MMAlaya2基於InternVL - Chat - V1 - 5模型微調了20個LoRA模塊。隨後,使用PEFT模型合併方法TIES,將這些微調後的LoRA模塊與InternVL - Chat - V1 - 5模型進行合併。
你可以在此處找到推理代碼。
✨ 主要特性
- 模型微調:基於InternVL - Chat - V1 - 5模型微調20個LoRA模塊,並使用TIES方法合併。
- 數據集準備:在MMBench基準測試的
mmbench_dev_cn_20231003.tsv
數據集中,針對20個類別,先使用思維鏈(CoT)一致性與InternVL - Chat - V1 - 5模型準備訓練數據集。對於特定類別,如自然關係、圖像情感、圖像場景、動作識別和圖像風格,分析InternVL - Chat - V1 - 5模型的錯誤案例,並從在線資源中準備圖像和問答文本以解決這些問題。
- 性能提升:在MMBench Test (CN)上的平均得分達到82.1,比InternVL - Chat - V1 - 5模型的80.7分高出1.4分,與排名第4的GPT - 4o(0513,detail - high)得分相當。在其他四個基準測試中,得分也提高了0.2到0.6分,進一步縮小了與GPT - 4o性能的差距。
模型性能對比
模型 |
MMBench Test (CN) |
MMBench v1.1 Test (CN) |
CCBench dev |
MMBench Test |
MMBench v1.1 Test |
GPT - 4o (0513, detail - high) |
4/82.1 |
5/81.5 |
7/71.2 |
4/83.4 |
5/83 |
MMAlaya2 |
7/82.1 |
8/79.7 |
8/70 |
9/82.5 |
9/80.6 |
InternVL - Chat - V1.5 |
14/80.7 |
15/79.1 |
9/69.8 |
11/82.3 |
10/80.3 |
📚 詳細文檔
數據集處理
MMBench基準測試的mmbench_dev_cn_20231003.tsv
數據集包含20個類別。對於每個類別,首先使用思維鏈(CoT)一致性與InternVL - Chat - V1 - 5模型準備訓練數據集。對於自然關係、圖像情感、圖像場景、動作識別和圖像風格等特定類別,分析InternVL - Chat - V1 - 5模型產生的錯誤案例,並從在線資源中準備圖像和問答文本,以解決這些問題。
模型合併
微調20個LoRA模塊後,使用TIES方法將它們與InternVL - Chat - V1 - 5模型進行合併。
性能評估
非常感謝OpenCompass MMBench團隊於2024年8月27日更新排行榜。我們從排行榜上收集了排名和分數以供參考。例如,排名“7/82.1”表示在該類別中排名第7,得分為82.1。我們選擇GPT - 4o(0513,detail - high),因為它是MMBench Test (CN)中性能最佳的GPT - 4o模型。
MMAlaya2在MMBench Test (CN)上的平均得分達到82.1,比InternVL - Chat - V1 - 5模型的80.7分高出1.4分。雖然排名為第7,但該得分與排名第4的GPT - 4o相當。此外,在MMBench v1.1 Test (CN)、CCBench dev、MMBench Test和MMBench v1.1 Test這四個基準測試中,得分也提高了0.2到0.6分,進一步縮小了與GPT - 4o性能的差距。
📄 許可證
本項目遵循MIT許可證,與InternVL - Chat - V1 - 5模型的許可證一致。不過,InternLM2遵循Apache - 2.0許可證。
📚 引用
如果您在研究中發現本項目有用,請考慮引用:
@misc{datacanvas2024mmalaya2,
author = {DataCanvas Ltd.},
title = {MMAlaya2},
year = {2024},
howpublished = {\url{https://huggingface.co/DataCanvas/MMAlaya2}},
}