🚀 Table LLaVA模型卡片
Table LLaVA 7B是一個開源的多模態聊天機器人,能夠理解不同的表格圖像,並完成各種與表格相關的任務,如問答、表格單元格描述和結構理解等。
更多詳細信息請參閱ACL 2024論文:多模態表格理解
🚀 快速開始
Table LLaVA 7B模型可用於理解表格圖像並完成相關任務。你可以參考論文和代碼庫來使用該模型。
✨ 主要特性
- 多模態理解:能夠理解不同的表格圖像,並完成各種與表格相關的任務。
- 遵循LLaVA架構:嚴格遵循LLaVA - v1.5模型架構和訓練流程。
- 廣泛的數據集支持:使用多個數據集進行訓練,包括專門構建的多模態指令跟隨數據。
📚 詳細文檔
模型詳情
模型類型:Table LLaVA 7B嚴格遵循LLaVA - v1.5模型架構和訓練流程,使用[CLIP - ViT - L - 336px](https://huggingface.co/openai/clip - vit - large - patch14 - 336)作為視覺編碼器(圖像分辨率為336*336),[Vicuna - v1.5 - 7B](https://huggingface.co/lmsys/vicuna - 7b - v1.5)作為基礎大語言模型,並使用兩層MLP作為視覺 - 語言連接器。
它採用與LLaVA相同的兩階段訓練流程:
- 預訓練:使用圖像 - 標題數據和表格識別數據訓練視覺 - 語言連接器。
- 指令微調:使用表格和非表格任務的多模態指令跟隨數據訓練視覺 - 語言連接器和基礎大語言模型。
代碼庫:我們使用[LLaVA - v1.5](https://github.com/haotian - liu/LLaVA)的官方代碼進行模型訓練和推理,並將保存的模型檢查點上傳到本倉庫。因此,Table LLaVA可以使用其原始代碼,以與普通LLaVA v1.5模型相同的方式使用。
模型日期:Table - LLaVA 7B於2024年1月進行訓練。
模型問題或建議反饋地址:https://github.com/SpursGoZmy/Table - LLaVA/issues
訓練數據集
訓練數據包括原始的LLaVA - 1.5數據和專門構建的來自MMTab數據集的多模態指令跟隨數據,該數據集是一個大規模數據集,涵蓋了廣泛的表格圖像和與表格相關的任務。
我們還在MMTab數據集中提供了合併後的預訓練和指令微調數據,即enhanced_llava_pretrain_data_708K.json和enhanced_llava_sft_data_898K.json,這些數據用於訓練Table LLaVA。
評估數據集
一組包含17個內部和7個外部表格基準測試的集合,包括15個與表格相關的任務,如表格問答和表格轉文本生成。我們還在兩個非表格基準測試上評估Table LLaVA:TextVQA和[llava - bench - in - the - wild](https://huggingface.co/datasets/liuhaotian/llava - bench - in - the - wild)。
許可證
Table LLaVA基於LLaVA - 1.5,因此遵循其許可證。Llama 2根據LLAMA 2社區許可證進行許可,版權所有 (c) Meta Platforms, Inc. 保留所有權利。
預期用途
主要預期用途:Table LLaVA的主要用途是用於大型多模態模型和聊天機器人的研究,特別是多模態表格理解。
主要預期用戶:該模型的主要預期用戶是計算機視覺、自然語言處理、機器學習和人工智能領域的研究人員和愛好者。
侷限性
Table LLaVA每次僅接受一張表格圖像作為模型輸入。支持多張表格圖像輸入將有助於支持更多的應用場景。儘管提出的Table - LLaVA在廣泛的基於表格的任務中表現出色,但輸入圖像的分辨率(336*336)相對較低,可能會限制其性能上限。幸運的是,隨著具有更高輸入圖像分辨率的多模態大語言模型(如Monkey (Li et al., 2023d)、LLaVA - Next (Liu et al., 2024))的出現,研究人員可以在未來的研究中使用MMTab開發更強大的表格多模態大語言模型。