🚀 Table LLaVA模型卡片
Table LLaVA 7B是一个开源的多模态聊天机器人,能够理解不同的表格图像,并完成各种与表格相关的任务,如问答、表格单元格描述和结构理解等。
更多详细信息请参阅ACL 2024论文:多模态表格理解
🚀 快速开始
Table LLaVA 7B模型可用于理解表格图像并完成相关任务。你可以参考论文和代码库来使用该模型。
✨ 主要特性
- 多模态理解:能够理解不同的表格图像,并完成各种与表格相关的任务。
- 遵循LLaVA架构:严格遵循LLaVA - v1.5模型架构和训练流程。
- 广泛的数据集支持:使用多个数据集进行训练,包括专门构建的多模态指令跟随数据。
📚 详细文档
模型详情
模型类型:Table LLaVA 7B严格遵循LLaVA - v1.5模型架构和训练流程,使用[CLIP - ViT - L - 336px](https://huggingface.co/openai/clip - vit - large - patch14 - 336)作为视觉编码器(图像分辨率为336*336),[Vicuna - v1.5 - 7B](https://huggingface.co/lmsys/vicuna - 7b - v1.5)作为基础大语言模型,并使用两层MLP作为视觉 - 语言连接器。
它采用与LLaVA相同的两阶段训练流程:
- 预训练:使用图像 - 标题数据和表格识别数据训练视觉 - 语言连接器。
- 指令微调:使用表格和非表格任务的多模态指令跟随数据训练视觉 - 语言连接器和基础大语言模型。
代码库:我们使用[LLaVA - v1.5](https://github.com/haotian - liu/LLaVA)的官方代码进行模型训练和推理,并将保存的模型检查点上传到本仓库。因此,Table LLaVA可以使用其原始代码,以与普通LLaVA v1.5模型相同的方式使用。
模型日期:Table - LLaVA 7B于2024年1月进行训练。
模型问题或建议反馈地址:https://github.com/SpursGoZmy/Table - LLaVA/issues
训练数据集
训练数据包括原始的LLaVA - 1.5数据和专门构建的来自MMTab数据集的多模态指令跟随数据,该数据集是一个大规模数据集,涵盖了广泛的表格图像和与表格相关的任务。
我们还在MMTab数据集中提供了合并后的预训练和指令微调数据,即enhanced_llava_pretrain_data_708K.json和enhanced_llava_sft_data_898K.json,这些数据用于训练Table LLaVA。
评估数据集
一组包含17个内部和7个外部表格基准测试的集合,包括15个与表格相关的任务,如表格问答和表格转文本生成。我们还在两个非表格基准测试上评估Table LLaVA:TextVQA和[llava - bench - in - the - wild](https://huggingface.co/datasets/liuhaotian/llava - bench - in - the - wild)。
许可证
Table LLaVA基于LLaVA - 1.5,因此遵循其许可证。Llama 2根据LLAMA 2社区许可证进行许可,版权所有 (c) Meta Platforms, Inc. 保留所有权利。
预期用途
主要预期用途:Table LLaVA的主要用途是用于大型多模态模型和聊天机器人的研究,特别是多模态表格理解。
主要预期用户:该模型的主要预期用户是计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员和爱好者。
局限性
Table LLaVA每次仅接受一张表格图像作为模型输入。支持多张表格图像输入将有助于支持更多的应用场景。尽管提出的Table - LLaVA在广泛的基于表格的任务中表现出色,但输入图像的分辨率(336*336)相对较低,可能会限制其性能上限。幸运的是,随着具有更高输入图像分辨率的多模态大语言模型(如Monkey (Li et al., 2023d)、LLaVA - Next (Liu et al., 2024))的出现,研究人员可以在未来的研究中使用MMTab开发更强大的表格多模态大语言模型。