猴子开源多模态模型 - 提升图像分辨率，多视觉任务表现出色，免费可用！

首页

Monkey

由 echo840 开发

猴子模型是一种高效的大型多模态模型，通过提升图像分辨率和改进文本标签方法，在多个视觉任务中表现优异。

图像生成文本

Transformers

#高分辨率图像理解 #多层级文本描述 #文档图像处理

下载量 308

发布时间 : 11/22/2023

模型简介

猴子模型专注于提升图像分辨率至896×1344像素，并采用多层级描述生成方法，以增强对场景和对象上下文关联的理解能力。

模型特点

高分辨率支持

支持1344×896分辨率输入，超越常规448×448分辨率，显著提升对微小物体、密集对象及文本的识别理解能力

多层级描述生成

创新性地设计多层级描述生成方法，自动提供丰富信息以引导模型学习场景与对象的上下文关联

上下文关联推理

在问答时展现出卓越的目标关系推理能力，输出更具洞察力的综合结果

模型能力

高分辨率图像理解

详细图像描述生成

视觉问答

文档图像处理

上下文关联推理

使用案例

图像理解

详细图像描述

为图像生成包含细节的文本描述

描述准确度可超越GPT4V

文档处理

密集文本理解

处理包含密集文本的文档图像

展现出卓越性能

视觉问答

通用视觉问答

回答关于图像内容的各种问题

在16个多样化数据集测试中表现优异

🚀 Monkey：图像分辨率和文本标签对大型多模态模型至关重要

Monkey提出了一种训练高效的方法，无需从头开始预训练，即可有效将输入分辨率能力提升至896 x 1344像素。为了弥合简单文本标签与高输入分辨率之间的差距，我们提出了一种多级描述生成方法，该方法可自动提供丰富信息，引导模型学习场景与对象之间的上下文关联。通过这两种设计的协同作用，我们的模型在多个基准测试中取得了优异成绩。通过将我们的模型与包括GPT4V在内的各种大型多模态模型（LMMs）进行比较，我们的模型在图像描述任务中表现出色，能够关注文本信息并捕捉图像中的精细细节；其提高的输入分辨率也使其在包含密集文本的文档图像任务中表现卓越。

作者信息

张立*，杨彪*，刘强，马志银，张硕，杨景旭，孙亚博，刘育良†，白翔†

华中科技大学，金山软件

资源链接

论文 | 详细描述数据集 | 模型权重 | Wisemodel平台的模型权重

🚀 快速开始

环境配置

conda create -n monkey python=3.9
conda activate monkey
git clone https://github.com/Yuliang-Liu/Monkey.git
cd ./Monkey
pip install -r requirements.txt

模型推理

from transformers import AutoModelForCausalLM, AutoTokenizer
checkpoint = "echo840/Monkey"
model = AutoModelForCausalLM.from_pretrained(checkpoint, device_map='cuda', trust_remote_code=True).eval()
tokenizer = AutoTokenizer.from_pretrained(checkpoint, trust_remote_code=True)
tokenizer.padding_side = 'left'
tokenizer.pad_token_id = tokenizer.eod_id
img_path = ""
question = ""
query = f'<img>{img_path}</img> {question} Answer: ' #VQA
# query = f'<img>{img_path}</img> Generate the detailed caption in English: ' #detailed caption

input_ids = tokenizer(query, return_tensors='pt', padding='longest')
attention_mask = input_ids.attention_mask
input_ids = input_ids.input_ids

pred = model.generate(
            input_ids=input_ids.cuda(),
            attention_mask=attention_mask.cuda(),
            do_sample=False,
            num_beams=1,
            max_new_tokens=512,
            min_new_tokens=1,
            length_penalty=1,
            num_return_sequences=1,
            output_hidden_states=True,
            use_cache=True,
            pad_token_id=tokenizer.eod_id,
            eos_token_id=tokenizer.eod_id,
            )
response = tokenizer.decode(pred[0][input_ids.size(1):].cpu(), skip_special_tokens=True).strip()
print(response)

✨ 主要特性

上下文关联：在回答问题时，我们的方法展现出更强的推断目标之间关系的能力，从而能够提供更全面、更有深度的结果。
支持高达1344 x 896的分辨率：超越了大型多模态模型通常采用的标准448 x 448分辨率，这一显著的分辨率提升增强了模型识别和理解难以察觉或紧密聚集的对象以及密集文本的能力。
增强的综合性能：我们在16个不同的数据集上进行了测试，Monkey模型在图像描述、通用视觉问答、以文本为中心的视觉问答和面向文档的视觉问答等任务中表现出色。

💻 使用示例

基础用法

在2023年11月14日之前，我们观察到对于一些随机图片，Monkey可以比GPT4V获得更准确的结果。

高级用法

我们还提供了原始演示的源代码和模型权重，允许你自定义某些参数以获得更独特的体验。具体操作如下：

确保你已经配置了环境。
你可以选择离线或在线使用演示：
- 离线使用：
  - 下载模型权重。
  - 在demo.py文件中，将DEFAULT_CKPT_PATH="pathto/Monkey"修改为你的模型权重路径。
  - 使用以下命令运行演示：
```
python demo.py
```
- 在线使用：
  - 使用以下命令在线运行演示并下载模型权重：
```
python demo.py -c echo840/Monkey 
```

📦 安装指南

环境配置

conda create -n monkey python=3.9
conda activate monkey
git clone https://github.com/Yuliang-Liu/Monkey.git
cd ./Monkey
pip install -r requirements.txt

📚 详细文档

数据集

我们已经开源了通过多级描述生成方法生成的数据。你可以在详细描述数据集下载。

评估

我们在evaluate_vqa.py文件中提供了14个视觉问答（VQA）数据集的评估代码，方便你快速验证结果。具体操作如下：

确保你已经配置了环境。
将sys.path.append("pathto/Monkey")修改为你的模型权重路径。
准备评估所需的数据集。
运行评估代码。

以ESTVQA为例：

├── data
|	├── estvqa
|		├── test_image
|			├── {image_path0}
|			├── {image_path1}
|				  ·
|				  ·
|	├── estvqa.jsonl

标注的.jsonl文件每行格式示例：

{"image": "data/estvqa/test_image/011364.jpg", "question": "What is this store?", "answer": "pizzeria", "question_id": 0}

修改字典ds_collections：

ds_collections = {
	'estvqa_test': {
		'test': 'data/estvqa/estvqa.jsonl',
		'metric': 'anls',
		'max_new_tokens': 100,
	},
	...
}

运行以下命令：

bash eval/eval.sh 'EVAL_PTH' 'SAVE_NAME'

训练

我们还提供了Monkey的模型定义和训练代码，你可以在上面找到。你可以通过执行finetune_ds_debug.sh来运行训练代码。

⚠️ 重要提示

请指定你的训练数据路径，训练数据应为一个由对话列表组成的json文件。

🔧 技术细节

Monkey提出了一种训练高效的方法，无需从头开始预训练，即可有效将输入分辨率能力提升至896 x 1344像素。为了弥合简单文本标签与高输入分辨率之间的差距，提出了一种多级描述生成方法，该方法可自动提供丰富信息，引导模型学习场景与对象之间的上下文关联。通过这两种设计的协同作用，模型在多个基准测试中取得了优异成绩。

📄 许可证

引用

如果你想引用此处发布的基准结果，请使用以下BibTeX条目：

@article{li2023monkey,
  title={Monkey: Image Resolution and Text Label Are Important Things for Large Multi-modal Models},
  author={Li, Zhang and Yang, Biao and Liu, Qiang and Ma, Zhiyin and Zhang, Shuo and Yang, Jingxu and Sun, Yabo and Liu, Yuliang and Bai, Xiang},
  journal={arXiv preprint arXiv:2311.06607},
  year={2023}
}