InfiMM-HD開源多模態模型 - 免費部署實現圖文結合內容理解與生成

首頁

Infimm Hd

由Infi-MM開發

InfiMM-HD是一個高分辨率多模態模型，能夠理解和生成結合圖像和文本的內容。

圖像生成文本

Transformers

英語#高分辨率多模態 #圖像轉文本 #多模態理解

下載量 17

發布時間 : 3/3/2024

模型概述

該模型專注於高分辨率多模態理解，能夠處理圖像和文本的聯合任務，如圖像描述生成等。

模型特點

高分辨率圖像理解

能夠處理高分辨率圖像，提取豐富的視覺信息

多模態融合

有效融合視覺和文本信息，實現跨模態理解

中文優化

特別針對中文場景進行優化

模型能力

圖像描述生成

視覺問答

多模態內容理解

圖像轉文本

使用案例

內容生成

圖像自動描述

為圖片生成詳細的中文描述

可生成準確、豐富的圖像描述

輔助工具

視覺輔助

幫助視障人士理解圖像內容

提供詳細的圖像文字描述

🚀 InfiMM-HD

InfiMM-HD是一個用於高分辨率多模態理解的模型，可處理文本和圖像數據，實現圖像到文本的生成任務。它基於多個大規模數據集進行預訓練，為多模態領域的研究和應用提供了強大支持。

🚀 快速開始

使用以下代碼開始使用基礎模型：

import torch
from transformers import AutoModelForCausalLM, AutoProcessor

processor = AutoProcessor.from_pretrained("Infi-MM/infimm-hd", trust_remote_code=True)

prompts = [
    {
        "role": "user",
        "content": [
            {"image": "/xxx/test.jpg"}, # change it with you image
            "Please describe the image in detail.",
        ],
    }
]
inputs = processor(prompts)
# use bf16 and gpu 0
model = AutoModelForCausalLM.from_pretrained(
    "Infi-MM/infimm-hd",
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
).to(0).eval()

inputs = inputs

inputs["batch_images"] = inputs["batch_images"].to(torch.bfloat16)
for k in inputs:
    inputs[k] = inputs[k].to(model.device)

generated_ids = model.generate(
    **inputs,
    min_new_tokens=0,
    max_new_tokens=256,
)
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)
print(generated_text)

📚 詳細文檔

更多詳細信息可在我們的論文中找到：https://arxiv.org/abs/2403.01487。我們已經在 https://github.com/InfiMM/infimm-hd/ 上發佈了預訓練模型和PyTorch代碼。您可以基於我們的預訓練模型構建自己的模型。

📄 許可證

本項目採用 CC BY - NC 4.0 許可證。

圖像的版權歸原作者所有。

更多信息請參閱 LICENSE。

📞 聯繫我們

如果您有任何問題，請隨時通過電子郵件 infimmbytedance@gmail.com 與我們聯繫。

📑 引用

@misc{liu2024infimmhd,
      title={InfiMM-HD: A Leap Forward in High-Resolution Multimodal Understanding}, 
      author={Haogeng Liu and Quanzeng You and Xiaotian Han and Yiqi Wang and Bohan Zhai and Yongfei Liu and Yunzhe Tao and Huaibo Huang and Ran He and Hongxia Yang},
      year={2024},
      eprint={2403.01487},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}