Florence-2-FT-DocVQAオープンソース文書ビジュアル質問応答モデル

ホーム

Florence 2 FT DocVQA

sahilnishadによって開発

Florence-2-baseをファインチューニングした文書視覚QAモデルで、文書画像内のQAタスクを専門に処理します。

画像生成テキスト

Transformers

英語オープンソースライセンス:MIT #文書画像QA #マルチモーダル処理 #Florence-2ファインチューニング

ダウンロード数 4,928

リリース時間 : 11/2/2024

モデル概要

このモデルはDocumentVQAデータセットでファインチューニングされており、文書画像の内容を理解し関連する質問に答えることができ、様々な文書分析シナリオに適用可能です。

モデル特徴

文書画像理解

文書画像の内容と構造を解析・理解可能

QA能力

文書内容に対して正確なQA機能を提供

マルチモーダル処理

視覚情報とテキスト情報を同時処理し、クロスモーダル理解を実現

モデル能力

文書画像分析

視覚QA

テキスト抽出

クロスモーダル理解

使用事例

文書処理

契約書分析

契約書から重要な条項と条件を抽出

請求書処理

請求書から金額、日付、仕入先情報を識別

教育

答案採点

学生の答案を自動採点し回答を抽出

🚀 transformers

このライブラリは、DocumentVQAデータセットでFine-tuningされたFlorence-2モデルを使用し、文書画像に対する質問応答を行うことができます。

🚀 クイックスタート

インストール

!pip install torch transformers datasets flash_attn

モデルとプロセッサの読み込み

import torch
from transformers import AutoModelForCausalLM, AutoProcessor

model = AutoModelForCausalLM.from_pretrained("sahilnishad/Florence-2-FT-DocVQA", trust_remote_code=True)
processor = AutoProcessor.from_pretrained("sahilnishad/Florence-2-FT-DocVQA", trust_remote_code=True)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

推論の実行

def run_inference(task_prompt, question, image):
    prompt = task_prompt + question

    if image.mode != "RGB":
        image = image.convert("RGB")

    inputs = processor(text=prompt, images=image, return_tensors="pt").to(device)
    
    with torch.no_grad():
        generated_ids = model.generate(
            input_ids=inputs["input_ids"],
            pixel_values=inputs["pixel_values"],
            max_new_tokens=1024,
            num_beams=3
        )
    generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
    return generated_text

例

from PIL import Image
from datasets import load_dataset

data = load_dataset("HuggingFaceM4/DocumentVQA")

question = "What do you see in this image?"
image = data['train'][0]['image']
print(run_inference("<DocVQA>", question, image))

📄 ライセンス

このプロジェクトはMITライセンスの下で公開されています。

📚 詳細ドキュメント

Github

📚 BibTeX引用

@misc{sahilnishad_florence_2_ft_docvqa,
  author       = {Sahil Nishad},
  title        = {Fine-Tuning Florence-2 For Document Visual Question-Answering},
  year         = {2024},
  url          = {https://huggingface.co/sahilnishad/Florence-2-FT-DocVQA},
  note         = {Model available on HuggingFace Hub},
  howpublished = {\url{https://huggingface.co/sahilnishad/Florence-2-FT-DocVQA}},
}