フローレンス-2-DocVQAオープンソースモデル - 無料でのデプロイで画像テキスト理解タスクをサポート

ホーム

Florence 2 DocVQA

impactframesによって開発

マイクロソフトのFlorence-2モデルをDocmatixデータセット（データ量の5％）で1日間ファインチューニングしたバージョンで、画像テキスト理解タスクに適しています

テキスト生成画像

Transformers

#ドキュメント画像理解 #少数ショットファインチューニング #マルチモーダル処理

ダウンロード数 30

リリース時間 : 10/4/2024

モデル概要

このモデルはFlorence-2-large-ftのファインチューニングバージョンで、画像とテキストの共同理解タスクに焦点を当て、特定ドメインのデータで性能を強化しています

モデル特徴

ドメイン適応ファインチューニング

Docmatixデータセットを使用して特定ドメインのパフォーマンスを向上させるためのターゲットファインチューニングを実施

マルチモーダル理解

画像とテキスト入力を同時に処理し、クロスモーダル理解を実現

モデル能力

画像テキスト理解

クロスモーダル推論

視覚的質問応答

使用事例

ドキュメント理解

ドキュメント画像解析

スキャンしたドキュメント画像から構造化情報を抽出

教育技術

教材内容分析

教材の図とテキスト内容を分析し要約を生成

🚀 モデルIDのモデルカード

このモデルは、MicrosoftのFlorence - 2モデルで、Docmatix（データの5%）を使用して学習率1e - 6で1日間学習されたものです。この微調整のコードはこちらにあります: https://github.com/andimarafioti/florence2 - finetuning また、Florenceを微調整する方法を説明したブログはこちらです: https://huggingface.co/blog/finetune - florence2

📚 詳細ドキュメント

モデルの説明

これは🤗 transformersモデルのモデルカードで、ハブに自動生成されています。

属性	详情
開発者	Andi Marafioti
資金提供元	Hugging Face 🤗
言語 (NLP)	英語
ライセンス	MIT
微調整元のモデル	[Florence - 2 - large - ft](https://huggingface.co/microsoft/Florence - 2 - large - ft)

モデルのソース

リポジトリ: [詳細情報が必要]
デモ: [詳細情報が必要]

🚀 クイックスタート

以下のコードを使用して、モデルを使い始めることができます。 [詳細情報が必要]

🔧 技術詳細

学習データ

[詳細情報が必要]

学習手順

前処理

[詳細情報が必要]

学習ハイパーパラメータ

学習方式: [詳細情報が必要]

速度、サイズ、時間

[詳細情報が必要]

📊 評価

テストデータ、要因、メトリクス

テストデータ

[詳細情報が必要]

要因

[詳細情報が必要]

メトリクス

[詳細情報が必要]

結果

[詳細情報が必要]

まとめ

🌱 環境への影響

炭素排出量は、Lacoste et al. (2019)で提示されたMachine Learning Impact calculatorを使用して推定できます。

属性	详情
ハードウェアタイプ	[詳細情報が必要]
使用時間	[詳細情報が必要]
クラウドプロバイダー	[詳細情報が必要]
コンピュートリージョン	[詳細情報が必要]
排出された炭素量	[詳細情報が必要]