オープンソースのDonut（Horus - OCR）画像からテキストへの変換モデルで、画像から簡単にテキストを抽出し生成する

ホーム

Horus OCR

TeeAによって開発

Donut はTransformerベースの画像からテキストへのモデルで、画像からテキストコンテンツを抽出・生成できます。

画像生成テキスト

Transformers

#画像からテキストへ #ドキュメント理解 #視覚的質問応答

ダウンロード数 21

リリース時間 : 6/12/2024

モデル概要

Donut は視覚言語モデルで、主に画像からテキスト情報を抽出するために使用され、ドキュメント理解や表認識などのタスクに適しています。

モデル特徴

画像からテキストへ

画像からテキストコンテンツを抽出・生成でき、ドキュメントや表の認識に適しています。

Transformerベース

Transformerアーキテクチャを採用しており、強力な視覚と言語処理能力を持っています。

モデル能力

画像からテキストへ

ドキュメント理解

表認識

使用事例

ドキュメント処理

処方箋認識

医療処方箋の画像からテキスト情報を抽出します。

処方箋中の薬品名と用量を正確に抽出します。

表認識

表データ抽出

画像中の表から構造化データを抽出します。

編集可能な表形式のデータを生成します。

🚀 モデルIDのモデルカード

このモデルは🤗 transformersライブラリを用いた画像からテキストへの変換モデルです。Donut技術を利用し、画像データをテキストに変換することができます。

🚀 クイックスタート

モデルを使用するには、以下のコードを参考にしてください。

# モデルの使用コードはここに記載
# [More Information Needed]

📚 ドキュメント

モデルの詳細

モデルの説明

これは🤗 transformersモデルのモデルカードで、自動生成されたものです。

開発者: [詳細情報が必要]
資金提供元 (任意): [詳細情報が必要]
共有者 (任意): [詳細情報が必要]
モデルの種類: [詳細情報が必要]
言語 (NLP): [詳細情報が必要]
ライセンス: [詳細情報が必要]
ファインチューニング元のモデル (任意): [詳細情報が必要]

モデルのソース (任意)

リポジトリ: [詳細情報が必要]
論文 (任意): [詳細情報が必要]
デモ (任意): [詳細情報が必要]

使用方法

直接使用

[詳細情報が必要]

下流タスクでの使用 (任意)

[詳細情報が必要]

想定外の使用

[詳細情報が必要]

バイアス、リスク、制限事項

モデルにはバイアス、リスク、制限が存在する可能性があります。ユーザーはこれらを認識する必要があります。

推奨事項

ユーザー（直接ユーザーと下流ユーザー）は、モデルのリスク、バイアス、制限事項を認識すべきです。さらなる推奨事項については、詳細情報が必要です。

学習の詳細

学習データ

[詳細情報が必要]

学習手順

前処理 (任意)

[詳細情報が必要]

学習ハイパーパラメータ

学習方式: [詳細情報が必要]

速度、サイズ、時間 (任意)

[詳細情報が必要]

評価

テストデータ、要因、メトリクス

テストデータ

[詳細情報が必要]

要因

[詳細情報が必要]

メトリクス

[詳細情報が必要]

結果

[詳細情報が必要]

概要

[詳細情報が必要]

モデルの検証 (任意)

[詳細情報が必要]

環境への影響

炭素排出量は、Lacoste et al. (2019)で提示されたMachine Learning Impact calculatorを使用して推定することができます。

ハードウェアタイプ: [詳細情報が必要]
使用時間: [詳細情報が必要]
クラウドプロバイダー: [詳細情報が必要]
コンピュートリージョン: [詳細情報が必要]
排出された炭素量: [詳細情報が必要]

技術仕様 (任意)

モデルアーキテクチャと目的

[詳細情報が必要]

コンピュートインフラストラクチャ

ハードウェア

[詳細情報が必要]

ソフトウェア

[詳細情報が必要]

引用 (任意)

BibTeX

[詳細情報が必要]

APA

[詳細情報が必要]

用語集 (任意)

[詳細情報が必要]

その他の情報 (任意)

[詳細情報が必要]

モデルカード作成者 (任意)

[詳細情報が必要]

モデルカードの問い合わせ先

[詳細情報が必要]

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご