Kosmos-2.5オープンソースマルチモーダル読み書きモデル - 画像テキスト認識と構造化出力を無料で処理

ホーム

Kosmos 2.5

microsoftによって開発

Kosmos-2.5はテキスト密集画像の機械読解に向けたマルチモーダルリーディング・ライティングモデルで、画像内のテキスト認識と構造化出力を処理できます。

画像生成テキスト

Transformers

英語オープンソースライセンス:MIT #マルチモーダルリーディング・ライティング #テキスト密集画像解析 #Markdown生成

ダウンロード数 5,531

リリース時間 : 5/13/2024

モデル概要

Kosmos-2.5はテキスト密集画像の機械読解タスクに特化したマルチモーダルリーディング・ライティングモデルです。空間認識可能なテキストブロックを生成し、構造化テキストを出力するため、ドキュメントレベルのテキスト認識や画像からMarkdownテキスト生成などのタスクに適しています。

モデル特徴

マルチモーダルリーディング・ライティング能力

視覚と言語処理能力を組み合わせ、画像内のテキスト認識と構造化出力を実現します。

空間認識テキストブロック

各テキストブロックの画像内座標位置を注釈付けし、空間情報を提供します。

構造化出力

スタイルと構造をMarkdown形式に変換し、後続の処理と使用を容易にします。

タスク適応性

異なるプロンプトワードを用いた教師あり微調整により、様々なテキスト密集画像理解タスクに迅速に適応できます。

モデル能力

テキスト認識

画像からMarkdown変換

ドキュメント理解

空間テキスト注釈

使用事例

ドキュメント処理

エンドツーエンドドキュメントレベルのテキスト認識

複雑なドキュメント画像からテキスト内容を抽出し、構造情報を保持します

高精度なテキスト認識と構造保持

画像からMarkdown変換

テキストを含む画像を構造化Markdown形式に変換します

元のスタイルと構造を保持したMarkdown出力

リッチテキスト画像処理

現実世界のリッチテキスト画像理解

複雑なテキストレイアウトを含む現実世界の画像を処理します

汎用化されたテキスト密集画像理解能力

🚀 Kosmos-2.5

Kosmos-2.5は、テキストが多い画像の機械読み取り用のマルチモーダル言語モデルです。大規模なテキスト主体の画像で事前学習され、2つの異なるが協調的な転写タスクで優れた性能を発揮します。

Microsoft Document AI | GitHub

✨ 主な機能

Kosmos-2.5は、テキストが多い画像の機械読み取り用のマルチモーダル言語モデルです。大規模なテキスト主体の画像で事前学習され、以下の2つの異なるが協調的な転写タスクで優れた性能を発揮します。

空間認識テキストブロックの生成：各テキストブロックに画像内の空間座標が割り当てられます。
構造化テキスト出力の生成：スタイルと構造をMarkdown形式に変換します。

この統一されたマルチモーダル言語能力は、共有デコーダーのみの自己回帰型Transformerアーキテクチャ、タスク固有のプロンプト、および柔軟なテキスト表現によって実現されます。Kosmos-2.5は、エンドツーエンドのドキュメントレベルのテキスト認識と画像からMarkdownテキスト生成について評価されています。さらに、このモデルは、教師あり微調整によって異なるプロンプトで任意のテキスト主体の画像理解タスクに容易に適応できるため、テキストが豊富な画像を扱う実世界のアプリケーションに汎用的なツールとなります。この研究は、マルチモーダル大規模言語モデルの将来的な拡張に道を開きます。

Kosmos-2.5: A Multimodal Literate Model

⚠️ 重要提示

これは生成モデルであるため、生成プロセス中に幻覚のリスクがあり、画像内のすべてのOCR/Markdown結果の精度を保証できません。

💻 使用例

基本的な使用法

Markdownタスク：使用方法については、md.pyを参照してください。

OCRタスク：使用方法については、ocr.pyを参照してください。

📚 ドキュメント

Kosmos-2.5をあなたの研究で役立つと思われる場合は、次の論文を引用してください。

@article{lv2023kosmos,
  title={Kosmos-2.5: A multimodal literate model},
  author={Lv, Tengchao and Huang, Yupan and Chen, Jingye and Cui, Lei and Ma, Shuming and Chang, Yaoyao and Huang, Shaohan and Wang, Wenhui and Dong, Li and Luo, Weiyao and others},
  journal={arXiv preprint arXiv:2309.11419},
  year={2023}
}