olmOCR-7B-faithfulオープンソース文書情報抽出モデル - ヘッダーとフッターを含むすべての内容を完全に抽出

ホーム

Olmocr 7B Faithful

tngtechによって開発

olmOCR-7B-0225-previewをファインチューニングしたバージョンで、文書内の全ての情報（ヘッダー・フッター内容を含む）を完全に抽出することに特化しています。

大規模言語モデル

Transformers

英語オープンソースライセンス:Apache-2.0 #文書全情報抽出 #ヘッダー・フッター認識 #高精度OCR

ダウンロード数 201

リリース時間 : 4/25/2025

モデル概要

これはファインチューニングされたOCRモデルで、通常は無視されがちなヘッダー・フッター内容を含め、文書から全ての情報を完全に抽出するために特別に設計されています。

モデル特徴

完全情報抽出

文書内の全ての内容を抽出可能で、通常は無視されがちなヘッダー・フッター情報も含みます

強力なベースモデル

allenai/olmOCR-7B-0225-previewモデルをファインチューニングしており、その強力なOCR能力を継承しています

性能最適化

Qwen技術により性能向上を実現

モデル能力

文書テキスト認識

ヘッダー・フッター抽出

多形式文書処理

使用事例

文書デジタル化

歴史文書のデジタル化

歴史文書を完全にデジタル化処理し、全てのオリジナル情報を保持

通常は無視されがちなヘッダー・フッター情報を含め、文書の完全な内容を取得可能

法律文書処理

法律文書を処理し、ページ要素の漏れを一切防ぐ

ページ番号、透かしなどの二次情報も含め、文書内容を完全に抽出

プロパティ	詳細
ライブラリ名	transformers
ベースモデル	allenai/olmOCR-7B-0225-preview
ライセンス	apache-2.0

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Olmocr 7B Faithful

モデル概要

モデル特徴

モデル能力

使用事例

🚀 olmOCR-7B-faithful

📄 ライセンス

謝辞