Olmocr 7B Faithful
O
Olmocr 7B Faithful
tngtechによって開発
olmOCR-7B-0225-previewをファインチューニングしたバージョンで、文書内の全ての情報(ヘッダー・フッター内容を含む)を完全に抽出することに特化しています。
ダウンロード数 201
リリース時間 : 4/25/2025
モデル概要
これはファインチューニングされたOCRモデルで、通常は無視されがちなヘッダー・フッター内容を含め、文書から全ての情報を完全に抽出するために特別に設計されています。
モデル特徴
完全情報抽出
文書内の全ての内容を抽出可能で、通常は無視されがちなヘッダー・フッター情報も含みます
強力なベースモデル
allenai/olmOCR-7B-0225-previewモデルをファインチューニングしており、その強力なOCR能力を継承しています
性能最適化
Qwen技術により性能向上を実現
モデル能力
文書テキスト認識
ヘッダー・フッター抽出
多形式文書処理
使用事例
文書デジタル化
歴史文書のデジタル化
歴史文書を完全にデジタル化処理し、全てのオリジナル情報を保持
通常は無視されがちなヘッダー・フッター情報を含め、文書の完全な内容を取得可能
法律文書処理
法律文書を処理し、ページ要素の漏れを一切防ぐ
ページ番号、透かしなどの二次情報も含め、文書内容を完全に抽出
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98