Docscopeocr 7B 050425 Exp
D
Docscopeocr 7B 050425 Exp
prithivMLmodsによって開発
docscopeOCR-7B-050425-expは、Qwen/Qwen2.5-VL-7B-Instructをベースに微調整されたモデルで、ドキュメントレベルのOCR、長文脈のビジュアル言語理解、および数学のLaTeX形式の正確な画像からテキストへの変換に特化しています。
ダウンロード数 531
リリース時間 : 5/3/2025
モデル概要
このモデルは、ドキュメント理解、構造化データ抽出、およびビジュアル推論能力を最適化しており、さまざまな入力形式のドキュメント処理に適しています。
モデル特徴
高度なドキュメントレベルのOCR
請求書、学術論文、表、およびスキャンレポートなどの複雑な多ページドキュメントから構造化コンテンツを抽出できます。
強化された長文脈のビジュアル言語理解
密集したドキュメントレイアウト、長いシーケンスの埋め込みテキスト、表、およびグラフを処理し、一貫した相互参照理解能力を備えています。
解像度を超えた高度な性能
OCRおよびビジュアル質問応答のベンチマークテスト(DocVQA、MathVista、RealWorldQA、MTVQAなど)で競争力のある結果を達成しています。
20分以上の長時間ビデオ理解
長時間ビデオの詳細な理解をサポートし、コンテンツ要約、質問応答、およびマルチモーダル推論に使用できます。
ビジュアルベースのデバイスインタラクション
ビジュアル入力とテキストベースの命令を通じて、コンテキスト理解と決定論理を利用してモバイル/ロボットデバイスを操作します。
モデル能力
ドキュメントレベルのOCR
ビジュアル言語理解
画像からテキストへの変換
数学のLaTeX形式化
長時間ビデオ理解
ビジュアルデバイスインタラクション
使用事例
ドキュメント処理
請求書処理
請求書から構造化データを抽出する
高品質のOCR抽出
学術論文分析
学術論文からコンテンツとグラフを抽出する
構造化コンテンツ抽出
ビジュアル質問応答
ドキュメント質問応答
ドキュメント内容に基づく質問応答
正確な回答生成
数学式抽出
印刷または手書きの内容から数学式を抽出し、LaTeX形式に変換する
正確な数学式変換
ビデオ理解
ビデオコンテンツ要約
長時間ビデオのコンテンツを要約する
詳細なビデオ理解
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98