D

Docscopeocr 7B 050425 Exp

prithivMLmodsによって開発
docscopeOCR-7B-050425-expは、Qwen/Qwen2.5-VL-7B-Instructをベースに微調整されたモデルで、ドキュメントレベルのOCR、長文脈のビジュアル言語理解、および数学のLaTeX形式の正確な画像からテキストへの変換に特化しています。
ダウンロード数 531
リリース時間 : 5/3/2025

モデル概要

このモデルは、ドキュメント理解、構造化データ抽出、およびビジュアル推論能力を最適化しており、さまざまな入力形式のドキュメント処理に適しています。

モデル特徴

高度なドキュメントレベルのOCR
請求書、学術論文、表、およびスキャンレポートなどの複雑な多ページドキュメントから構造化コンテンツを抽出できます。
強化された長文脈のビジュアル言語理解
密集したドキュメントレイアウト、長いシーケンスの埋め込みテキスト、表、およびグラフを処理し、一貫した相互参照理解能力を備えています。
解像度を超えた高度な性能
OCRおよびビジュアル質問応答のベンチマークテスト(DocVQA、MathVista、RealWorldQA、MTVQAなど)で競争力のある結果を達成しています。
20分以上の長時間ビデオ理解
長時間ビデオの詳細な理解をサポートし、コンテンツ要約、質問応答、およびマルチモーダル推論に使用できます。
ビジュアルベースのデバイスインタラクション
ビジュアル入力とテキストベースの命令を通じて、コンテキスト理解と決定論理を利用してモバイル/ロボットデバイスを操作します。

モデル能力

ドキュメントレベルのOCR
ビジュアル言語理解
画像からテキストへの変換
数学のLaTeX形式化
長時間ビデオ理解
ビジュアルデバイスインタラクション

使用事例

ドキュメント処理
請求書処理
請求書から構造化データを抽出する
高品質のOCR抽出
学術論文分析
学術論文からコンテンツとグラフを抽出する
構造化コンテンツ抽出
ビジュアル質問応答
ドキュメント質問応答
ドキュメント内容に基づく質問応答
正確な回答生成
数学式抽出
印刷または手書きの内容から数学式を抽出し、LaTeX形式に変換する
正確な数学式変換
ビデオ理解
ビデオコンテンツ要約
長時間ビデオのコンテンツを要約する
詳細なビデオ理解
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase