Coreocr 7B 050325 Preview
coreOCR-7B-050325-previewは、Qwen/Qwen2-VL-7Bをベースに微調整された視覚言語モデルで、ドキュメントレベルのOCR、長文脈の視覚言語理解、および正確な画像からテキストへの変換(数学LaTeX形式をサポート)に特化しています。
ダウンロード数 1,532
リリース時間 : 5/3/2025
モデル概要
このモデルは、ドキュメント解析、構造化データ抽出、および複雑な視覚推論に最適化されており、高品質の視覚テキスト理解をサポートし、ドキュメント分析、数学問題解決、および多言語OCRなどのタスクに適しています。
モデル特徴
高度なドキュメントレベルのOCR
複雑な多ページドキュメント(請求書、表、研究論文など)を正確に処理し、構造化テキストを抽出できます。
強化された長文脈の視覚言語理解
ドキュメントやマルチメディア入力(密集したテキストブロック、グラフ、数学コンテンツを含む)からの長文テキスト検索と推論をサポートします。
画像解像度を超えた最適な理解
MathVista、DocVQA、RealWorldQA、MTVQAなどの視覚ベンチマークテストで最先端の成果を達成しています。
20分以上の長いビデオ理解
高品質のビデオベースの質問応答、対話生成、および長いビデオシーケンスの内容要約が可能です。
視覚コマンドによるデバイス制御
複雑な推論と感知能力を備え、携帯電話やロボットなどのデバイスと統合して、視覚ベースの自動操作を実現できます。
モデル能力
ドキュメント解析
構造化データ抽出
複雑な視覚推論
数学LaTeXテキスト生成
多言語OCR
長いビデオ内容理解
視覚デバイス制御
使用事例
ドキュメント分析
請求書処理
スキャンした請求書画像から構造化データを抽出
高精度のテキスト抽出とフィールド認識
研究論文解析
多ページの研究論文から重要な情報と参考文献を抽出
複雑な組版と数学公式の認識をサポート
教育
数学問題解決
手書きまたは印刷された数学コンテンツからLaTeXテキストを生成
正確な数学記号の認識と変換
グラフ理解
教育資料のグラフやデータビジュアライゼーションを解釈
視覚情報とテキスト情報を組み合わせた総合的な理解
商業自動化
多言語ドキュメントのデジタル化
グローバルな商業ドキュメントの多言語OCRを処理
複数の言語と文字スクリプトをサポート
視覚ロボット制御
視覚コンテキストを通じて自動化デバイスとのインタラクションを実現
複雑な視覚推論と命令実行
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98