H

H2ovl Mississippi 800m

h2oaiによって開発
H2O.aiが開発した8億パラメータの視覚言語モデルで、OCRとドキュメント理解に優れた性能を発揮
ダウンロード数 77.67k
リリース時間 : 10/16/2024

モデル概要

H2OVL-Mississippi-800Mはコンパクトで強力な視覚言語モデルで、テキスト認識に優れており、特にOCRやドキュメント処理タスクに適しています。H2O-Danube言語モデルアーキテクチャを基盤としており、視覚と言語処理能力を統合しています。

モデル特徴

コンパクトで効率的
わずか8億パラメータで、性能と効率性の良いバランスを実現
優れたOCR能力
OCRBenchのテキスト認識部門で優れた成績を収め、多くの大規模モデルを凌駕
マルチモーダル統合
視覚と言語処理能力をシームレスに統合し、様々な視覚言語タスクをサポート
専門的なトレーニングデータ
1900万の画像-テキストペアでトレーニングされ、OCR、ドキュメント理解、図表解析に特化

モデル能力

テキスト認識(OCR)
ドキュメント理解
図表解析
テーブル処理
画像-テキスト理解
マルチモーダル推論

使用事例

ドキュメント処理
スキャン文書の文字認識
スキャンされたPDFや画像からテキスト内容を抽出
OCRBenchで751点の高スコアを獲得
テーブルデータ抽出
複雑なテーブルから構造化データを抽出
ビジネスインテリジェンス
図表データ解析
ビジネスチャートから主要データポイントを抽出
レポート自動分析
テキストと図表を含むビジネスレポートを分析
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase