H

H2ovl Mississippi 2b

h2oaiによって開発
H2OVL-Mississippi-2BはH2O.aiが開発した高性能な汎用視覚言語モデルで、幅広いマルチモーダルタスクを処理できます。このモデルは20億のパラメータを持ち、画像キャプション生成、視覚的質問応答(VQA)、文書理解などのタスクで優れた性能を発揮します。
ダウンロード数 91.28k
リリース時間 : 10/15/2024

モデル概要

H2OVL-Mississippi-2Bは高性能な視覚言語モデルで、H2O-Danube言語モデルを拡張し、視覚と言語タスクを統合しています。文書AI、OCR、マルチモーダル推論などのタスクで優れた性能を示します。

モデル特徴

高性能視覚言語モデル
画像キャプション生成、視覚的質問応答、文書理解などのタスクで優れた性能を発揮
効率的なパラメータ規模
20億パラメータの設計で、性能と効率性のバランスを実現
幅広いマルチモーダル能力
文書AI、OCR、マルチモーダル推論など多様なアプリケーションをサポート
包括的なトレーニングデータ
1700万の画像-テキストペアでトレーニングされ、広範なカバレッジを確保

モデル能力

テキスト生成
画像分析
視覚的質問応答
文書理解
OCR
マルチモーダル推論

使用事例

文書処理
文書OCR
スキャン文書からテキストを抽出・認識
高精度なテキスト認識
文書理解
文書の内容と構造を理解
正確な意味理解
視覚的質問応答
画像キャプション生成
画像に対して詳細な説明を生成
高品質な画像説明
視覚的推論
画像内容に関する複雑な質問に回答
正確な視覚的推論能力
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase