K

Kosmos 2 Patch14 224

microsoftによって開発
Kosmos-2はマルチモーダル大規模言語モデルで、画像に関連するテキスト記述を理解・生成し、テキストと画像領域の関連付けを実現します。
ダウンロード数 171.99k
リリース時間 : 10/2/2023

モデル概要

Kosmos-2は視覚-言語モデルで、画像キャプション生成と視覚的接地タスクに特化しています。画像内容を理解し関連するテキスト記述を生成できるだけでなく、テキスト中のフレーズと画像内の特定領域を関連付けることができます。

モデル特徴

マルチモーダル接地能力
テキスト中のフレーズと画像内の特定領域を関連付け、精密な視覚的位置特定を実現
マルチモーダル参照理解
画像中の参照表現を理解し、画像領域を記述する参照表現を生成可能
多機能視覚-言語タスク
接地視覚質問応答、画像キャプション生成など、様々な視覚-言語タスクをサポート

モデル能力

画像キャプション生成
視覚的接地
マルチモーダル参照理解
接地視覚質問応答
参照表現生成

使用事例

コンテンツ理解と生成
自動画像タグ付け
画像に対して詳細なテキスト記述を生成
画像内の主要オブジェクトとシーンを含む記述テキストを生成
視覚質問応答システム
画像内容に関する特定の質問に回答
画像内オブジェクトの位置や関係に関する質問に正確に回答
支援技術
視覚支援ツール
視覚障害者向けに画像内容を説明
詳細な画像記述とオブジェクト位置情報を提供
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase