H

Heron Preliminary Git Llama 2 70b V0

turing-motorsによって開発
画像-テキストペアで事前学習された視覚言語モデルで、Llama-2 70Bアーキテクチャに基づき、画像キャプション生成タスクに適しています。
ダウンロード数 14
リリース時間 : 9/7/2023

モデル概要

このモデルはGITアダプターを使用し、M3IT Coco Captionsデータセットで訓練され、主に画像からテキストへの変換タスクに使用されます。

モデル特徴

視覚言語理解
画像内容を理解し、対応するテキスト記述を生成可能
大規模モデルアーキテクチャ
Llama-2 70B大規模言語モデルを基盤とし、強力な言語理解能力を備える
GITアダプター
GIT(GenerativeImage2Text)アーキテクチャを使用し、画像からテキストへの変換を実現

モデル能力

画像理解
テキスト生成
画像キャプション生成

使用事例

コンピュータビジョン
画像自動タグ付け
画像に対して自動的に記述テキストを生成
支援ツール
視覚支援
視覚障害者向けに画像内容の説明を提供
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase