S

Saved Model Git Base

holiporiによって開発
microsoft/git-baseを画像フォルダデータセットでファインチューニングした視覚言語モデルで、主に画像キャプション生成タスクに使用されます
ダウンロード数 13
リリース時間 : 5/22/2023

モデル概要

このモデルはGITアーキテクチャに基づく視覚言語モデルで、ファインチューニングにより入力画像から関連するテキスト記述を生成できます。評価では優れたテキスト生成能力を示しています。

モデル特徴

マルチモーダル理解能力
視覚と言語情報を同時に処理し、画像内容を理解して関連する記述を生成できます
ファインチューニング最適化
特定の画像データセットでファインチューニングを行い、対象領域でのパフォーマンスを向上させています
包括的な評価指標
複数のテキスト生成評価指標(Rouge, Bleu, Meteorなど)を使用して総合的に評価しています

モデル能力

画像理解
テキスト生成
マルチモーダル処理
画像キャプション生成

使用事例

支援技術
視覚支援記述
視覚障害者のために画像内容のテキスト記述を生成します
コンテンツ作成
ソーシャルメディアコンテンツ生成
アップロードされた画像に対して自動的に説明文を生成します
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase