ViT - GPT2画像記述生成モデル - オープンソースで無料で画像を一度に記述的なテキストに変換

ホーム

Vit GPT2 Image Captioning Model

motheecreatorによって開発

ViT-GPT2アーキテクチャに基づく画像キャプション生成モデルで、入力画像を記述テキストに変換可能

画像生成テキスト

Transformers

#画像キャプション生成 #視覚-言語モデル #マルチモーダル変換

ダウンロード数 142

リリース時間 : 9/29/2024

モデル概要

このモデルは視覚トランスフォーマー(ViT)とGPT-2アーキテクチャを組み合わせ、画像からテキストへの生成タスクに使用され、入力画像に対して自然言語記述を生成可能

モデル特徴

視覚-言語統合モデリング

視覚トランスフォーマーと言語モデルの利点を組み合わせ、画像からテキストへの変換を実現

エンドツーエンド学習

モデル全体をエンドツーエンドでトレーニングおよびファインチューニング可能

マルチモーダル理解

画像内容を理解し、対応する自然言語記述を生成可能

モデル能力

画像理解

テキスト生成

画像からテキストへの変換

使用事例

支援技術

視覚障害者支援

視覚障害ユーザーに画像内容の説明を提供

コンテンツ生成

ソーシャルメディアコンテンツ自動生成

ソーシャルメディア画像に自動的に記述文を生成

学習損失	エポック	ステップ	検証損失	Rouge2 F値
ログなし	0.9987	496	2.4901	0.1077
2.5089	1.9995	993	2.4292	0.1141
2.4103	2.9962	1488	2.4134	0.1166

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Vit GPT2 Image Captioning Model

モデル概要

モデル特徴

モデル能力

使用事例

🚀 ViT - GPT2

🚀 クイックスタート

🔧 技術詳細

学習ハイパーパラメータ

学習結果

フレームワークのバージョン