ViT-GPT2-Image-Captioningオープンソース画像キャプショニングモデル - 画像に自然言語の説明文を無料で生成する

ホーム

Vit GPT2 Image Captioning

mo-thecreatorによって開発

ViT-GPT2アーキテクチャに基づく画像キャプション生成モデルで、入力画像に対して自然言語の説明を生成できます。

画像生成テキスト

Transformers

#視覚-テキスト生成 #マルチモーダルモデル #画像キャプション生成

ダウンロード数 17

リリース時間 : 9/30/2024

モデル概要

このモデルは視覚Transformer(ViT)とGPT-2言語モデルを組み合わせており、画像からテキストを生成するタスクに使用され、画像に対して自動的に説明文を生成します。

モデル特徴

マルチモーダルアーキテクチャ

視覚Transformerで画像特徴を処理し、GPT-2で自然言語の説明を生成

エンドツーエンド学習

モデル全体をエンドツーエンドでトレーニングおよびファインチューニング可能

BLEU最適化

評価セットで9.7054のBLEUスコアを達成

モデル能力

画像理解

自然言語生成

画像からテキストへの変換

使用事例

支援技術

視覚障害者支援

視覚障害者のために画像内容を自動的に説明

コンテンツ管理

画像自動タグ付け

大量の画像に対して自動的に説明タグを生成

学習損失	エポック	ステップ	検証損失	Rouge2 精度	Rouge2 再現率	Rouge2 F値	Bleu
2.1537	0.9993	1171	2.13666	なし	なし	0.1531	9.4673
2.0434	1.9985	2342	2.125337	なし	なし	0.155	9.7054

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Vit GPT2 Image Captioning

モデル概要

モデル特徴

モデル能力

使用事例

🚀 ViT-GPT2

✨ 主な機能

📚 ドキュメント

モデルの説明

想定される使用目的と制限事項

学習と評価データ

学習手順

学習ハイパーパラメータ

学習結果

フレームワークのバージョン

📄 ライセンス