swin-aragpt2-image-captioning-v3オープンソース画像記述モデル - 画像に対して無料でテキスト記述を生成

Swin Aragpt2 Image Captioning V3

AsmaMassadによって開発

Swin TransformerとAraGPT2アーキテクチャに基づく画像キャプション生成モデルで、入力画像に対してテキスト記述を生成できます。

ダウンロード数 18

リリース時間 : 6/6/2023

モデル概要

このモデルは視覚言語モデルで、Swin Transformerの画像エンコーディング能力とAraGPT2のテキスト生成能力を組み合わせ、画像キャプション生成タスク専用に設計されています。

マルチモーダルアーキテクチャ

視覚Transformerと言語モデルを統合し、画像からテキストへの変換を実現

エンドツーエンド学習

モデル全体をエンドツーエンドで微調整し、画像理解とテキスト生成の連携能力を最適化

クロスモーダル理解

画像内容を理解し、一貫性のある記述テキストを生成可能

画像内容理解

アラビア語テキスト生成

画像からテキストへの変換

支援技術

視覚障害者支援

視覚障害ユーザー向けに画像説明を生成

コンテンツ生成

ソーシャルメディアコンテンツ自動生成

アップロード画像に対して自動的に説明文を生成

訓練損失	エポック	ステップ	検証損失	Meteor	Bleu1	Bleu2	Bleu3	Bleu4
1.5775	4.71	5000	1.2386	1.91	2.6908	1.0804	0.3964	0.1282
1.2446	9.42	10000	1.1985	5.09	8.4549	2.9556	1.2756	0.4817
1.1919	14.12	15000	1.1792	5.4	9.0722	2.9343	1.1887	0.4748
1.1669	18.83	20000	1.1743	5.02	8.5611	2.9273	1.1796	0.4618