saved_model_git-baseオープンソースビジュアル言語モデル - 無料でデプロイ可能、高精度な画像説明生成

ホーム

Saved Model Git Base

holiporiによって開発

microsoft/git-baseを画像フォルダデータセットでファインチューニングした視覚言語モデルで、主に画像キャプション生成タスクに使用されます

画像生成テキスト

Transformers

その他オープンソースライセンス:MIT #画像キャプション生成 #マルチモーダルモデル #ファインチューニング最適化

ダウンロード数 13

リリース時間 : 5/22/2023

モデル概要

このモデルはGITアーキテクチャに基づく視覚言語モデルで、ファインチューニングにより入力画像から関連するテキスト記述を生成できます。評価では優れたテキスト生成能力を示しています。

モデル特徴

マルチモーダル理解能力

視覚と言語情報を同時に処理し、画像内容を理解して関連する記述を生成できます

ファインチューニング最適化

特定の画像データセットでファインチューニングを行い、対象領域でのパフォーマンスを向上させています

包括的な評価指標

複数のテキスト生成評価指標(Rouge, Bleu, Meteorなど)を使用して総合的に評価しています

モデル能力

画像理解

テキスト生成

マルチモーダル処理

画像キャプション生成

使用事例

支援技術

視覚支援記述

視覚障害者のために画像内容のテキスト記述を生成します

コンテンツ作成

ソーシャルメディアコンテンツ生成

アップロードされた画像に対して自動的に説明文を生成します

🚀 saved_model_git-base

このモデルは、imagefolderデータセット上でmicrosoft/git-baseをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.2473
Wer Score: 2.7325
Rouge1: 0.3059
Rouge2: 0.1738
Rougel: 0.2760
Rougelsum: 0.2759
Meteor: 0.4991
Bleu: 0.1058
Bleu1: 0.2113
Bleu2: 0.1272
Bleu3: 0.0824
Bleu4: 0.0566

📚 ドキュメント

モデルの詳細

詳細情報は後日追加予定です。

想定される用途と制限

詳細情報は後日追加予定です。

学習と評価データ

詳細情報は後日追加予定です。

学習手順

学習ハイパーパラメータ

学習中に以下のハイパーパラメータが使用されました。

学習率: 5e-05
学習バッチサイズ: 112
評価バッチサイズ: 112
シード: 42
勾配累積ステップ: 2
総学習バッチサイズ: 224
オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類: 線形
エポック数: 30
混合精度学習: Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	Wer Score	Rouge1	Rouge2	Rougel	Rougelsum	Meteor	Bleu	Bleu1	Bleu2	Bleu3	Bleu4
0.774	1.7	1000	0.2771	3.5978	0.2206	0.1145	0.1981	0.1981	0.4163	0.0774	0.1712	0.0965	0.0580	0.0375
0.2763	3.4	2000	0.2537	3.6165	0.2273	0.1237	0.2050	0.2050	0.4374	0.0840	0.1757	0.1032	0.0642	0.0428
0.2567	5.11	3000	0.2423	3.5963	0.2317	0.1299	0.2105	0.2105	0.4500	0.0881	0.1790	0.1074	0.0681	0.0460
0.2447	6.81	4000	0.2349	3.5915	0.2352	0.1336	0.2136	0.2136	0.4573	0.0907	0.1812	0.1100	0.0706	0.0481
0.2357	8.51	5000	0.2297	3.5867	0.2364	0.1364	0.2158	0.2158	0.4617	0.0927	0.1820	0.1120	0.0726	0.0499
0.2287	10.21	6000	0.2258	3.5781	0.2393	0.1392	0.2183	0.2183	0.4681	0.0947	0.1837	0.1139	0.0745	0.0515
0.2228	11.91	7000	0.2223	3.5628	0.2413	0.1419	0.2208	0.2208	0.4734	0.0965	0.1853	0.1158	0.0762	0.0531
0.2173	13.62	8000	0.2200	3.5171	0.2459	0.1452	0.2249	0.2249	0.4779	0.0976	0.1860	0.1167	0.0773	0.0540
0.2132	15.32	9000	0.2184	3.5207	0.2461	0.1464	0.2253	0.2254	0.4804	0.0994	0.1885	0.1187	0.0789	0.0553
0.2085	17.02	10000	0.2174	3.5189	0.2484	0.1468	0.2259	0.2259	0.4842	0.0998	0.1895	0.1190	0.0791	0.0555
0.2027	18.72	11000	0.2179	3.2891	0.2656	0.1571	0.2411	0.2411	0.4952	0.1036	0.1970	0.1233	0.0820	0.0577
0.1961	20.43	12000	0.2213	3.3457	0.2610	0.1534	0.2367	0.2367	0.4900	0.1025	0.1962	0.1223	0.0810	0.0568
0.1886	22.13	13000	0.2260	2.9878	0.2914	0.1696	0.2628	0.2628	0.5028	0.1053	0.2040	0.1257	0.0828	0.0579
0.1797	23.83	14000	0.2305	3.0250	0.2874	0.1668	0.2597	0.2597	0.4987	0.1053	0.2051	0.1259	0.0827	0.0575
0.1713	25.53	15000	0.2376	2.7048	0.3125	0.1797	0.2822	0.2822	0.5062	0.1078	0.2125	0.1291	0.0843	0.0583
0.1646	27.23	16000	0.2438	2.7129	0.3087	0.1761	0.2786	0.2785	0.5021	0.1066	0.2120	0.1281	0.0831	0.0573
0.159	28.94	17000	0.2473	2.7325	0.3059	0.1738	0.2760	0.2759	0.4991	0.1058	0.2113	0.1272	0.0824	0.0566