Wav2vec2 Xls R 1b Npsc Bokmaal

W

Wav2vec2 Xls R 1b Npsc Bokmaal

NbAiLabによって開発

facebook/wav2vec2-xls-r-1bモデルを基に、ノルウェー書面語（ブークモール）音声データセットでファインチューニングした自動音声認識モデル

オープンソースライセンス:Apache-2.0 #ノルウェー語音声認識 #高精度WER #ブークモール対応

ダウンロード数 23

リリース時間 : 3/2/2022

モデル概要

これはノルウェー書面語（ブークモール）に最適化された自動音声認識モデルで、NPSCデータセットでファインチューニングされており、高い認識精度を有します。

モデル特徴

高精度

NPSCテストセットで7.9%の単語誤り率と2.97%の文字誤り率を達成

大規模事前学習

10億パラメータのwav2vec2-xls-r-1bモデルを基にファインチューニング

ノルウェー語最適化

ノルウェー書面語（ブークモール）に特化して最適化された音声認識モデル

モデル能力

ノルウェー書面語音声認識

音声からテキストへの変換

音声内容分析

使用事例

音声文字起こし

会議議事録

ノルウェー語の会議録音を自動的に文字起こし

高精度な文字起こし結果

メディア字幕生成

ノルウェー語動画コンテンツの自動字幕生成

音声アシスタント

ノルウェー語音声コマンド認識

ノルウェー語音声アシスタントシステム向け音声認識コンポーネント

🚀 wav2vec2-xls-r-1b-npsc

このモデルは、facebook/wav2vec2-xls-r-1b を NbAiLab/NPSC (16K_mp3_bokmaal) データセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.1598
WER: 0.0966

📚 ドキュメント

モデルの詳細

このモデルは、facebook/wav2vec2-xls-r-1b を NbAiLab/NPSC (16K_mp3_bokmaal) データセットでファインチューニングしたものです。

想定される用途と制限

詳細情報は後日提供予定です。

学習と評価データ

詳細情報は後日提供予定です。

学習手順

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

学習率: 0.0001
学習バッチサイズ: 16
評価バッチサイズ: 16
シード: 42
勾配蓄積ステップ: 2
総学習バッチサイズ: 32
オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類: 線形
学習率スケジューラのウォームアップステップ: 2000
エポック数: 15.0
混合精度学習: Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	WER
0.8361	0.32	500	0.6304	0.4970
0.5703	0.64	1000	0.3195	0.2775
0.5451	0.97	1500	0.2700	0.2246
0.47	1.29	2000	0.2564	0.2329
0.4063	1.61	2500	0.2459	0.2099
0.374	1.93	3000	0.2175	0.1894
0.3297	2.26	3500	0.2036	0.1755
0.3145	2.58	4000	0.1957	0.1757
0.3989	2.9	4500	0.1923	0.1723
0.271	3.22	5000	0.1889	0.1649
0.2758	3.55	5500	0.1768	0.1588
0.2683	3.87	6000	0.1720	0.1534
0.2341	4.19	6500	0.1689	0.1471
0.2316	4.51	7000	0.1706	0.1405
0.2383	4.84	7500	0.1637	0.1426
0.2148	5.16	8000	0.1584	0.1347
0.2085	5.48	8500	0.1601	0.1387
0.2944	5.8	9000	0.1566	0.1294
0.1944	6.13	9500	0.1494	0.1271
0.1853	6.45	10000	0.1561	0.1247
0.235	6.77	10500	0.1461	0.1215
0.2286	7.09	11000	0.1447	0.1167
0.1781	7.41	11500	0.1502	0.1199
0.1714	7.74	12000	0.1425	0.1179
0.1725	8.06	12500	0.1427	0.1173
0.143	8.38	13000	0.1448	0.1142
0.154	8.7	13500	0.1392	0.1104
0.1447	9.03	14000	0.1404	0.1094
0.1471	9.35	14500	0.1404	0.1088
0.1479	9.67	15000	0.1414	0.1133
0.1607	9.99	15500	0.1458	0.1171
0.166	10.32	16000	0.1652	0.1264
0.188	10.64	16500	0.1713	0.1322
0.1461	10.96	17000	0.1423	0.1111
0.1289	11.28	17500	0.1388	0.1097
0.1273	11.61	18000	0.1438	0.1074
0.1317	11.93	18500	0.1312	0.1066
0.1448	12.25	19000	0.1446	0.1042
0.1424	12.57	19500	0.1386	0.1015
0.1392	12.89	20000	0.1379	0.1005
0.1408	13.22	20500	0.1408	0.0992
0.1239	13.54	21000	0.1338	0.0968
0.1244	13.86	21500	0.1335	0.0957
0.1254	14.18	22000	0.1382	0.0950
0.1597	14.51	22500	0.1544	0.0970
0.1566	14.83	23000	0.1589	0.0963

フレームワークのバージョン

Transformers 4.17.0.dev0
Pytorch 1.10.2+cu113
Datasets 1.18.3.dev0
Tokenizers 0.11.0

📄 ライセンス

このモデルは、Apache-2.0ライセンスの下で提供されています。

情報テーブル

属性	詳情
モデルタイプ	音声認識モデル
学習データ	NbAiLab/NPSC (16K_mp3_bokmaal)

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase