wav2vec2-xls-r-300m_Mrbrown_finetune1オープンソース音声認識モデル - シンガポール英語音声を高精度に認識

ホーム

Wav2vec2 Xls R 300m Mrbrown Finetune1

RuiqianLiによって開発

facebook/wav2vec2-xls-r-300m事前学習モデルをベースに、uob_singlishデータセットで微調整した音声認識モデル

音声認識

Transformers

オープンソースライセンス:Apache-2.0 #シンガポール英語認識 #少数サンプル微調整 #音声からテキストへ

ダウンロード数 18

リリース時間 : 6/9/2022

モデル概要

このモデルはシンガポール英語音声認識タスク向けに微調整されたバージョンですが、現在のバージョンは自作データセットで性能が低い（単語誤り率1）ため、データセットや訓練パラメータのさらなる最適化が必要かもしれません

モデル特徴

シンガポール英語対応

シンガポール英語のアクセントと言語特性に最適化

XLS-Rアーキテクチャ採用

Facebookの強力なwav2vec2-xls-r-300m事前学習モデルを基盤に使用

モデル能力

音声からテキストへ

シンガポール英語認識

使用事例

音声文字起こし

シンガポール英語音声文字起こし

シンガポール英語アクセントの音声をテキストに変換

現在のバージョンは自作データセットで単語誤り率1と、効果が理想的ではありません

🚀 wav2vec2-xls-r-300m_Mrbrown_finetune1

このモデルは、uob_singlishデータセットでfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。

🚀 クイックスタート

今回は自作のデータセット（「https://www.youtube.com/watch?v=a2ZOTD3R7JI」の音声をスライスに分割し、対応する文字起こしを記述したもの、合計4分）を使用しました。しかし、単語誤り率（Wer）が1のままである理由は不明です。ただ、前回同じ事前学習モデルと標準のSinglishコーパスを使用してファインチューニングしたところ、良好な結果が得られたことから、おそらくデータセットの問題であると考えられます（詳細はRuiqianLi/wav2vec2-large-xls-r-300m-singlish-colabを参照）。

評価セットでは以下の結果を達成しています：