wav2vec2-large-100k-voxpopuliポルトガル語音声認識モデル - オープンソースで高精度な音声認識をサポート

Wav2vec2 Large 100k Voxpopuli Ft Common Voice Plus TTS Dataset Plus Data Augmentation Portuguese

Edressonによって開発

これはFacebookのWav2vec2 Large 100k Voxpopuliモデルをベースに、Common Voice 7.0とTTSポルトガル語データセットでファインチューニングし、データ拡張技術を適用したポルトガル語音声認識モデルです。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #ポルトガル語音声認識 #データ拡張最適化 #多コーパス訓練

ダウンロード数 22

リリース時間 : 3/2/2022

モデル概要

このモデルはポルトガル語音声認識タスクに特化しており、データ拡張と追加TTSデータセットによるファインチューニングで認識精度を向上させています。

モデル特徴

データ拡張ファインチューニング

TTS生成データと音声変換技術を使用したデータ拡張により、モデル性能を向上

複数データセット訓練

Common Voice 7.0と専用TTSポルトガル語データセットを組み合わせて訓練

高性能認識

Common Voice 7.0テストセットで20.20%の単語誤り率を達成

モデル能力

ポルトガル語音声認識

音声からテキストへの変換

自動音声認識

使用事例

音声文字起こし

ポルトガル語音声から文字へ

ポルトガル語音声コンテンツを文字に変換

単語誤り率20.20%

音声アシスタント

ポルトガル語音声コマンド認識

ポルトガル語音声アシスタントシステム向け音声コマンド認識

🚀 Wav2vec2 Large 100k Voxpopuli をCommon Voice 7.0、TTS-ポルトガル語コーパスとデータ拡張を用いてポルトガル語でファインチューニング

Wav2vec2 Large 100k Voxpopuli は、Common Voice 7.0、TTS-ポルトガル語コーパスと、TTSと音声変換に基づくデータ拡張手法を用いて、ポルトガル語でファインチューニングされたモデルです。

🚀 クイックスタート

このモデルを使用するには、以下のコードを実行します。

from transformers import AutoTokenizer, Wav2Vec2ForCTC
  
tokenizer = AutoTokenizer.from_pretrained("Edresson/wav2vec2-large-100k-voxpopuli-ft-Common_Voice_plus_TTS-Dataset_plus_Data_Augmentation-portuguese")

model = Wav2Vec2ForCTC.from_pretrained("Edresson/wav2vec2-large-100k-voxpopuli-ft-Common_Voice_plus_TTS-Dataset_plus_Data_Augmentation-portuguese")

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, Wav2Vec2ForCTC
  
tokenizer = AutoTokenizer.from_pretrained("Edresson/wav2vec2-large-100k-voxpopuli-ft-Common_Voice_plus_TTS-Dataset_plus_Data_Augmentation-portuguese")

model = Wav2Vec2ForCTC.from_pretrained("Edresson/wav2vec2-large-100k-voxpopuli-ft-Common_Voice_plus_TTS-Dataset_plus_Data_Augmentation-portuguese")

高度な使用法

# Common Voiceデータセットでのテスト例
dataset = load_dataset("common_voice", "ru", split="test", data_dir="./cv-corpus-7.0-2021-07-21")

resampler = torchaudio.transforms.Resample(orig_freq=48_000, new_freq=16_000)

def map_to_array(batch):
    speech, _ = torchaudio.load(batch["path"])
    batch["speech"] = resampler.forward(speech.squeeze(0)).numpy()
    batch["sampling_rate"] = resampler.new_freq
    batch["sentence"] = re.sub(chars_to_ignore_regex, '', batch["sentence"]).lower().replace("â€™", "'")
    return batch

ds = dataset.map(map_to_array)
result = ds.map(map_to_pred, batched=True, batch_size=1, remove_columns=list(ds.features.keys()))
print(wer.compute(predictions=result["predicted"], references=result["target"]))

📚 ドキュメント

結果については、論文を参照してください。

📄 ライセンス

このモデルは、Apache 2.0ライセンスの下で提供されています。

📋 モデル情報

属性	详情
モデルタイプ	Wav2vec2 Large 100k Voxpopuliをポルトガル語でファインチューニングしたモデル
訓練データ	Common Voice 7.0、TTS-ポルトガル語コーパス、データ拡張
評価指標	WER (Word Error Rate)
タグ	audio、speech、wav2vec2、pt、Portuguese-speech-corpus、automatic-speech-recognition、speech、PyTorch