iwslt - asr - wav2vec - large - 4500hオープンソースの英語音声認識モデル。正確なデコードで、音声を効率的に処理できます。

ホーム

Iwslt Asr Wav2vec Large 4500h

nguyenvulebinhによって開発

Wav2Vec2アーキテクチャに基づく大規模英語自動音声認識モデルで、4500時間の多ソース音声データで微調整され、言語モデルを用いたデコードをサポートします。

音声認識

Transformers

英語#多データセット訓練 #高精度音声認識 #言語モデルをサポート

ダウンロード数 27

リリース時間 : 3/23/2022

モデル概要

このモデルはFacebookのWav2Vec2アーキテクチャを微調整した英語自動音声認識システムで、言語モデルを統合して転写精度を向上させ、さまざまな英語のアクセントの音声をテキストに変換するタスクに適しています。

モデル特徴

多ソースデータ訓練

7つの異なるソースの音声データセットで訓練され、総時間は4500時間を超えます。

言語モデルの統合

言語モデルを搭載したプロセッサを提供し、単語誤り率を大幅に低下させます。

高性能転写

自由音声テストセットでは、言語モデルを使用して1.1%の単語誤り率を達成します。

モデル能力

英語音声認識

言語モデルを用いた音声デコード

多アクセント英語の処理

使用事例

音声転写

会議記録

英語の会議録音を自動的に文字記録に変換します。

自由音声テストセットでの単語誤り率はわずか1.1%です。

教育コンテンツの転写

英語の教育用ビデオ/オーディオを文字に変換します。

TED講演データでは、単語誤り率は5.4%です。

🚀 英語の自動音声認識のためのWav2Vec2大規模モデルの微調整

このプロジェクトは、英語の自動音声認識（ASR）に特化したWav2Vec2大規模モデルを微調整するものです。複数のデータセットを用いて訓練され、高精度な音声認識を実現します。

🚀 クイックスタート

このモデルを使用するには、以下のコードを参照してください。Colabでの実行も可能です。

from transformers.file_utils import cached_path, hf_bucket_url
from importlib.machinery import SourceFileLoader
from transformers import Wav2Vec2ProcessorWithLM
from IPython.lib.display import Audio
import torchaudio
import torch

# モデルとプロセッサーの読み込み
model_name = "nguyenvulebinh/iwslt-asr-wav2vec-large-4500h"
model = SourceFileLoader("model", cached_path(hf_bucket_url(model_name,filename="model_handling.py"))).load_module().Wav2Vec2ForCTC.from_pretrained(model_name)
processor = Wav2Vec2ProcessorWithLM.from_pretrained(model_name)

# サンプル音声の読み込み (16k)
audio, sample_rate = torchaudio.load(cached_path(hf_bucket_url(model_name, filename="tst_2010_sample.wav")))
input_data = processor.feature_extractor(audio[0], sampling_rate=16000, return_tensors='pt')

# 推論
output = model(**input_data)

# LMなしでの文字起こし出力
print(processor.tokenizer.decode(output.logits.argmax(dim=-1)[0].detach().cpu().numpy()))
# and of course there's teams that have a lot more tada structures and among the best are recent graduates of kindergarten

# LMありでの文字起こし出力
print(processor.decode(output.logits.cpu().detach().numpy()[0], beam_width=100).text)
# and of course there are teams that have a lot more ta da structures and among the best are recent graduates of kindergarten

✨ 主な機能

複数のデータセット（Common Voice、Librispeech ASR、How2など）を用いた訓練
言語モデル（LM）を使用した高精度な音声認識
非商用利用向けのライセンスで提供

📦 インストール

このモデルは、Hugging FaceのTransformersライブラリを使用しています。必要なライブラリをインストールすることで、簡単に使用できます。

📚 ドキュメント

微調整用データ

データセット	時間 (時間)
Common Voice	1667
Europarl	85
How2	356
Librispeech	936
MuST-C v1	407
MuST-C v2	482
Tedlium	482

評価結果

データセット	時間 (時間)	LMなしのWER	LMありのWER
Librispeech	5.4	2.9	1.1
Tedlium	2.6	7.9	5.4

モデルパラメータのライセンス

このASRモデルのパラメータは、Creative Commons Attribution-NonCommercial 4.0 International（CC BY-NC 4.0）ライセンスの下で、非商用利用のみに提供されています。詳細はこちらを参照してください：https://creativecommons.org/licenses/by-nc/4.0/legalcode