wav2vec2-large-robust-ft-swbd-300hオープンソースモデル - 電話音声認識を高精度に最適化

ホーム

Wav2vec2 Large Robust Ft Swbd 300h

facebookによって開発

このモデルはFacebookのWav2Vec2-Large-Robustの微調整バージョンで、電話音声認識タスクに特化して最適化されており、300時間のSwitchboard電話音声コーパスを使用して微調整されています。

音声認識

Transformers

英語オープンソースライセンス:Apache-2.0 #電話音声認識 #多領域事前学習 #ロバスト性のある音響モデル

ダウンロード数 2,543

リリース時間 : 3/2/2022

モデル概要

電話音声シーンに最適化された自動音声認識(ASR)モデルで、ノイズ環境下でも優れた性能を発揮します。16kHzのサンプリングレートのオーディオ入力に対応しています。

モデル特徴

多領域事前学習

事前学習段階では、有声書(Libri-Light)、朗読音声(CommonVoice)、電話音声(Switchboard/Fisher)などの多領域のデータが統合されています。

ノイズロバスト性

ノイズのある電話音声シーンに特化して最適化されており、Switchboard電話コーパスで300時間微調整されています。

跨領域適応

論文によると、ターゲット領域の未ラベルデータを使用した事前学習により、モデルの領域内外のデータに対する性能が大幅に向上することが証明されています。

モデル能力

英語音声のテキスト変換

ノイズ環境下での音声認識

電話音声の文字起こし

使用事例

音声文字起こしサービス

カスタマーサポート電話の自動文字起こし

カスタマーサポートセンターの通話内容を自動的に文字記録に変換します。

ノイズのある電話環境下でも高い認識精度を維持します。

音声分析

通話内容分析

ビジネスや研究シーンでの電話録音の内容分析を行います。

🚀 Wav2Vec2-Large-Robust を Switchboard でファインチューニングしたモデル

このモデルは、音声認識に特化したモデルで、FacebookのWav2Vec2をベースに、Switchboardデータセットでファインチューニングされています。

🚀 クイックスタート

このモデルは、FacebookのWav2Vec2 をベースに構築された、wav2vec2-large-robust モデルのファインチューニング版です。事前学習には以下のデータセットが使用されています。

Libri-Light: LibriVoxプロジェクトからのオープンソースのオーディオブック。クリーンな読み上げ音声データ
CommonVoice: クラウドソーシングで収集された音声データ。読み上げられたテキストの断片
Switchboard: 電話音声コーパス。ノイズの多い電話音声データ
Fisher: 会話型の電話音声。ノイズの多い電話音声データ

その後、300時間の Switchboard データでファインチューニングされています。

モデルを使用する際には、音声入力が16Khzでサンプリングされていることを確認してください。

論文 Robust Wav2Vec2

著者: Wei-Ning Hsu, Anuroop Sriram, Alexei Baevski, Tatiana Likhomanenko, Qiantong Xu, Vineel Pratap, Jacob Kahn, Ann Lee, Ronan Collobert, Gabriel Synnaeve, Michael Auli

概要音声表現の自己教師付き学習は非常に活発な研究分野ですが、ほとんどの研究は、大量のラベル付きおよびラベル無しデータが存在する読み上げオーディオブックなどの単一のドメインに焦点を当てています。この論文では、事前学習用のラベル無しデータのドメインが、ファインチューニング用のラベル付きデータのドメインと異なり、それがさらにテストデータのドメインと異なる、より一般的な設定を探索します。実験の結果、事前学習時にターゲットドメインのデータを使用すると、さまざまな設定で大きな性能向上が見られることがわかりました。大規模な競争的な設定では、ドメイン内のラベル無しデータで事前学習することで、ドメイン内とドメイン外のラベル付きデータで学習されたモデル間のギャップが66％ - 73％縮小されることを示しています。これは、ラベル付きデータよりもラベル無しのターゲットドメインデータを取得する方がはるかに容易であるため、明らかな実用的な意味を持ちます。さらに、複数のドメインで事前学習すると、学習時に見られなかったドメインでの汎化性能が向上することがわかりました。コードとモデルは、このURLで公開されます。

元のモデルは、https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20 で見つけることができます。

💻 使用例

基本的な使用法

音声ファイルを文字起こしするために、このモデルを独立した音響モデルとして使用することができます。

from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
from datasets import load_dataset
import torch

# load model and processor
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-large-robust-ft-swbd-300h")
model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-large-robust-ft-swbd-300h")

# load dummy dataset and read soundfiles
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

# tokenize
input_values = processor(ds[0]["audio"]["array"], return_tensors="pt", padding="longest").input_values  # Batch size 1

# retrieve logits
logits = model(input_values).logits

# take argmax and decode
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)