m-ctc-t-largeオープンソース音声認識モデル - 60種類の言語の音声認識と文字起こしを無料でサポート

ホーム

M Ctc T Large

speechbrainによって開発

Meta AIが開発した大規模多言語音声認識モデルで、60言語をサポートし、10億パラメータのTransformerエンコーダーアーキテクチャに基づいています。

音声認識

Transformers

英語オープンソースライセンス:Apache-2.0 #多言語音声認識 #文字レベル転写 #大規模Transformer

ダウンロード数 88

リリース時間 : 5/27/2022

モデル概要

M-CTC-Tは多言語音声認識モデルで、音声をテキストに変換し、複数の言語をサポートするとともに、句読点や大文字小文字を保持します。

モデル特徴

多言語サポート

60言語の音声認識をサポートし、幅広い言語ニーズに対応します。

大規模トレーニングデータ

Common VoiceやLibriVoxなどのコーパスでトレーニングされており、データ量が多く多様です。

文字レベル転写

標準化されていない文字レベルの転写テキストを使用し、句読点や大文字小文字を保持します。

モデル能力

音声認識

多言語転写

文字レベルテキスト生成

使用事例

音声転写

多言語音声からテキストへ

複数言語の音声をテキストに変換し、国際的なアプリケーションシナリオに適しています。

Common Voiceテストセットでの文字誤り率(CER)は21.4-23.3

🚀 M-CTC-T

Meta AIによる大規模な多言語音声認識モデルです。このモデルは10億パラメータのTransformerエンコーダで、8065の文字ラベルに対するCTCヘッドと60の言語IDラベルに対する言語識別ヘッドを備えています。Common Voice（バージョン6.1、2020年12月リリース）とVoxPopuliで学習され、その後はCommon Voiceのみで学習されまし。ラベルは正規化されていない文字レベルの文字起こし（句読点や大文字は削除されていません）です。モデルは16Khzの音声信号からのメルフィルタバンク特徴量を入力とします。

model image

オリジナルのFlashlightコード、モデルチェックポイント、およびColabノートブックは、https://github.com/flashlight/wav2letter/tree/main/recipes/mling_pl で見つけることができます。

✨ 主な機能

大規模な多言語音声認識が可能です。
10億パラメータのTransformerエンコーダを使用しています。
8065の文字ラベルに対するCTCヘッドと60の言語IDラベルに対する言語識別ヘッドを備えています。

📦 インストール

ドキュメントに具体的なインストール手順が記載されていないため、このセクションをスキップします。

💻 使用例

基本的な使用法

import torch
import torchaudio
from datasets import load_dataset
from transformers import MCTCTForCTC, MCTCTProcessor

model = MCTCTForCTC.from_pretrained("speechbrain/m-ctc-t-large")
processor = MCTCTProcessor.from_pretrained("speechbrain/m-ctc-t-large")

 # load dummy dataset and read soundfiles
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
 
# feature extraction
input_features = processor(ds[0]["audio"]["array"], sampling_rate=ds[0]["audio"]["sampling_rate"], return_tensors="pt").input_features 

# retrieve logits
with torch.no_grad():
    logits = model(input_features).logits

# take argmax and decode
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)

高度な使用法

ドキュメントに高度な使用法のコード例が記載されていないため、このセクションをスキップします。

📚 ドキュメント

モデル情報

属性	详情
モデルタイプ	大規模な多言語音声認識モデル
学習データ	Common Voice（バージョン6.1、2020年12月リリース）とVoxPopuli

引用情報

論文

著者: Loren Lugosch, Tatiana Likhomanenko, Gabriel Synnaeve, Ronan Collobert

@article{lugosch2021pseudo,
  title={Pseudo-Labeling for Massively Multilingual Speech Recognition},
  author={Lugosch, Loren and Likhomanenko, Tatiana and Synnaeve, Gabriel and Collobert, Ronan},
  journal={ICASSP},
  year={2022}
}