Meta AIがmctct-large音声認識モデルをオープンソース化 - 60言語の文字レベルのトランスクリプションをサポート

ホーム

Mctct Large

cwkeamによって開発

Meta AIが開発した大規模多言語音声認識モデルで、10億のパラメータを持ち、60言語の文字レベル転写をサポート

音声認識

Transformers

英語オープンソースライセンス:Apache-2.0 #多言語音声認識 #文字レベル転写 #大規模Transformer

ダウンロード数 21

リリース時間 : 5/5/2022

モデル概要

M-CTC-TはTransformerエンコーダーを基にした大規模多言語音声認識モデルで、CTCヘッドと言語識別ヘッドを備え、60言語の音声入力を処理し文字レベルの転写テキスト（句読点や大文字小文字を保持）を出力できます。

モデル特徴

多言語サポート

60言語の音声認識をサポートし、言語識別機能を備えています

大規模トレーニング

10億パラメータ規模のTransformerアーキテクチャで、Common VoiceとVoxPopuliのデータでトレーニング

文字レベル転写

出力には元のテキストの句読点や大文字小文字の形式が保持されます

エンドツーエンドモデル

16kHz音声信号から直接抽出したメルフィルターバンク特徴量で認識を行います

モデル能力

多言語音声認識

言語識別

文字レベルテキスト転写

使用事例

音声からテキストへ

会議議事録自動転写

多言語会議録音を自動的にテキスト記録に変換

音声アシスタント

多言語音声コマンド認識をサポート

音声分析

多言語コンテンツ分析

異なる言語の音声コンテンツを分析

🚀 M-CTC-T

Meta AIによる大規模多言語音声認識器です。このモデルは、8065の文字ラベルに対するCTCヘッドと60の言語IDラベルに対する言語識別ヘッドを備えた10億パラメータのTransformerエンコーダです。

🚀 クイックスタート

M-CTC-TはMeta AIによる大規模多言語音声認識器です。モデルは10億パラメータのTransformerエンコーダで、CTCヘッドと言語識別ヘッドを備えています。このモデルはCommon VoiceとVoxPopuliで訓練され、その後はCommon Voiceのみで訓練されます。

✨ 主な機能

大規模多言語音声認識が可能です。
10億パラメータのTransformerエンコーダを使用しています。
CTCヘッドと言語識別ヘッドを備えています。

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションをスキップします。

💻 使用例

基本的な使用法

import torch
import torchaudio
from datasets import load_dataset
from transformers import MCTCTForCTC, MCTCTProcessor

model = MCTCTForCTC.from_pretrained("speechbrain/mctct-large")
processor = MCTCTProcessor.from_pretrained("speechbrain/mctct-large")

 # load dummy dataset and read soundfiles
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
 
# tokenize
input_features = processor(ds[0]["audio"]["array"], return_tensors="pt").input_features 

# retrieve logits
logits = model(input_features).logits

# take argmax and decode
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)

📚 ドキュメント

モデルの訓練方法に関する詳細情報は、公式論文を参照してください。

🔧 技術詳細

モデルは10億パラメータのTransformerエンコーダで、CTCヘッドと言語識別ヘッドを備えています。訓練にはCommon Voice (バージョン6.1, 2020年12月リリース) とVoxPopuliが使用され、その後はCommon Voiceのみで訓練されます。ラベルは正規化されていない文字レベルの文字起こしで、句読点や大文字小文字は削除されていません。モデルは16Khzの音声信号からMelフィルタバンク特徴量を入力として受け取ります。

model image

📄 ライセンス

このモデルはApache-2.0ライセンスの下で提供されています。

引用

論文

著者: Loren Lugosch, Tatiana Likhomanenko, Gabriel Synnaeve, Ronan Collobert

@article{lugosch2021pseudo,
  title={Pseudo-Labeling for Massively Multilingual Speech Recognition},
  author={Lugosch, Loren and Likhomanenko, Tatiana and Synnaeve, Gabriel and Collobert, Ronan},
  journal={ICASSP},
  year={2022}
}

追加で、Chan Woo Kim と Patrick von Platen には、モデルをFlashlightからPyTorchに移植してくれたことに感謝します。