UniSpeechオープンソース音声モデル - 多種類のデータを組み合わせたトレーニング、フランス語処理用に特化した微調整

ホーム

Unispeech 1350 En 353 Fr Ft 1h

microsoftによって開発

UniSpeechはラベル付きデータとラベルなしデータを組み合わせた統一音声表現学習モデルで、特にフランス語向けにファインチューニングされています。

音声認識

Transformers

フランス語#フランス語音声認識 #音素レベルモデリング #マルチタスク事前学習

ダウンロード数 20

リリース時間 : 3/2/2022

モデル概要

このモデルは16kHzサンプリングの音声オーディオと音素ラベルで事前学習され、1時間のフランス語音素データでファインチューニングされています。主にフランス語自動音声認識タスクに使用されます。

モデル特徴

統一学習フレームワーク

教師あり音素CTC学習と音素認識対照自己教師あり学習を同時に実施

言語間能力

CommonVoiceコーパスで優れた言語間表現学習効果を実証

ドメイン適応性

ドメイン転移音声認識タスクで優れた性能を発揮

モデル能力

フランス語音声認識

音素系列予測

言語間音声表現学習

使用事例

音声認識

フランス語音声から音素へ

フランス語音声を音素系列に変換

自己教師あり事前学習と教師あり転移学習と比較して、最大13.4%と17.8%の相対音素誤り率を低減

音声研究

言語間音声表現研究

異なる言語間の音声表現転移を研究

🚀 UniSpeech-Large-plus フランス語版

このモデルは、16kHzでサンプリングされた音声オーディオと音素ラベルで事前学習され、さらに1時間分のフランス語音素でファインチューニングされた大規模モデルです。音声認識タスクにおいて高い性能を発揮します。

🚀 クイックスタート

このモデルは、音声入力を16kHzでサンプリングし、テキストを音素列に変換する必要があります。使用する際はこの点に注意してください。

✨ 主な機能

16kHzの音声オーディオと音素ラベルで事前学習された大規模モデル。
1時間分のフランス語音素でファインチューニングされている。
音素分類タスクに最適化されている。

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションを省略します。

💻 使用例

基本的な使用法

import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F

model_id = "microsoft/unispeech-1350-en-353-fr-ft-1h"

sample = next(iter(load_dataset("common_voice", "fr", split="test", streaming=True)))
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()

model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)

input_values = processor(resampled_audio, return_tensors="pt").input_values

with torch.no_grad():
    logits = model(input_values).logits

prediction_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(prediction_ids)
# gives -> 'œ̃ v ʁ ɛ t ʁ a v a j ɛ̃ t e ʁ ɛ s ɑ̃ v a ɑ̃ f ɛ̃ ɛ t ʁ ə m ə n e s y ʁ s ə s y ʒ ɛ'
# for 'Un vrai travail intéressant va, enfin, être mené sur ce sujet.'

📚 ドキュメント

論文情報

論文タイトル: UniSpeech: Unified Speech Representation Learning with Labeled and Unlabeled Data
著者: Chengyi Wang, Yu Wu, Yao Qian, Kenichi Kumatani, Shujie Liu, Furu Wei, Michael Zeng, Xuedong Huang
概要: この論文では、ラベル付きデータとラベル無しデータの両方を用いて音声表現を学習するための統一的な事前学習アプローチであるUniSpeechを提案しています。このアプローチでは、教師あり音素CTC学習と音素認識型コントラスト自己教師付き学習をマルチタスク学習の方法で行います。得られた表現は、音素構造とより相関の高い情報を捉えることができ、言語やドメイン間の汎化能力を向上させます。公共のCommonVoiceコーパスを用いた多言語表現学習におけるUniSpeechの有効性を評価しました。結果は、UniSpeechが自己教師付き事前学習と教師あり転移学習をそれぞれ最大13.4%と17.8%の相対音素誤り率の削減で上回っていることを示しています（すべてのテスト言語で平均）。また、ドメインシフト音声認識タスクにおいても、以前のアプローチに対して6%の相対単語誤り率の削減が示されています。