Unispeech - SAT - Base - 100h - Libri - FTオープンソースモデル - 高精度な音声認識で円滑なコミュニケーションを支援

ホーム

Unispeech Sat Base 100h Libri Ft

microsoftによって開発

UniSpeech-SAT基本モデルを基に、LibriSpeech音声データで100時間のファインチューニングを行った自動音声認識モデル

音声認識

Transformers

英語オープンソースライセンス:Apache-2.0 #話者認識音声認識 #マルチタスク自己教師あり学習 #16kHz音声処理

ダウンロード数 643

リリース時間 : 3/2/2022

モデル概要

これは自動音声認識(ASR)専用のモデルで、マイクロソフトのUniSpeech-SATアーキテクチャに基づき、自己教師あり学習によって話者表現能力を強化した英語音声からテキストへの変換タスクに適しています

モデル特徴

話者認識事前学習

文レベルの対照損失とSSL目的関数を組み合わせることで、話者表現学習能力を強化

文混合データ増強

革新的な文混合戦略を採用し、訓練中に教師なしで重複文を生成することで、モデルの話者識別能力を向上

大規模事前学習

オリジナルモデルは9.4万時間の公開音声データで事前学習されており、強力な汎化能力を有する

モデル能力

英語音声認識

話者特徴抽出

16kHzサンプリング音声処理

使用事例

音声からテキストへ

音声文字起こし

英語音声内容をテキストに変換

LibriSpeechデータセットで良好な性能を発揮

音声分析

話者識別

音声から話者特徴を抽出

論文ではSUPERBベンチマークテストで優れた性能を示したと報告

🚀 UniSpeech-SAT-Base-Finetuned-100h-Libri

このモデルは、16kHzでサンプリングされた音声オーディオに対して、100時間のLibrispeechでファインチューニングされたunispeech - sat - baseモデルです。モデルを使用する際には、入力音声も16kHzでサンプリングされていることを確認してください。

🚀 クイックスタート

このモデルは、音声ファイルの文字起こしに使用できます。以下に、独立した音響モデルとして使用する例を示します。

 from transformers import Wav2Vec2Processor, UniSpeechSatForCTC
 from datasets import load_dataset
 import torch
 
 # load model and tokenizer
 processor = Wav2Vec2Processor.from_pretrained("microsoft/unispeech-sat-base-100h-libri-ft")
 model = UniSpeechSatForCTC.from_pretrained("microsoft/unispeech-sat-base-100h-libri-ft")
     
 # load dummy dataset
 ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
 
 # tokenize
 input_values = processor(ds[0]["audio"]["array"], return_tensors="pt", padding="longest").input_values  # Batch size 1
 
 # retrieve logits
 logits = model(input_values).logits
 
 # take argmax and decode
 predicted_ids = torch.argmax(logits, dim=-1)
 transcription = processor.batch_decode(predicted_ids)

✨ 主な機能

100時間のLibriSpeechでファインチューニングされています。
音声認識のための自己教師あり学習（SSL）を改善し、話者特性のモデリングにSSLを適用するための手法が導入されています。

📚 ドキュメント

論文情報

論文: UNISPEECH - SAT: UNIVERSAL SPEECH REPRESENTATION LEARNING WITH SPEAKER AWARE PRE - TRAINING

著者: Sanyuan Chen, Yu Wu, Chengyi Wang, Zhengyang Chen, Zhuo Chen, Shujie Liu, Jian Wu, Yao Qian, Furu Wei, Jinyu Li, Xiangzhan Yu

概要自己教師あり学習（SSL）は、大規模な無ラベルデータを利用し、大量の人間によるラベリングを回避できるため、音声処理の長年の目標です。近年、音声認識における自己教師あり学習の適用は大きな成功を収めていますが、話者特性のモデリングにSSLを適用する試みは限られていました。この論文では、話者表現学習のための既存のSSLフレームワークを改善することを目的としています。教師なしでの話者情報抽出を強化するための2つの方法が導入されています。まず、現在のSSLフレームワークにマルチタスク学習を適用し、発話単位の対照損失をSSL目的関数に統合します。次に、より良い話者識別のために、データ拡張のための発話混合戦略を提案し、追加の重複発話を教師なしで作成し、学習中に組み込みます。提案手法をHuBERTフレームワークに統合しました。SUPERBベンチマークでの実験結果は、提案システムが普遍的表現学習、特に話者識別指向のタスクにおいて最先端の性能を達成することを示しています。各提案手法の有効性を検証するためのアブレーション研究も行われています。最後に、学習データセットを94,000時間の公開音声データに拡大し、すべてのSUPERBタスクにおいてさらなる性能向上を達成しています。