speecht5_asrオープンソース自動音声認識モデル - 無料でデプロイ可能、音声を迅速にテキストに変換

ホーム

Speecht5 Asr

microsoftによって開発

LibriSpeechデータセットでファインチューニングされたSpeechT5自動音声認識モデルで、音声をテキストに変換する機能をサポートしています。

音声認識

Transformers

オープンソースライセンス:MIT #音声テキスト変換 #クロスモーダル事前学習 #高精度ASR

ダウンロード数 12.30k

リリース時間 : 2/2/2023

モデル概要

SpeechT5は、音声処理タスク向けに設計された統一モーダルエンコーダ-デコーダ事前学習フレームワークで、音声認識など様々なタスクをサポートします。

モデル特徴

統一モーダルフレームワーク

共有のエンコーダ-デコーダネットワークで音声とテキストを処理し、クロスモーダル表現学習を実現します。

クロスモーダルベクトル量子化

ランダムに混合した音声/テキスト状態と潜在ユニットを使用して、テキストと音声情報を統一された意味空間で整列させます。

マルチタスクサポート

音声認識だけでなく、音声合成、音声翻訳、音声変換など様々な音声処理タスクにも利用可能です。

モデル能力

音声認識

音声テキスト変換

使用事例

音声処理

自動音声認識

音声内容をテキストに変換し、会議議事録や音声アシスタントなどのシナリオに適用可能です。

LibriSpeechデータセットで優れた性能を発揮します。

🚀 SpeechT5 (ASRタスク)

SpeechT5モデルは、LibriSpeechデータセットを使用して自動音声認識（音声からテキストへ）のためにファインチューニングされています。

このモデルは、Junyi Ao、Rui Wang、Long Zhou、Chengyi Wang、Shuo Ren、Yu Wu、Shujie Liu、Tom Ko、Qing Li、Yu Zhang、Zhihua Wei、Yao Qian、Jinyu Li、Furu Weiによる SpeechT5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language Processing で紹介されました。

SpeechT5は、このリポジトリで最初に公開され、元の重みが提供されています。使用されているライセンスは MIT です。

免責事項: SpeechT5を公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

🚀 クイックスタート

モデルの概要

T5（Text-To-Text Transfer Transformer）が事前学習自然言語処理モデルで成功を収めたことに触発され、我々は自己教師付き音声/テキスト表現学習のためのエンコーダ-デコーダ事前学習を探索する統一モーダルのSpeechT5フレームワークを提案します。SpeechT5フレームワークは、共有エンコーダ-デコーダネットワークと6つのモダリティ固有（音声/テキスト）の事前/事後ネットワークで構成されています。入力音声/テキストを事前ネットワークで前処理した後、共有エンコーダ-デコーダネットワークがシーケンス-to-シーケンス変換をモデル化し、その後事後ネットワークがデコーダの出力に基づいて音声/テキストモダリティの出力を生成します。

大規模なラベルなし音声とテキストデータを活用して、SpeechT5を事前学習し、統一モーダル表現を学習させることで、音声とテキストの両方のモデリング能力を向上させることを目指しています。テキストと音声の情報をこの統一された意味空間に整合させるために、エンコーダとデコーダの間のインターフェースとして、音声/テキストの状態を潜在ユニットとランダムに混合するクロスモーダルベクトル量子化アプローチを提案します。

広範な評価により、提案されたSpeechT5フレームワークが、自動音声認識、音声合成、音声翻訳、音声変換、音声強化、話者識別などの様々な音声言語処理タスクで優位性を示しています。

想定される用途と制限

このモデルは自動音声認識に使用できます。関心のあるタスクでファインチューニングされたバージョンをモデルハブで確認してください。

現在、特徴抽出器とモデルの両方がPyTorchをサポートしています。

引用

BibTeX:

@inproceedings{ao-etal-2022-speecht5,
    title = {{S}peech{T}5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language Processing},
    author = {Ao, Junyi and Wang, Rui and Zhou, Long and Wang, Chengyi and Ren, Shuo and Wu, Yu and Liu, Shujie and Ko, Tom and Li, Qing and Zhang, Yu and Wei, Zhihua and Qian, Yao and Li, Jinyu and Wei, Furu},
    booktitle = {Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)},
    month = {May},
    year = {2022},
    pages={5723--5738},
}

💻 使用例

基本的な使用法

次のコードを使用して、モノラル16kHzの音声波形をテキストに変換できます。

from transformers import SpeechT5Processor, SpeechT5ForSpeechToText
from datasets import load_dataset

dataset = load_dataset("hf-internal-testing/librispeech_asr_demo", "clean", split="validation")
dataset = dataset.sort("id")
sampling_rate = dataset.features["audio"].sampling_rate
example_speech = dataset[0]["audio"]["array"]

processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_asr")
model = SpeechT5ForSpeechToText.from_pretrained("microsoft/speecht5_asr")

inputs = processor(audio=example_speech, sampling_rate=sampling_rate, return_tensors="pt")

predicted_ids = model.generate(**inputs, max_length=100)

transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
print(transcription[0])