wav2vec2 - conformer - rope - large - 100h - ftオープンソース音声モデル - 100時間のデータに基づくファインチューニングによる高精度音声認識

ホーム

Wav2vec2 Conformer Rope Large 100h Ft

facebookによって開発

Librispeech 100時間の音声データでファインチューニングされたWav2Vec2 Conformerモデルで、回転位置埋め込み技術を採用

音声認識

Transformers

英語オープンソースライセンス:Apache-2.0 #回転位置埋め込み #Librispeechファインチューニング #高精度音声認識

ダウンロード数 99

リリース時間 : 4/18/2022

モデル概要

このモデルはWav2Vec2 Conformerアーキテクチャに基づく自動音声認識(ASR)モデルで、回転位置埋め込み技術を統合し、Librispeech 100時間の音声データでファインチューニングされており、英語の音声からテキストへの変換タスクに適しています。

モデル特徴

回転位置埋め込み

回転位置埋め込み(RoPE)技術を採用し、音声シーケンスの位置情報モデリング能力を強化

Conformerアーキテクチャ

TransformerとCNNの利点を組み合わせ、局所的およびグローバルな音声特徴を同時に捕捉

効率的なトレーニング

Librispeech 100時間のデータに基づくファインチューニングで、比較的少ないデータ量でも良好な性能を実現

モデル能力

英語音声認識

16kHzオーディオ処理

エンドツーエンド音声テキスト変換

使用事例

音声文字起こし

会議議事録

英語の会議録音を自動的に文字起こし

高精度な文字起こし結果

ポッドキャスト文字起こし

英語ポッドキャストコンテンツを検索可能なテキストに変換

支援技術

リアルタイム字幕生成

英語動画やライブ配信のリアルタイム字幕を生成

🚀 Wav2Vec2-Conformer-Large-100h with Rotary Position Embeddings

ロータリー位置埋め込みを持つWav2Vec2 Conformerです。このモデルは、960時間のLibrispeechで事前学習され、16kHzサンプリングの音声オーディオに対して100時間のLibrispeechでファインチューニングされています。モデルを使用する際には、入力音声も16kHzでサンプリングされていることを確認してください。

✨ 主な機能

音声認識に特化したモデルで、高精度な音声転写が可能です。
ロータリー位置埋め込みを用いることで、位置情報を効果的に扱えます。

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションをスキップします。

💻 使用例

基本的な使用法

 from transformers import Wav2Vec2Processor, Wav2Vec2ConformerForCTC
 from datasets import load_dataset
 import torch
 
 # load model and processor
 processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-conformer-rope-large-100h-ft")
 model = Wav2Vec2ConformerForCTC.from_pretrained("facebook/wav2vec2-conformer-rope-large-100h-ft")
     
 # load dummy dataset and read soundfiles
 ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
 
 # tokenize
 input_values = processor(ds[0]["audio"]["array"], return_tensors="pt", padding="longest").input_values
 
 # retrieve logits
 logits = model(input_values).logits
 
 # take argmax and decode
 predicted_ids = torch.argmax(logits, dim=-1)
 transcription = processor.batch_decode(predicted_ids)