HIYACCENT_Wav2Vec2オープンソース音声認識モデル - ナイジェリア英語アクセントを高精度に認識

ホーム

HIYACCENT Wav2Vec2

codeceejayによって開発

HIYACCENTはナイジェリア英語アクセントに最適化された音声認識システムで、Wav2Vec2アーキテクチャを改良し、認識性能を20％以上向上させました。

音声認識

Transformers

#ナイジェリア英語認識 #アクセント適応 #Wav2Vec2ファインチューニング

ダウンロード数 27

リリース時間 : 3/2/2022

モデル概要

このモデルは、FacebookのWav2vecアーキテクチャに新しいネットワーク層を追加してベースラインモデルとナイジェリア英語音声の差異を捉え、モデルの最上位層にCTC損失関数を追加して音声-テキストアラインメントの柔軟性を強化しました。母語の発音影響が強いナイジェリア英語話者向けに特別に開発されています。

モデル特徴

ナイジェリアアクセント最適化

ナイジェリア英語話者の発音特性に特化して最適化され、認識性能が20％以上向上しました。

改良型Wav2Vec2アーキテクチャ

標準Wav2vecアーキテクチャに新しいネットワーク層を追加し、ナイジェリア英語と標準英語の発音差異をより効果的に捉えます。

CTC損失関数

モデル最上位層にCTC損失関数を追加し、音声-テキストアラインメントの柔軟性を強化しました。

モデル能力

ナイジェリアアクセント英語音声認識

16kHzサンプリングレート音声処理

使用事例

音声テキスト化

ナイジェリア英語音声転写

ナイジェリア英語話者の音声を正確にテキストに転写

標準モデル比で20％以上の性能向上

音声アシスタント

ナイジェリアアクセント音声インタラクション

ナイジェリアユーザー向けに精度の高い音声アシスタント体験を提供

🚀 HIYACCENT: 対照学習に基づく改良型ナイジェリアアクセントの音声認識システム

この研究の全体的な目的は、母語の影響を強く受けて英語の発音が大きく変化するナイジェリアの英語話者向けに、より堅牢なモデルを開発することです。そのために、Novel Facebook Wav2vecに新しいレイヤーを導入し、ベースラインモデルとナイジェリア英語の音声の差異を捉えるWav2Vec - HIYACCENTモデルが提案されました。また、モデルの上部にCTC損失を挿入し、音声とテキストのアラインメントに柔軟性を追加しました。これにより、ナイジェリア英語（NAE.T）の性能が20％以上向上しました。

UISpeechコーパスを使用して、英語に関してfacebook/wav2vec2 - largeをファインチューニングしました。このモデルを使用する際には、音声入力が16kHzでサンプリングされていることを確認してください。

トレーニングに使用されたスクリプトはこちらで見つけることができます: https://github.com/amceejay/HIYACCENT - NE - Speech - Recognition - System

🚀 クイックスタート

このモデルは、言語モデルを使用せずに直接利用することができます。

💻 使用例

基本的な使用法

ASRecognitionライブラリを使用する場合

from asrecognition import ASREngine

asr = ASREngine("fr", model_path="codeceejay/HIYACCENT_Wav2Vec2")

audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]
transcriptions = asr.transcribe(audio_paths)

独自の推論スクリプトを書く場合

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "en"
MODEL_ID = "codeceejay/HIYACCENT_Wav2Vec2"
SAMPLES = 10

#You can use common_voice/timit or Nigerian Accented Speeches can also be found here: https://openslr.org/70/
test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentences = processor.batch_decode(predicted_ids)

for i, predicted_sentence in enumerate(predicted_sentences):
    print("-" * 100)
    print("Reference:", test_dataset[i]["sentence"])
    print("Prediction:", predicted_sentence)

## 🔧 技術詳細
この研究の全体的な目的は、母語の影響を強く受けて英語の発音が大きく変化するナイジェリアの英語話者向けに、より堅牢なモデルを開発することです。そのために、Novel Facebook Wav2vecに新しいレイヤーを導入し、ベースラインモデルとナイジェリア英語の音声の差異を捉えるWav2Vec - HIYACCENTモデルが提案されました。また、モデルの上部にCTC損失を挿入し、音声とテキストのアラインメントに柔軟性を追加しました。これにより、ナイジェリア英語（NAE.T）の性能が20％以上向上しました。

UISpeechコーパスを使用して、英語に関してfacebook/wav2vec2 - largeをファインチューニングしました。このモデルを使用する際には、音声入力が16kHzでサンプリングされていることを確認してください。


```markdown
> ⚠️ **重要提示**
> 
> このモデルを使用する際には、音声入力が16kHzでサンプリングされていることを確認してください。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご