whisper-small-korean-pronunciation-scorerオープンソースモデル - 無料で韓国語の発音を評価し、1-5点で採点する

ホーム

Whisper Small Korean Pronunciation Scorer Sampledata

tdns03によって開発

Whisper-smallを微調整した韓国語発音品質評価モデルで、韓国語発音を1-5点で評価可能

音声認識

Transformers

韓国語オープンソースライセンス:Apache-2.0 #韓国語発音評価 #音声特徴分析 #AI-Hubデータセット

ダウンロード数 39

リリース時間 : 7/23/2024

モデル概要

このモデルは非ネイティブ話者の韓国語発音品質を評価するために使用され、Whisperアーキテクチャを基に発音評価タスク向けに微調整されています

モデル特徴

精密発音評価

1-5点制度で発音正確度を詳細評価

Whisperアーキテクチャの利点

Whisperの強力な音声特徴抽出能力を活用

専門データ訓練

韓国AI-Hub専門発音評価データセットに基づく微調整

モデル能力

韓国語発音評価

音声品質評価

発音誤り検出

使用事例

言語教育

韓国語学習支援

韓国語学習者の発音評価と改善を支援

定量評価フィードバックを提供

オンライン言語テスト

オンライン韓国語能力テストの発音評価項目に使用

🚀 Whisper 微調整発音スコアリングモデル

このモデルは、韓国語の発音品質を評価します。openai/whisper-small モデルをベースに、韓国 AI-Hub（https://www.aihub.or.kr/）の外国人韓国語発音評価データセットを使用して微調整されています。

🚀 クイックスタート

このモデルを使用するには、以下の手順に従ってください。

必要なライブラリをインストールする
モデルとプロセッサをロードする
オーディオファイルとテキストのトランスクリプトを準備する
発音スコアを予測する

以下は、モデルの使用方法の詳細な例です。

import torch
import torchaudio
from transformers import WhisperProcessor, WhisperForConditionalGeneration
import torch.nn as nn

class WhisperPronunciationScorer(nn.Module):
    def __init__(self, pretrained_model):
        super().__init__()
        self.whisper = pretrained_model
        self.score_head = nn.Linear(self.whisper.config.d_model, 1)

    def forward(self, input_features, labels=None):
        outputs = self.whisper(input_features, labels=labels, output_hidden_states=True)
        last_hidden_state = outputs.decoder_hidden_states[-1]
        scores = self.score_head(last_hidden_state.mean(dim=1)).squeeze()
        return scores

def load_model(model_path, device):
    model_name = "openai/whisper-small"
    processor = WhisperProcessor.from_pretrained(model_name)
    pretrained_model = WhisperForConditionalGeneration.from_pretrained(model_name)
    model = WhisperPronunciationScorer(pretrained_model).to(device)
    model.load_state_dict(torch.load(model_path, map_location=device))
    model.eval()
    return model, processor

def predict_pronunciation_score(model, processor, audio_path, transcript, device):
    # Load and preprocess audio
    audio, sr = torchaudio.load(audio_path)
    if sr != 16000:
        audio = torchaudio.functional.resample(audio, sr, 16000)
    input_features = processor(audio.squeeze().numpy(), sampling_rate=16000, return_tensors="pt").input_features.to(device)
    
    # Prepare transcript
    labels = processor(text=transcript, return_tensors="pt").input_ids.to(device)
    
    # Predict score
    with torch.no_grad():
        score = model(input_features, labels)
    return score.item()

# Load model
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model_path = "path/to/your/model.pth"
model, processor = load_model(model_path, device)

# Run prediction
audio_path = "path/to/your/audio.wav"
transcript = "안녕하세요"
score = predict_pronunciation_score(model, processor, audio_path, transcript, device)
print(f"Predicted pronunciation score: {score:.2f}")