whisper-large-v3-speech-flowオープンソースモデル - 音声の流暢度と不流暢の種類を無料で検出

ホーム

Whisper Large V3 Speech Flow

tiantiafによって開発

Whisper Large v3を基にした音声流暢性分類モデルで、音声の流暢性と非流暢タイプを検出可能

音声分類

Safetensors

英語オープンソースライセンス:Apache-2.0 #音声流暢性検出 #非流暢タイプ識別 #マルチウィンドウ分析

ダウンロード数 157

リリース時間 : 5/22/2025

モデル概要

このモデルは音声流暢性分類手法を実装しており、まず音声が流暢かどうかを検出し、非流暢な場合さらに5種類の非流暢タイプ（ブロック、延長、音の繰り返し、単語の繰り返し、挿入語）に分類します。

モデル特徴

流暢性検出

流暢な音声と非流暢な音声断片を正確に区別可能

非流暢タイプ分類

非流暢音声を5種類の具体的タイプにさらに分類可能

ウィンドウ処理

3秒ウィンドウサイズと1秒ステップで長音声を処理

モデル能力

音声流暢性検出

非流暢タイプ分類

長音声セグメント処理

使用事例

音声治療

吃音評価

言語療法士が患者の吃音重症度とタイプを評価するのを支援

非流暢音声の頻度とタイプ分布を定量分析可能

音声品質分析

音声流暢性スコアリング

音声品質評価システムに流暢性指標を提供

音声流暢性レポートを自動生成

🚀 Whisper Large v3 for Speech Flow (Fluency) Classification

このモデルは、音声の流暢性を分類する機能を備えており、Vox-Profile: A Speech Foundation Model Benchmark for Characterizing Diverse Speaker and Speech Traits (https://arxiv.org/pdf/2505.14648) で説明されている実装を含んでいます。このモデルは音声の流暢性と不流暢性を分類し、不流暢な音声が検出された場合には不流暢のタイプを予測します。

🚀 クイックスタート

このモデルを使用するには、以下の手順に従ってください。

📦 インストール

リポジトリのダウンロード

git clone git@github.com:tiantiaf0627/vox-profile-release.git

パッケージのインストール

conda create -n vox_profile python=3.8
cd vox-profile-release
pip install -e .

💻 使用例

基本的な使用法

# Load libraries
import torch
import torch.nn.functional as F
from src.model.fluency.whisper_fluency import WhisperWrapper

# Find device
device = torch.device("cuda") if torch.cuda.is_available() else "cpu"

# Load model from Huggingface
model = WhisperWrapper.from_pretrained("tiantiaf/whisper-large-v3-speech-flow").to(device)
model.eval()

高度な使用法

音声データの準備

audio_data = torch.zeros([1, 16000*10]).float().to(device)
audio_segment = (audio_data.shape[1] - 3*16000) // 16000 + 1
if audio_segment < 1: audio_segment = 1
input_audio = list()
input_audio_length = list()
for idx in range(audio_segment): 
    input_audio.append(audio_data[0, 16000*idx:16000*idx+3*16000])
    input_audio_length.append(torch.tensor(len(audio_data[0, 16000*idx:16000*idx+3*16000])))
input_audio = torch.stack(input_audio, dim=0)
input_audio_length = torch.stack(input_audio_length, dim=0)

予測

fluency_outputs, disfluency_type_outputs = model(input_audio, length=input_audio_length)
fluency_prob   = F.softmax(fluency_outputs, dim=1).detach().cpu().numpy().astype(float).tolist()

disfluency_type_prob = nn.Sigmoid()(disfluency_type_outputs)
# we can set a higher threshold in practice
disfluency_type_predictions = (disfluency_type_prob > 0.7).int().detach().cpu().numpy().tolist()
disfluency_type_prob = disfluency_type_prob.cpu().numpy().astype(float).tolist()

発話の予測結果の収集

utterance_fluency_list = list()
utterance_disfluency_list = list()
for audio_idx in range(audio_segment):
  disfluency_type = list()
  if fluency_prob[audio_idx][0] > 0.5: 
      utterance_fluency_list.append("fluent")
  else: 
      # If the prediction is disfluent, then which disfluency type
      utterance_fluency_list.append("disfluent")
      predictions = disfluency_type_predictions[audio_idx]
      for label_idx in range(len(predictions)):
          if predictions[label_idx] == 1:
            disfluency_type.append(disfluency_type_labels[label_idx])
  utterance_disfluency_list.append(disfluency_type)

# Now print how fluent is the utterance
print(utterance_fluency_list)
print(utterance_disfluency_list)

📚 ドキュメント

モデルの説明

このモデルは、音声の流暢性を分類するために、3秒のウィンドウサイズと1秒のステップサイズで音声を予測します。予測結果は、以下のカテゴリのいずれかに分類されます。

["fluent", "disfluent"]

不流暢な音声が検出された場合、以下の不流暢タイプを予測します。

[
  "Block", 
  "Prolongation", 
  "Sound Repetition", 
  "Word Repetition", 
  "Interjection"
]

問い合わせ先

何か質問がある場合は、Tiantian Feng (tiantiaf@usc.edu) までご連絡ください。

引用

このモデルを使用する場合や、あなたの研究に役立つと感じた場合は、以下の論文を引用してください。

@article{feng2025vox,
  title={Vox-Profile: A Speech Foundation Model Benchmark for Characterizing Diverse Speaker and Speech Traits},
  author={Feng, Tiantian and Lee, Jihwan and Xu, Anfeng and Lee, Yoonjeong and Lertpetchpun, Thanathai and Shi, Xuan and Wang, Helin and Thebaud, Thomas and Moro-Velazquez, Laureano and Byrd, Dani and others},
  journal={arXiv preprint arXiv:2505.14648},
  year={2025}
}