Monsoon-Whisper-Medium-GigaSpeech2開源泰語語音識別模型

首頁

Monsoon Whisper Medium Gigaspeech2

由scb10x開發

Monsoon-Whisper-Medium-GigaSpeech2 是一款泰語自動語音識別（ASR）模型，基於Whisper-Medium並在GigaSpeech2數據集上進行了微調，適用於真實場景下的語音識別。

語音識別

Transformers

開源協議:Apache-2.0 #泰語語音識別 #低詞錯誤率 #嘈雜環境適配

下載量 546

發布時間 : 7/12/2024

模型概述

該模型專注於泰語自動語音識別任務，在YouTube音頻和嘈雜環境下的語音識別中表現優異。

模型特點

泰語語音識別

專注於泰語語音識別任務，在真實場景中表現優異。

基於Whisper-Medium微調

基於Whisper-Medium架構，並在GigaSpeech2數據集上進行了微調。

高性能

在WER和CER指標上表現優於同類模型。

模型能力

泰語語音識別

嘈雜環境下的語音識別

使用案例

語音識別

YouTube音頻轉錄

適用於轉錄YouTube視頻中的泰語語音內容。

嘈雜環境下的語音識別

在嘈雜環境下仍能保持較高的識別準確率。

🚀 Monsoon-Whisper-Medium-Gigaspeech2

Monsoon-Whisper-Medium-Gigaspeech2 是一個🇹🇭 泰語 自動語音識別（ASR）模型。它基於 Whisper-Medium 構建，並在 GigaSpeech2 上進行了微調。

該模型最初是作為自動語音識別任務中湧現能力研究的規模實驗而開發的。它在實際應用中表現出色，包括處理來自 YouTube 的音頻以及在嘈雜環境中的音頻。

更多詳細信息可在我們的 Typhoon-Audio 發佈博客中找到。

🚀 快速開始

本部分將為你介紹如何快速使用 Monsoon-Whisper-Medium-Gigaspeech2 模型進行泰語自動語音識別。

✨ 主要特性

基於 Whisper-Medium 架構，在 GigaSpeech2 數據集上微調，適用於泰語自動語音識別。
最初作為研究自動語音識別任務中湧現能力的規模實驗開發。
在實際應用中表現出色，能處理來自 YouTube 的音頻和嘈雜環境中的音頻。

📦 安裝指南

要求：transformers 4.38.0 或更高版本。

💻 使用示例

基礎用法

from transformers import WhisperProcessor, WhisperForConditionalGeneration
import torchaudio
import torch

model_path = "scb10x/monsoon-whisper-medium-gigaspeech2"
device = "cuda"
filepath = 'audio.wav'

processor = WhisperProcessor.from_pretrained(model_path)
model = WhisperForConditionalGeneration.from_pretrained(
    model_path, torch_dtype=torch.bfloat16
)
model.to(device)
model.eval()

model.config.forced_decoder_ids = processor.get_decoder_prompt_ids(
    language="th", task="transcribe"
)
array, sr = torchaudio.load(filepath)
input_features = (
    processor(array, sampling_rate=sr, return_tensors="pt")
    .to(device)
    .to(torch.bfloat16)
    .input_features
)
predicted_ids = model.generate(input_features)
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
print(transcription)

📚 詳細文檔

模型描述

屬性	詳情
模型類型	Whisper Medium
要求	transformers 4.38.0 或更高版本
主要語言	泰語 🇹🇭
許可證	Apache 2.0

評估結果

模型	WER (GS2)	WER (CV17)	CER (GS2)	CER (CV17)
whisper-large-v3	37.02	22.63	24.03	8.49
whisper-medium	55.64	43.01	37.55	16.41
biodatlab-whisper-th-medium-combined	31.00	14.25	21.20	5.69
biodatlab-whisper-th-large-v3-combined	29.02	15.72	19.96	6.32
monsoon-whisper-medium-gigaspeech2	22.74	20.79	14.15	6.92

預期用途與限制

本模型為實驗性模型，可能並非始終準確。開發者應在具體應用場景中仔細評估潛在風險。

關注我們與支持

https://twitter.com/opentyphoon
https://discord.gg/us5gAYmrxw

颱風團隊

Kunat Pipatanakul、Potsawee Manakul、Sittipong Sripaisarnmongkol、Natapong Nitarach、Warit Sirichotedumrong、Adisai Na-Thalang、Phatrasek Jirabovonvisut、Parinthapat Pengpun、Krisanapong Jirayoot、Pathomporn Chokchainant、Kasima Tharnpipitchai