🚀 韓文語音識別模型 wav2vec2-base-korean
本模型是基於 Facebook 的 wav2vec2-base 模型微調而來,專門針對韓語語音識別進行了優化。它使用了 Zeroth-Korean 數據集進行訓練,能夠將韓語語音準確地轉錄為文本,尤其適用於需要高精度韓語識別的各類應用場景。
🚀 快速開始
要開始使用這個模型,可以使用以下代碼:
!pip install transformers[torch] accelerate -U
!pip install datasets torchaudio -U
!pip install jiwer jamo
!pip install tensorboard
import torch
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import torchaudio
from jamo import h2j, j2hcj
model_name = "Kkonjeong/wav2vec2-base-korean"
model = Wav2Vec2ForCTC.from_pretrained(model_name)
processor = Wav2Vec2Processor.from_pretrained(model_name)
model.to("cuda")
model.eval()
def load_and_preprocess_audio(file_path):
speech_array, sampling_rate = torchaudio.load(file_path)
if sampling_rate != 16000:
resampler = torchaudio.transforms.Resample(sampling_rate, 16000)
speech_array = resampler(speech_array)
input_values = processor(speech_array.squeeze().numpy(), sampling_rate=16000).input_values[0]
return input_values
def predict(file_path):
input_values = load_and_preprocess_audio(file_path)
input_values = torch.tensor(input_values).unsqueeze(0).to("cuda")
with torch.no_grad():
logits = model(input_values).logits
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)[0]
return transcription
audio_file_path = "your_audio_file.wav"
transcription = predict(audio_file_path)
print("Transcription:", transcription)
✨ 主要特性
- 該模型是 Facebook 的 wav2vec2-base 模型的微調版本,專為韓語語音識別而優化。
- 可直接用於韓語語音轉文本,無需額外微調,適用於語音助手、轉錄服務和語言學習工具等應用。
- 能夠集成到需要語音識別功能的大型系統中,如自動客服、語音控制應用等。
📦 安裝指南
!pip install transformers[torch] accelerate -U
!pip install datasets torchaudio -U
!pip install jiwer jamo
!pip install tensorboard
📚 詳細文檔
模型詳情
模型描述
此模型是 Facebook 的 wav2vec2-base 模型的微調版本,使用 Zeroth-Korean 數據集進行韓語語音識別。該模型經過訓練,可將韓語語音轉錄為文本,特別利用了韓語獨特的字母字符。
- 開發者: [jeonghyeon Park, Jaeyoung Kim]
- 模型類型: 語音轉文本
- 語言: 韓語
- 許可證: Apache 2.0
- 微調基礎模型: facebook/wav2vec2-base
模型來源
- 倉庫: [github.com/KkonJJ/wav2vec2-base-korean]
使用方式
直接使用
該模型可直接用於將韓語語音轉錄為文本,無需額外微調。特別適用於需要準確韓語識別的應用,如語音助手、轉錄服務和語言學習工具。
下游應用
該模型可集成到需要語音識別功能的大型系統中,如自動客服、語音控制應用等。
不適用場景
該模型不適用於識別韓語以外的語言,或需要理解韓語口語轉錄之外的上下文的任務。
偏差、風險和侷限性
建議
用戶應瞭解模型的侷限性,包括訓練數據中可能存在的偏差,這可能會影響某些方言或說話者的識別準確性。建議在預期應用領域的代表性樣本上評估模型的性能。
訓練詳情
訓練數據
該模型使用 Zeroth-Korean 數據集進行訓練,這是一個韓語語音數據集,包括音頻記錄及其對應的轉錄文本。
訓練過程
- 預處理:從轉錄文本中去除特殊字符,並將文本轉換為字母字符,以更好地與韓語的語音結構對齊。
- 訓練超參數:
- 訓練機制: 混合精度 (fp16)
- 批量大小: 32
- 學習率: 1e-4
- 訓練輪數: 10
評估
測試數據、因素和指標
- 測試數據:使用 Zeroth-Korean 數據集的測試集對模型進行評估。
- 指標:主要評估指標是字符錯誤率 (CER),它衡量轉錄文本中與參考文本相比錯誤字符的百分比。
結果
總結
該模型在 Zeroth-Korean 數據集上的 CER 為 7.3%,表明其性能良好。
環境影響
可以使用 機器學習影響計算器 估算碳排放。
- 硬件類型: NVIDIA A100
- 使用時長: 約 8 小時
技術規格
模型架構和目標
模型架構基於 wav2vec2.0,旨在通過對語音的語音結構進行建模,將音頻輸入轉換為文本輸出。
計算基礎設施
- 硬件:NVIDIA A100
- 軟件:
- 框架:PyTorch
- 庫:Transformers、Datasets、Torchaudio、Jiwer、Jamo
引用信息
BibTeX
@misc{your_bibtex_key,
author = {Your Name},
title = {wav2vec2-base-korean},
year = {2024},
publisher = {Hugging Face},
note = {https://huggingface.co/Kkonjeong/wav2vec2-base-korean}
}
APA
Your Name. (2024). wav2vec2-base-korean. Hugging Face. https://huggingface.co/Kkonjeong/wav2vec2-base-korean
模型卡片作者
[jeonghyeon Park, Jaeyoung Kim]
模型卡片聯繫方式
如需更多信息,請聯繫 [shshjhjh4455@gmail.com, kbs00717@gmail.com]
🔧 技術細節
- 模型架構基於 wav2vec2.0,通過對語音的語音結構進行建模,將音頻輸入轉換為文本輸出。
- 訓練時使用混合精度 (fp16) 以提高訓練效率。
- 對轉錄文本進行預處理,去除特殊字符並轉換為字母字符,以更好地與韓語的語音結構對齊。
📄 許可證
該模型使用 Apache 2.0 許可證。
📋 信息表格
屬性 |
詳情 |
模型類型 |
語音轉文本 |
訓練數據 |
Zeroth-Korean 數據集,包含韓語語音數據、音頻記錄及其對應的轉錄文本 |
許可證 |
Apache 2.0 |
微調基礎模型 |
facebook/wav2vec2-base |