wav2vec2-base-korean開源模型 - 免費精準實現韓語語音轉文本

首頁

Wav2vec2 Base Korean

由Kkonjeong開發

基於Facebook的wav2vec2-base模型微調而來，專門針對韓語語音識別進行了優化，能夠將韓語語音準確地轉錄為文本。

語音識別

Transformers

韓語#韓語語音識別 #高精度轉錄 #wav2vec2微調

下載量 448

發布時間 : 5/30/2024

模型概述

該模型是專為韓語語音識別優化的wav2vec2-base微調版本，使用Zeroth-Korean數據集訓練，適用於高精度韓語識別的各類應用場景。

模型特點

韓語優化

專門針對韓語語音識別進行了優化，能夠準確轉錄韓語語音。

高精度

在Zeroth-Korean數據集上的字符錯誤率(CER)為7.3%，表現良好。

即用性

可直接用於韓語語音轉文本，無需額外微調。

模型能力

韓語語音識別

語音轉文本

使用案例

語音助手

韓語語音助手

用於構建韓語語音助手，實現語音指令識別。

轉錄服務

韓語語音轉錄

將韓語語音內容轉錄為文本，適用於會議記錄、採訪等場景。

語言學習工具

韓語學習輔助

幫助韓語學習者練習發音和聽力，提供即時轉錄反饋。

🚀 韓文語音識別模型 wav2vec2-base-korean

本模型是基於 Facebook 的 wav2vec2-base 模型微調而來，專門針對韓語語音識別進行了優化。它使用了 Zeroth-Korean 數據集進行訓練，能夠將韓語語音準確地轉錄為文本，尤其適用於需要高精度韓語識別的各類應用場景。

🚀 快速開始

要開始使用這個模型，可以使用以下代碼：

!pip install transformers[torch] accelerate -U
!pip install datasets torchaudio -U
!pip install jiwer jamo
!pip install tensorboard

import torch
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import torchaudio
from jamo import h2j, j2hcj

model_name = "Kkonjeong/wav2vec2-base-korean"
model = Wav2Vec2ForCTC.from_pretrained(model_name)
processor = Wav2Vec2Processor.from_pretrained(model_name)

model.to("cuda")
model.eval()

def load_and_preprocess_audio(file_path):
    speech_array, sampling_rate = torchaudio.load(file_path)
    if sampling_rate != 16000:
        resampler = torchaudio.transforms.Resample(sampling_rate, 16000)
        speech_array = resampler(speech_array)
    input_values = processor(speech_array.squeeze().numpy(), sampling_rate=16000).input_values[0]
    return input_values

def predict(file_path):
    input_values = load_and_preprocess_audio(file_path)
    input_values = torch.tensor(input_values).unsqueeze(0).to("cuda")
    with torch.no_grad():
        logits = model(input_values).logits
    predicted_ids = torch.argmax(logits, dim=-1)
    transcription = processor.batch_decode(predicted_ids)[0]
    return transcription

audio_file_path = "your_audio_file.wav"
transcription = predict(audio_file_path)
print("Transcription:", transcription)

✨ 主要特性

該模型是 Facebook 的 wav2vec2-base 模型的微調版本，專為韓語語音識別而優化。
可直接用於韓語語音轉文本，無需額外微調，適用於語音助手、轉錄服務和語言學習工具等應用。
能夠集成到需要語音識別功能的大型系統中，如自動客服、語音控制應用等。

📦 安裝指南

!pip install transformers[torch] accelerate -U
!pip install datasets torchaudio -U
!pip install jiwer jamo
!pip install tensorboard

📚 詳細文檔

模型詳情

模型描述

此模型是 Facebook 的 wav2vec2-base 模型的微調版本，使用 Zeroth-Korean 數據集進行韓語語音識別。該模型經過訓練，可將韓語語音轉錄為文本，特別利用了韓語獨特的字母字符。

開發者： [jeonghyeon Park, Jaeyoung Kim]
模型類型： 語音轉文本
語言： 韓語
許可證： Apache 2.0
微調基礎模型： facebook/wav2vec2-base

模型來源

倉庫： [github.com/KkonJJ/wav2vec2-base-korean]

使用方式

直接使用

該模型可直接用於將韓語語音轉錄為文本，無需額外微調。特別適用於需要準確韓語識別的應用，如語音助手、轉錄服務和語言學習工具。

下游應用

該模型可集成到需要語音識別功能的大型系統中，如自動客服、語音控制應用等。

不適用場景

該模型不適用於識別韓語以外的語言，或需要理解韓語口語轉錄之外的上下文的任務。

偏差、風險和侷限性

建議

用戶應瞭解模型的侷限性，包括訓練數據中可能存在的偏差，這可能會影響某些方言或說話者的識別準確性。建議在預期應用領域的代表性樣本上評估模型的性能。

訓練詳情

訓練數據

該模型使用 Zeroth-Korean 數據集進行訓練，這是一個韓語語音數據集，包括音頻記錄及其對應的轉錄文本。

訓練過程

預處理：從轉錄文本中去除特殊字符，並將文本轉換為字母字符，以更好地與韓語的語音結構對齊。
訓練超參數：
- 訓練機制： 混合精度 (fp16)
- 批量大小： 32
- 學習率： 1e-4
- 訓練輪數： 10

評估

測試數據、因素和指標

測試數據：使用 Zeroth-Korean 數據集的測試集對模型進行評估。
指標：主要評估指標是字符錯誤率 (CER)，它衡量轉錄文本中與參考文本相比錯誤字符的百分比。

結果

最終 CER： 0.073

總結

該模型在 Zeroth-Korean 數據集上的 CER 為 7.3%，表明其性能良好。

環境影響

可以使用機器學習影響計算器估算碳排放。

硬件類型： NVIDIA A100
使用時長： 約 8 小時

技術規格

模型架構和目標

模型架構基於 wav2vec2.0，旨在通過對語音的語音結構進行建模，將音頻輸入轉換為文本輸出。

計算基礎設施

硬件：NVIDIA A100
軟件：
- 框架：PyTorch
- 庫：Transformers、Datasets、Torchaudio、Jiwer、Jamo

引用信息

BibTeX

@misc{your_bibtex_key,
  author = {Your Name},
  title = {wav2vec2-base-korean},
  year = {2024},
  publisher = {Hugging Face},
  note = {https://huggingface.co/Kkonjeong/wav2vec2-base-korean}
}

APA

Your Name. (2024). wav2vec2-base-korean. Hugging Face. https://huggingface.co/Kkonjeong/wav2vec2-base-korean

模型卡片作者

[jeonghyeon Park, Jaeyoung Kim]

模型卡片聯繫方式

如需更多信息，請聯繫 [shshjhjh4455@gmail.com, kbs00717@gmail.com]

🔧 技術細節

模型架構基於 wav2vec2.0，通過對語音的語音結構進行建模，將音頻輸入轉換為文本輸出。
訓練時使用混合精度 (fp16) 以提高訓練效率。
對轉錄文本進行預處理，去除特殊字符並轉換為字母字符，以更好地與韓語的語音結構對齊。

📄 許可證

該模型使用 Apache 2.0 許可證。

📋 信息表格

屬性	詳情
模型類型	語音轉文本
訓練數據	Zeroth-Korean 數據集，包含韓語語音數據、音頻記錄及其對應的轉錄文本
許可證	Apache 2.0
微調基礎模型	facebook/wav2vec2-base