🚀 日語自動語音識別模型
本項目專注於日語自動語音識別,目標是實現準確的日語轉錄,尤其聚焦於動漫相關領域,避免生成無中生有的內容,並可作為現有模型的直接替代品。
🚀 快速開始
當前文檔未提供快速開始的具體內容,若有相關需求,可根據項目後續更新獲取。
✨ 主要特性
- 日語轉錄:旨在實現準確的日語語音轉錄。
- 聚焦動漫領域:重點關注動漫相關的語音數據。
- 避免幻覺:防止生成無中生有的轉錄內容。
- 可直接替代:經過訓練,可作為現有模型的直接替代品。
📚 詳細文檔
目標
- 實現日語轉錄。
- 聚焦於動漫相關領域。
- 避免生成無中生有的內容。
- 可作為現有模型的直接替代品(訓練時 50% 使用提示,25% 不使用時間戳)。
致謝
- 訓練集:OOPPEENN、Reazon、Common Voice 19、小蟲哥_、deepghs
- 驗證集:simon3000、grider-withourai、kotoba-tech
- 測試集:KitsuneX07、TEDxJP
測試集結果
模型 |
air |
himanatsu |
kanon |
proseka |
sakuuta |
tedxjp |
turbo_b1 |
25.8 |
60.6 |
22.5 |
13.1 |
21.1 |
10.8 |
turbo_b5 |
20.9 |
48.3 |
19.1 |
11.8 |
18.9 |
|
turbo_b1_nt |
25.8 |
61.6 |
23.1 |
13.6 |
20.4 |
|
turbo_b5_nt |
17.1 |
25.8 |
23.5 |
9.4 |
12.5 |
|
anime_b1 |
15.9 |
20.2 |
12.8 |
8.9 |
10.9 |
41.8 |
anime_b5 |
14.4 |
18.3 |
12.6 |
8.6 |
10.0 |
|
anime_b1_n5 |
15.0 |
18.4 |
12.7 |
8.9 |
10.1 |
|
anime_b5_n5 |
14.4 |
18.1 |
12.5 |
8.6 |
10.0 |
|
anime_b1_nt |
14.4 |
18.7 |
11.4 |
8.3 |
10.1 |
|
anime_b5_nt |
13.4 |
17.5 |
11.4 |
8.1 |
9.6 |
|
b1 |
15.6 |
20.1 |
11.8 |
8.8 |
10.5 |
11.5 |
b5 |
15.2 |
19.8 |
11.6 |
8.8 |
10.7 |
|
b1_nt |
15.6 |
20.1 |
11.9 |
8.7 |
10.5 |
|
b5_nt |
15.3 |
19.4 |
11.8 |
8.6 |
10.5 |
|
參數說明:
- b1:beam_size = 1
- b5:beam_size = 5
- n5:no_repeat_ngram_size = 5
- nt:<|notimestamps|>
結果分析:
- 與 anime - whisper 相比,動漫相關數據集的表現稍差,但優於 turbo(域外數據)。
- 使用 faster - whisper 對來自 TEDxJP - 10K 的 273 個帶有 YouTube 字幕的視頻進行長文本測試,性能略遜於 turbo。Kotoba/anime - whisper 未針對長文本進行訓練。
驗證集結果
驗證集僅用於超參數優化。
模型 |
bluearchive |
genshin5.1 |
nekopara |
genshin |
starrail |
reazon |
jsut |
cv8 |
cv19 |
jsl |
loopers |
tedx10 |
[large - v3_b1](https://huggingface.co/openai/whisper - large - v3) |
12.2 |
10.1 |
70.8 |
11.9 |
10.0 |
16.0 |
7.1 |
8.6 |
15.1 |
12.2 |
|
7.7 |
large - v3_b5 |
11.0 |
10.0 |
63.7 |
11.6 |
9.8 |
14.1 |
7.1 |
8.3 |
14.8 |
11.0 |
|
|
[large - v2_b1](https://huggingface.co/openai/whisper - large - v2) |
|
14.4 |
103.4 |
18.3 |
12.9 |
31.6 |
8.2 |
9.8 |
18.5 |
18.0 |
|
8.0 |
large - v2_b5 |
|
12.7 |
100.9 |
16.8 |
12.9 |
28.0 |
8.0 |
9.5 |
17.5 |
16.2 |
|
|
[turbo_b1](https://huggingface.co/openai/whisper - large - v3 - turbo) |
12.8 |
11.1 |
72.3 |
11.6 |
11.1 |
11.6 |
7.3 |
9.6 |
17.5 |
12.0 |
28.0 |
7.9 |
turbo_b5 |
10.4 |
10.0 |
64.3 |
12.0 |
10.2 |
10.4 |
7.2 |
9.1 |
16.6 |
10.8 |
20.2 |
8.8 |
[kotoba - v1_b1](https://huggingface.co/kotoba - tech/kotoba - whisper - v1.0) |
8.5 |
9.4 |
27.8 |
9.9 |
10.3 |
12.7 |
8.4 |
9.5 |
17.1 |
12.2 |
|
34.9 |
kotoba - v1_b5 |
8.4 |
9.3 |
27.8 |
9.8 |
10.3 |
12.3 |
8.3 |
9.3 |
16.7 |
12.1 |
|
|
[kotoba - v2_b1](https://huggingface.co/kotoba - tech/kotoba - whisper - v2.0) |
8.5 |
9.6 |
27.7 |
10.2 |
10.4 |
11.6 |
8.2 |
9.2 |
16.9 |
12.3 |
|
25.3 |
kotoba - v2_b5 |
8.6 |
9.5 |
27.7 |
10.1 |
10.5 |
11.4 |
8.2 |
9.0 |
16.6 |
12.2 |
|
|
[kotoba - bi_b1](https://huggingface.co/kotoba - tech/kotoba - whisper - bilingual - v1.0) |
8.9 |
10.1 |
28.1 |
10.5 |
10.8 |
17.5 |
9.1 |
9.8 |
17.5 |
12.7 |
|
27.8 |
kotoba - bi_b5 |
8.8 |
10.0 |
28.0 |
10.5 |
10.7 |
17.1 |
9.1 |
9.6 |
17.2 |
12.6 |
|
|
[anime_b1](https://huggingface.co/litagin/anime - whisper) |
7.5 |
11.5 |
24.7 |
11.0 |
11.2 |
30.1 |
8.0 |
10.0 |
19.1 |
9.0 |
18.9 |
32.0 |
anime_b5 |
7.2 |
10.4 |
22.0 |
10.3 |
10.4 |
26.6 |
7.8 |
9.8 |
18.8 |
8.5 |
15.3 |
51.8 |
b1 |
6.9 |
6.3 |
22.8 |
6.7 |
7.4 |
16.2 |
7.1 |
8.9 |
17.1 |
8.5 |
14.7 |
8.2 |
b5 |
7.5 |
6.2 |
22.8 |
6.6 |
7.3 |
15.7 |
7.0 |
8.7 |
17.0 |
8.5 |
14.5 |
9.1 |
數據集說明:
- bluearchive.wiki:beam 5 由於額外使用假名,性能更差。是否從米哈遊遊戲中學習到了相關特徵?
- genshin5.1:在 5.0 版本上訓練,使用 5.1 版本的新音頻,可能存在少量重疊。
- nekopara:用於幻覺測試,如果不是幻覺增加,動漫相關模型的表現會更好。OpenAI 模型在此數據集上無法使用。
- genshin/starrail:大部分數據在訓練集中。
- reazon:轉錄背景/次要音頻時,字符錯誤率(CER)顯著升高。
- jsut:表現出人意料地好?
- cv8:cv19 訓練集包含部分 cv8 測試集數據。
- cv19:無數據汙染,但在處理口音時存在困難。
- jsl:動漫數據集。
- loopers:動漫數據集,包含易產生幻覺的音頻。
- tedxjp:10 個視頻的子集。詳見測試集的相關注釋。b1 = 批量處理,b5 = 順序處理,beam_size = 1,temperature = 0,condition_on_previous_text = False
🔧 技術細節
模型採用 WIP turbo encoder 凍結 + 2 層解碼器架構,以批量大小 8 訓練了 2^19 步(在 3060 顯卡上約 160 小時),很可能訓練不足。
📄 許可證
當前文檔未提及許可證相關信息,若有需要,請關注項目後續更新。