🚀 日语自动语音识别模型
本项目专注于日语自动语音识别,目标是实现准确的日语转录,尤其聚焦于动漫相关领域,避免生成无中生有的内容,并可作为现有模型的直接替代品。
🚀 快速开始
当前文档未提供快速开始的具体内容,若有相关需求,可根据项目后续更新获取。
✨ 主要特性
- 日语转录:旨在实现准确的日语语音转录。
- 聚焦动漫领域:重点关注动漫相关的语音数据。
- 避免幻觉:防止生成无中生有的转录内容。
- 可直接替代:经过训练,可作为现有模型的直接替代品。
📚 详细文档
目标
- 实现日语转录。
- 聚焦于动漫相关领域。
- 避免生成无中生有的内容。
- 可作为现有模型的直接替代品(训练时 50% 使用提示,25% 不使用时间戳)。
致谢
- 训练集:OOPPEENN、Reazon、Common Voice 19、小虫哥_、deepghs
- 验证集:simon3000、grider-withourai、kotoba-tech
- 测试集:KitsuneX07、TEDxJP
测试集结果
模型 |
air |
himanatsu |
kanon |
proseka |
sakuuta |
tedxjp |
turbo_b1 |
25.8 |
60.6 |
22.5 |
13.1 |
21.1 |
10.8 |
turbo_b5 |
20.9 |
48.3 |
19.1 |
11.8 |
18.9 |
|
turbo_b1_nt |
25.8 |
61.6 |
23.1 |
13.6 |
20.4 |
|
turbo_b5_nt |
17.1 |
25.8 |
23.5 |
9.4 |
12.5 |
|
anime_b1 |
15.9 |
20.2 |
12.8 |
8.9 |
10.9 |
41.8 |
anime_b5 |
14.4 |
18.3 |
12.6 |
8.6 |
10.0 |
|
anime_b1_n5 |
15.0 |
18.4 |
12.7 |
8.9 |
10.1 |
|
anime_b5_n5 |
14.4 |
18.1 |
12.5 |
8.6 |
10.0 |
|
anime_b1_nt |
14.4 |
18.7 |
11.4 |
8.3 |
10.1 |
|
anime_b5_nt |
13.4 |
17.5 |
11.4 |
8.1 |
9.6 |
|
b1 |
15.6 |
20.1 |
11.8 |
8.8 |
10.5 |
11.5 |
b5 |
15.2 |
19.8 |
11.6 |
8.8 |
10.7 |
|
b1_nt |
15.6 |
20.1 |
11.9 |
8.7 |
10.5 |
|
b5_nt |
15.3 |
19.4 |
11.8 |
8.6 |
10.5 |
|
参数说明:
- b1:beam_size = 1
- b5:beam_size = 5
- n5:no_repeat_ngram_size = 5
- nt:<|notimestamps|>
结果分析:
- 与 anime - whisper 相比,动漫相关数据集的表现稍差,但优于 turbo(域外数据)。
- 使用 faster - whisper 对来自 TEDxJP - 10K 的 273 个带有 YouTube 字幕的视频进行长文本测试,性能略逊于 turbo。Kotoba/anime - whisper 未针对长文本进行训练。
验证集结果
验证集仅用于超参数优化。
模型 |
bluearchive |
genshin5.1 |
nekopara |
genshin |
starrail |
reazon |
jsut |
cv8 |
cv19 |
jsl |
loopers |
tedx10 |
[large - v3_b1](https://huggingface.co/openai/whisper - large - v3) |
12.2 |
10.1 |
70.8 |
11.9 |
10.0 |
16.0 |
7.1 |
8.6 |
15.1 |
12.2 |
|
7.7 |
large - v3_b5 |
11.0 |
10.0 |
63.7 |
11.6 |
9.8 |
14.1 |
7.1 |
8.3 |
14.8 |
11.0 |
|
|
[large - v2_b1](https://huggingface.co/openai/whisper - large - v2) |
|
14.4 |
103.4 |
18.3 |
12.9 |
31.6 |
8.2 |
9.8 |
18.5 |
18.0 |
|
8.0 |
large - v2_b5 |
|
12.7 |
100.9 |
16.8 |
12.9 |
28.0 |
8.0 |
9.5 |
17.5 |
16.2 |
|
|
[turbo_b1](https://huggingface.co/openai/whisper - large - v3 - turbo) |
12.8 |
11.1 |
72.3 |
11.6 |
11.1 |
11.6 |
7.3 |
9.6 |
17.5 |
12.0 |
28.0 |
7.9 |
turbo_b5 |
10.4 |
10.0 |
64.3 |
12.0 |
10.2 |
10.4 |
7.2 |
9.1 |
16.6 |
10.8 |
20.2 |
8.8 |
[kotoba - v1_b1](https://huggingface.co/kotoba - tech/kotoba - whisper - v1.0) |
8.5 |
9.4 |
27.8 |
9.9 |
10.3 |
12.7 |
8.4 |
9.5 |
17.1 |
12.2 |
|
34.9 |
kotoba - v1_b5 |
8.4 |
9.3 |
27.8 |
9.8 |
10.3 |
12.3 |
8.3 |
9.3 |
16.7 |
12.1 |
|
|
[kotoba - v2_b1](https://huggingface.co/kotoba - tech/kotoba - whisper - v2.0) |
8.5 |
9.6 |
27.7 |
10.2 |
10.4 |
11.6 |
8.2 |
9.2 |
16.9 |
12.3 |
|
25.3 |
kotoba - v2_b5 |
8.6 |
9.5 |
27.7 |
10.1 |
10.5 |
11.4 |
8.2 |
9.0 |
16.6 |
12.2 |
|
|
[kotoba - bi_b1](https://huggingface.co/kotoba - tech/kotoba - whisper - bilingual - v1.0) |
8.9 |
10.1 |
28.1 |
10.5 |
10.8 |
17.5 |
9.1 |
9.8 |
17.5 |
12.7 |
|
27.8 |
kotoba - bi_b5 |
8.8 |
10.0 |
28.0 |
10.5 |
10.7 |
17.1 |
9.1 |
9.6 |
17.2 |
12.6 |
|
|
[anime_b1](https://huggingface.co/litagin/anime - whisper) |
7.5 |
11.5 |
24.7 |
11.0 |
11.2 |
30.1 |
8.0 |
10.0 |
19.1 |
9.0 |
18.9 |
32.0 |
anime_b5 |
7.2 |
10.4 |
22.0 |
10.3 |
10.4 |
26.6 |
7.8 |
9.8 |
18.8 |
8.5 |
15.3 |
51.8 |
b1 |
6.9 |
6.3 |
22.8 |
6.7 |
7.4 |
16.2 |
7.1 |
8.9 |
17.1 |
8.5 |
14.7 |
8.2 |
b5 |
7.5 |
6.2 |
22.8 |
6.6 |
7.3 |
15.7 |
7.0 |
8.7 |
17.0 |
8.5 |
14.5 |
9.1 |
数据集说明:
- bluearchive.wiki:beam 5 由于额外使用假名,性能更差。是否从米哈游游戏中学习到了相关特征?
- genshin5.1:在 5.0 版本上训练,使用 5.1 版本的新音频,可能存在少量重叠。
- nekopara:用于幻觉测试,如果不是幻觉增加,动漫相关模型的表现会更好。OpenAI 模型在此数据集上无法使用。
- genshin/starrail:大部分数据在训练集中。
- reazon:转录背景/次要音频时,字符错误率(CER)显著升高。
- jsut:表现出人意料地好?
- cv8:cv19 训练集包含部分 cv8 测试集数据。
- cv19:无数据污染,但在处理口音时存在困难。
- jsl:动漫数据集。
- loopers:动漫数据集,包含易产生幻觉的音频。
- tedxjp:10 个视频的子集。详见测试集的相关注释。b1 = 批量处理,b5 = 顺序处理,beam_size = 1,temperature = 0,condition_on_previous_text = False
🔧 技术细节
模型采用 WIP turbo encoder 冻结 + 2 层解码器架构,以批量大小 8 训练了 2^19 步(在 3060 显卡上约 160 小时),很可能训练不足。
📄 许可证
当前文档未提及许可证相关信息,若有需要,请关注项目后续更新。