anime-whisper開源日語語音識別模型 - 精準識別日式動畫表演臺詞

首頁

Anime Whisper

由litagin開發

專精於日式動畫風格表演臺詞領域的日語語音識別模型

語音識別

Transformers

日語開源協議:MIT #動漫語音識別 #非語言發聲捕捉 #劇本級轉寫

下載量 4,873

發布時間 : 11/10/2024

模型概述

基於kotoba-whisper-v2.0微調，針對動畫風格語音優化的日語ASR模型，特別擅長處理非語言發聲和情感表達

模型特點

減少幻覺現象

相比同類模型顯著減少了錯誤生成內容的情況

非語言發聲識別

精準捕捉言語停頓、笑聲、呼喊、喘息等非語言發聲

情感化標點生成

標點符號隨語音節奏情感自然生成，呈現劇本級文本流暢度

動畫語音優化

對動畫風格表演臺詞識別準確率尤為突出

NSFW內容處理

能專業處理其他模型難以勝任的成人向音頻轉寫

模型能力

日語語音識別

動畫風格語音轉寫

非語言發聲識別

情感化文本生成

使用案例

動漫製作

動畫配音轉寫

將動畫配音轉換為劇本格式文本

準確率比通用模型提高約20%

遊戲開發

視覺小說臺詞轉錄

自動轉錄Galgame遊戲中的對話內容

CER(字符錯誤率)平均13.0%

🚀 Anime Whisper 🤗🎤📝

Anime Whisper 是一款專門針對日語動漫風格演技臺詞領域的日語語音識別模型。該模型以 kotoba-whisper-v2.0 為基礎模型，並使用約 5300 小時、373 萬個文件的動漫風格語音及劇本數據集 Galgame_Speech_ASR_16kHz 進行了微調。它不僅在動漫演技語音領域表現出色，在其他語音識別任務中也具備獨特的特徵和較高的性能。

你可以在這裡輕鬆體驗該模型的演示：https://huggingface.co/spaces/litagin/anime-whisper-demo

🚀 快速開始

Anime Whisper 是一款專注於日語動漫語音識別的模型，它基於特定的基礎模型並經過大量動漫語音數據的微調。以下是使用該模型的基本步驟和示例代碼。

基礎用法

import torch
from transformers import pipeline

generate_kwargs = {
    "language": "Japanese",
    "no_repeat_ngram_size": 0,
    "repetition_penalty": 1.0,
}
pipe = pipeline(
    "automatic-speech-recognition",
    model="litagin/anime-whisper",
    device="cuda",
    torch_dtype=torch.float16,
    chunk_length_s=30.0,
    batch_size=64,
)

audio_path = "test.wav"
result = pipe(audio_path, generate_kwargs=generate_kwargs)
print(result["text"])

高級用法

若要對多個文件進行一次性推理，只需將文件路徑列表傳遞給 pipe 即可。
若重複幻覺現象較為明顯，可以將上述的 no_repeat_ngram_size: int 設置為 5 - 10 左右，或者將 repetition_penalty 設置為大於 1 的值，以抑制該現象。

# 多個文件推理示例
audio_paths = ["test1.wav", "test2.wav", "test3.wav"]
results = pipe(audio_paths, generate_kwargs=generate_kwargs)
for result in results:
    print(result["text"])

# 抑制重複幻覺示例
generate_kwargs = {
    "language": "Japanese",
    "no_repeat_ngram_size": 5,
    "repetition_penalty": 1.2,
}
result = pipe(audio_path, generate_kwargs=generate_kwargs)
print(result["text"])

✨ 主要特性

低幻覺率：相比其他模型，Anime Whisper 在語音識別過程中產生的幻覺較少，輸出結果更加準確可靠。
忠實記錄非語言表達：能夠忠實地轉錄其他模型容易跳過的語氣詞、笑聲、叫聲和呼吸聲等非語言表達，使轉錄結果更加完整。
標點使用恰當：能夠根據語音的節奏和情感，恰當地添加「。、!?…」等標點符號，輸出自然流暢、符合語境的臺詞文本。
動漫風格語音識別精度高：尤其擅長處理動漫風格的演技臺詞，在該領域具有較高的識別精度。
輕量級與高效性：基於 kotoba-whisper（whisper-large-v3 的蒸餾模型）構建，模型輕量且運行速度快。
NSFW 語音識別能力：能夠以規範的文體轉錄其他模型幾乎無法處理的 NSFW 語音。

📦 安裝指南

文檔未提及安裝步驟，故跳過此章節。

💻 使用示例

基礎用法

import torch
from transformers import pipeline

generate_kwargs = {
    "language": "Japanese",
    "no_repeat_ngram_size": 0,
    "repetition_penalty": 1.0,
}
pipe = pipeline(
    "automatic-speech-recognition",
    model="litagin/anime-whisper",
    device="cuda",
    torch_dtype=torch.float16,
    chunk_length_s=30.0,
    batch_size=64,
)

audio_path = "test.wav"
result = pipe(audio_path, generate_kwargs=generate_kwargs)
print(result["text"])

高級用法

多個文件推理：

audio_paths = ["audio1.wav", "audio2.wav", "audio3.wav"]
results = pipe(audio_paths, generate_kwargs=generate_kwargs)
for res in results:
    print(res["text"])

抑制重複幻覺：

generate_kwargs = {
    "language": "Japanese",
    "no_repeat_ngram_size": 7,
    "repetition_penalty": 1.3
}
result = pipe(audio_path, generate_kwargs=generate_kwargs)
print(result["text"])

📚 詳細文檔

評估 📊

詳細的評估與觀察報告以及評估代碼將在GitHub 倉庫公開。

CER (Character Error Rate, 字符錯誤率)

評估數據：使用「與訓練數據屬於相同動漫風格臺詞領域，但未包含在訓練數據中的個人擁有的 5 部文字冒險遊戲（總計約 75k 個文件）」進行評估。
生成參數：為抑制 OpenAI 的 Whisper 系列模型的重複幻覺，使用 no_repeat_ngram_size=5 參數進行生成。
CER 計算：CER 是對經過適當歸一化處理後的結果進行計算得出的。

figs/cer_ngram5.png

表格

模型名稱	game1	game2	game3	game4	game5	平均值
openai/whisper-large	15.11	20.24	14.89	17.95	19.37	17.5
openai/whisper-large-v2	15.11	20.12	14.83	17.65	18.59	17.3
openai/whisper-large-v3	14.60	18.66	14.43	17.29	17.74	16.5
openai/whisper-large-v3-turbo	15.18	19.24	14.43	17.38	18.15	16.9
reazon-research/reazonspeech-nemo-v2	23.92	25.08	20.29	25.91	22.71	23.6
nvidia/parakeet-tdt_ctc-0.6b-ja	17.67	20.44	15.33	19.60	19.86	18.6
kotoba-tech/kotoba-whisper-v1.0	16.62	21.54	16.42	19.83	20.01	18.9
kotoba-tech/kotoba-whisper-v2.0	16.38	21.51	16.51	19.69	20.04	18.8
Anime Whisper	11.32	16.52	11.16	12.78	13.23	13.0

偏差等 🚨

專有名詞轉錄：當人名等專有名詞存在於訓練數據的視覺小說中時，通常會以該遊戲內的漢字形式進行轉錄。
特定單詞轉錄：數據集中的部分特定單詞可能會出現與常規不同的轉錄形式（例如：からだ → 身體 等，以及其他專有名詞）。
輸出規範：由於數據集的歸一化處理，以下情況在輸出結果中幾乎不會出現：
- 元音或長音符的連續：ああああーーーー
- 相同感嘆號的連續：こらーっ!!!! なにそれ!?!?!?!?
- 省略號的連續：…… （日語書寫中使用 2 個 …… 是正確的，但輸出結果幾乎總是隻使用 1 個 …）
字符格式：數字、字母和感嘆號將以半角形式進行轉錄。
句末標點：句末的「。」幾乎總是會被省略。
低俗用語處理：部分低俗用語的轉錄可能會包含伏字「○」。

示例 👀

以下是與上述評估相同的、未包含在訓練數據中的文字冒險遊戲臺詞的轉錄對比（同樣使用 no_repeat_ngram_size=5 進行生成）。

結果顯示，Anime Whisper 大致能達到與 whisper-large-v3 相當的良好性能。以下僅摘錄了一些與其他模型差異顯著的示例（特別是非語言表達或情感豐富的語音）。

正確文本	Anime Whisper	whisper-large-v3	kotoba-whisper-v2.0	reazonspeech-nemo
あわわわっ！わわわわっ！	はわわっ、わわわわっ…!	ああああああああああ	うわうわ	うわ!
そっ、そっか……。………。……そうなんだ。	そっ…そっか…そうなんだ…	そっか…そうなんだ…	そっか…そうなんだ	そっそっかあっそうなんだ。
たぶん、ぼくが勝つ、はず	たぶん、ボクが勝つ、はず	多分、僕が勝つはず。	多分僕が勝つはず	僕が勝つはず。
げ、げほっ……なんだこいつ！	げほっ、げほっ…なんだ、こいつ…	なんだ、こいつ…	なんだこいつ	フッ何だこいつ。
はっ、はい。そうです。……その、えっと。へっ、変だったでしょうか？	は、はい、そうです…その、えと…へ、変だったでしょうか…?	あ、はい、そうです。そ、えっと、へ、変だったでしょうか。	はいそうですそういと変だったでしょうか	あっはいそうですうすえっとへ変だったでしょうか?
ぶぶぶぶ豚クソがァァァ！待てコルァァァ！	ぶぶぶぶぶ、ぶたくそがー!待てごらぁぁ!	待てこらー	待てこそか	待てこら!
地面が揺れるとかありえ……ぎゃっ！	地面が揺れるとかありえ…ひゃっ!?	地面が揺れるとかありえ?	地面が揺れるとかありえ	やっ!
きゃっほう！い、いたっ、いただきまーす！	きゃっほう!い、いた、いただきまーす!	キャッホー!い、いただきます!	キャホー!いただきます!	いいたいただきます!
……っ、はぁ……わ、わたし、今日は……	んっ、はぁ…わ、私、今日は…	私、今日は…	私今日は	えっと私今日。
……ぷふっ、ンッ。かっ、かっ、かっ……ぷふっ。かっ。んふふっ。かっ、価値観	うふふっ…か、かはっ…ぷっ…はぁっ…か、価値観っ…	価値観!	価値観	ハッかちかん!
か、癢くもねぇ……こんなんんん……！	か、癢くもねえ…こんな、んんっ…!	か、回復もねぇ、こんな、うぬぅ	かかゆくもねえこんな	かゆくもねえこんなうう。
ひゃっ！や、やだ、くすぐった……や、やっ、あは、あははっ	ひゃうっ!やっ、やだっ…くすぐったっ…やっ、やっ、はんっ、あははっ!	やだ!すぐだ!	やだ	やっほ!
ふえぇ、急に止まらないでよう……	ふえぇ、急に止まらないでよぉ	おへぇ、急に止まらないでよ	おへえ急に止まらないでよ	急に止まらないでよ。
ごごご５０キロもないです私ー！	ごごご50キロもないです私ー!	50キロもないです私!	550キロもないです私	50キロもないですわたし!
いいい、すびばぜん、すびばぜーんっ	いいずびばぜんずびばぜーん!	いいいい! ズビバル10! ズビブル10!	いいズビバーテン!	すみませんすみません。
間抜けか貴様ァァァ！	間抜けか貴様ぁぁっ!	マヌケカキ様!	まぬけかきさま	抜けか貴様!
ぷ、くく……ひっ、ひいっ……	くっ…くくくっ…ぷっ…くくっ…	ご視聴ありがとうございました	フッ	フフフフ。フフフフフ。
キミは……。あっ、はっ……。最初から……あんっ、あっ、容赦がないな	君はぁ…はぁっ、はぁっ…最初から…あんっ、あっ、容赦がないなぁ…	君は……最初から容赦がないな	君は最初からあんあ容赦がないな	君は最初からうっうん容赦がないなあ。
望んでるわけ……。のっ、のっ、のっ……望んでるんです。世界が終わればいいって……強く、強くっ。はぁっ、はぁっ	望んでるわけ…の、の、の…望んでるんです…世界が終わればいいって、強く、強く…はぁっ	望んでるわけ…望んでるんです…世界が終わればいいって…強く…強く…	望んでるわけ…ののぞんでるんです世界が終わればいいって強く強く	ん?望んでるんです。世界が終わればいいって強く強く。

NSFW 示例 🫣

由於包含成人內容，請謹慎瀏覽。

喘息聲

正確文本	Anime Whisper	whisper-large-v3	kotoba-whisper-v2.0	reazonspeech-nemo
ひっ、あっ！あぅっ、ああぁぁあぁぁぁぁぁっ！はっ、はっ、はっ、はっ、ひぁっ！	んぁっ、あっ、あっ、ああぁぁっ!あっ、はぁっ、はぁっ…んっ、ふぁああっ!	ご視聴ありがとうございました	アハハハ	うわ!
ち、ちがっ……んっ、あぁぁ……気持ちいい、わけが……あぁっ、やぁっ、待てと……んんっ、はぁ……あふぅっ……	ち、ちがっ…はぁっ、はぁっ、気持ちいい、わけがっ…あっ、やぁっ、待てとっ…んくっ、はぁ、はぁっ…	ち、ちが…気持ちいいわけが…待てと…	ちちが気持ちいいわけが待てと	ち違うはあ気持ちいいわけが待てとあっ。
あんっ！あっ、あっ……そっ、それ……あっ、はぁはぁはぁ。ンンンンッ！ぴっ、ぴりぴり、ってして……。あんっ！はぁはぁはぁ、きっ、きもち……いいです！	ふぁんっ!あっ、あぁっ!そっ、それっ…あっ、はぁっ、はぁっ…んんっ!ぴ、ぴりぴりって、して…ひぁっ!はっ、はぁ、はぁっ…!き、気持ち、いいですっ…!	それ…フィリフィリでした…気持ちいいです…	それフィリフィリフリでした	けきもしいいです!
その調子って……んんっ、こんなの、あぁっ、んっあぁん……んんっ、しょっ……あぁっ……だめ……んっ、あぁっ……	その調子って…んんっ、こんなの…はぁっ、んんっ…んっ、しょっ…はぁっ…ダメ…んっ、あっ…	その調子って…こんなの…ダメ…	その調子ってこんなの	その調子ってううんこんなのダメうん
はぁっ、あっ……んっ……くぅ、あぁっ……やぁ……それは、ん、はぁ……だめ、だ……あっ、んんっ、ふ……ひぃうっ！やめっ……ま、待ってくれ……あぁん……！	はぁっ、あっ、くぅぅっ…あっ、やっ、それはっ…はぁっ、ダメだっ…んんっ…ひぅぅんっ!やめっ…ま、待ってくれっ…あぁぁっ!	それは、ダメだ、やめ、待ってくれ	それはそれはダメだやめやめまってくれ	やめま待ってくれうう。
あは、はっ……んっ、くうっ……なん、だろこれ……気持ちいい、かも……んっ、あ、ああっ、はあっ、ふあぁ……やっ、くぅん	はぁっ、はぁっ、んっ…くぅっ…なん、だろこれ…気持ちいい、かも…んんっ、あっ、ああっ…ふぁぁっ、はやっ…んんっ…	あ、あ、あ、んっ、う、なんだろこれ、気持ちいいかも、あ、あ,あ、あ、う、うんっ	なんだろうこれ気持ちいいくも	うっなんだろうこれ。はあ気持ちいいかも。うわ!ううん。
だめ、センパイ……そんなにおち○ちん挿れたら、だめだぁっ……あっ、あぁぁぁっ……！	だめ、先輩…んっ、そんなに、おち○ちん挿れたら、だめ…はぁ、あぁぁ…っ	ダメ、先輩…そんなに陥れたらダメ…	ダメ先輩そんなに落ち入れたらダメな	ダメ先輩そんなに気入れたらダメだ。
やぁぁっ、こ、こらっ、おち○ちん、そんなに、びくびくさせないのっ……あぁっ、ひぃあぁぁっ……はぁっ、あぁっ、あぁぁぁんっ！！	ひゃんっ!こ、こらっ、おち○ちん、そんなにビクビクさせないのっ!ひぁっ、あっ、はぁっ、はぁっ!	いや、こ、こら、おじっちそんなにビクビクさせないの?いや、なにやろ	ここらじっちそんなにビクビクさせないの	もう全然そんなにビクビクさせないのうん!
やっ……あっ。……お兄ちゃんの舌が、あっ、中で、やあっ。……そんなりぐりぐりしちゃ、あっ、ふあっ。うくぅぅっ、ああっ、やあっ。	やっ、あっ、お兄ちゃんの舌が、中で…やぁっ、そんなにぐりぐりしちゃ…あっ、あっ、んっ、ふあぁっ、やぁぁっ…!	にゃー!お兄ちゃんの舌がお腹で…にゃー!そんなにグリグリした…にゃー!!	お兄ちゃんの下がお腹でニャーそんなにグリグリした	お兄ちゃんの舌がおなかでよそんなにグイグイさあぐっにゃん!
はっ、激しく……して。ンッ。あっ！はあっ、はあっ……わっ、私を……一気に……ンッ。イッ、イかせちゃってくださいッ！	は、激しく、して…んっ、あぅっ…私を、一気に…い、イかせちゃってください…!	あ、ゲンシ君、ステッ、アッ、アッ…私を一気に、行かせてあげください!	あげんしくして私は一気に行かせてください	激しく私も一輝行かせちゃってください!

吮吸聲

正確文本	Anime Whisper	whisper-large-v3	kotoba-whisper-v2.0	reazonspeech-nemo
れろっ、んっ……れろ、ちゅ、んちゅ	れろっ、れろっ、ちゅううっ	ううううう	わいしゅう	シュッ!
はっ、はい！んっ、れろっ、れろっ……あっ、れろっ	は、はい…っ、れろぉ…っ、れりゅっ、れりょっ…	わ、はぁい、わ、う、う、わ、へ、へ、へ	わあはい	はい。
れろっ、れろ……むふふ、ここの線なぞると反応いいね、んちゅ、ちゅうっ……ここいい？どう？	れろれろれろっ…んっ、ふふっ、ここの線なぞると反応いいね…ちゅっ、ちゅっ…ここいい?どう?	ここの線なぞると反応いいねここいい?どう?	ここの線なぞると反応いいねうんふうに	へへへここの線なぞると反応いいねここいい?どう?
あぁむ……ちゅ……れぇろれろ……ん……ん……ちゅ……れぇろ……んん……ちゅぅ……ちゅぱっ……れぇろれろ……	あむちゅっ…れろれろっ…んちゅっ、れろっ…ちゅぱちゅぷっ…れろぉっ…	アムー…	あん	おへん。
んちゅっ……れろれろ……れぇろ、ちゅっ、んれぇろれろ……ちゅっ、ちゅぱっ……	んちゅっ、れろれろっ、ちゅぱちゅぅっ…れろれろ、ちゅっ…ちゅぷっ…	お疲れ様でした	おくぬかんぱい	う。
ん……イク……ちゅるぅ……イッちゃう……ん……あぁっ、ちゅるるっ、イク……もう……らめぇ……んあぁむ……イク……イクぅぅ……	もう、イクっ…イッちゃう…んっ、んっ、じゅるるっ、イクっ、らめっ…んぁっ、イクッ、イクッ!	おーまいごーおまいごーまいごやめまいごよこー	お前	ママペイ君!
れぇろ…………んちゅ……れろれろ……ん……ちゅ……れろれろ……んれぇろれろ……ちゅ……	れろぉ…んちゅ、れろれろ…ちゅぱ…れろ、れろれちゅ…	エル…ラ…ル…ア…エル…ル…ツ…ン…エ…エル…ツ…ル…ア...エル…ル...プ…	えぇぇ
はぷっ、ちゅぷ、んん……はやく、おっきくして……ちんぽ……れろっ、ちゅ、ぴちゅ、ちゅぱっ……はやく勃起ちんぽちょうだい、勃起ちんぽ私にちょうだい	じゅぷっ、じゅぼっ!早くおっきくしてっ、ちんぽっ!んじゅるるるるるっ!はやくっ、はやく勃起ちんぽちょうらいっ、勃起ち○ぽあたしにちょうだいっ!	早く起きこして!チンポン!早く、早くポッキチンポンちょうだい! ポッキチンパン私にちょうだい!!	早く大きくしてチンポン早くポッキ全部全部私にちょうだい	早くおっきい子して。チープ!ん?早く早くボケ全部ちょうだい。ボケ全部私にちょうだい!
そっ、それじゃ……。あっ、はっ……がっ、がんばるぞ。ンッ！ああああっ！あっ、わっ、ボクも……んちっ、んむっ、んむっ、んんっ、むむっ。	そ、それじゃあ…はぁ、はぁ、が、頑張るぞ…んっ、あっ、あっ、も、ボクも…れろ、ちゅ、ちゅぱ、ちゅるるっ	それじゃあ、頑張るぞ!	それじゃあ頑張るぞ	そそれじゃあううがんばるぞ。
はむ、ちゅ、んんっ、れる……。んむっ、ふーっ、ふーっ。ここなんへ、ろうかひら？ちゅっ……じゅっ。……じゅるる。んっ、。	はむ…ちゅ、んんっ…ん、はむ…ここなんへ、どうかしら…ちゅっ、ちゅるるっ…	ここな…廊下平…	ここな廊下平	ん。ん?ここな?どうかしら。んっ。

學習步驟 📚

詳細的學習步驟、超參數和學習代碼將在GitHub上公開。

數據劃分：將全部數據中的最後一個 tar 文件留作測試數據，使用其餘 3,735,363 個文件進行訓練。
模型訓練：
1. 首先，從基礎模型開始，凍結編碼器（Encoder），僅對解碼器（Decoder）進行幾個 epoch 的訓練。
2. 然後，解除編碼器的凍結，對整個模型進行幾個 epoch 的訓練。
模型優化：訓練停止後，嘗試通過「取某個時間點到另一個時間點之間的模型平均值（合併）」的操作來提高性能。使用 Optuna 對基準數據的 CER 進行優化，並將優化結果作為最終模型。

環境 🖥

硬件資源：自掏腰包在 vast.ai 上租用了 H100 NVL（VRAM 96GB），經過近 3 周的反覆試驗進行訓練（最初使用 whisper-large-v3-turbo 作為基礎模型，因此訓練時間包含了這部分嘗試）。
實際訓練時間：該模型實際使用的訓練時間約為 H100 NVL * 11.2 天（不過，後半段訓練可能由於過擬合導致在測試數據上的性能不佳，因此最終合併時未使用這部分模型）。