Anime Whisper
模型概述
基於kotoba-whisper-v2.0微調,針對動畫風格語音優化的日語ASR模型,特別擅長處理非語言發聲和情感表達
模型特點
減少幻覺現象
相比同類模型顯著減少了錯誤生成內容的情況
非語言發聲識別
精準捕捉言語停頓、笑聲、呼喊、喘息等非語言發聲
情感化標點生成
標點符號隨語音節奏情感自然生成,呈現劇本級文本流暢度
動畫語音優化
對動畫風格表演臺詞識別準確率尤為突出
NSFW內容處理
能專業處理其他模型難以勝任的成人向音頻轉寫
模型能力
日語語音識別
動畫風格語音轉寫
非語言發聲識別
情感化文本生成
使用案例
動漫製作
動畫配音轉寫
將動畫配音轉換為劇本格式文本
準確率比通用模型提高約20%
遊戲開發
視覺小說臺詞轉錄
自動轉錄Galgame遊戲中的對話內容
CER(字符錯誤率)平均13.0%
🚀 Anime Whisper 🤗🎤📝
Anime Whisper 是一款專門針對日語動漫風格演技臺詞領域的日語語音識別模型。該模型以 kotoba-whisper-v2.0 為基礎模型,並使用約 5300 小時、373 萬個文件的動漫風格語音及劇本數據集 Galgame_Speech_ASR_16kHz 進行了微調。它不僅在動漫演技語音領域表現出色,在其他語音識別任務中也具備獨特的特徵和較高的性能。
你可以在這裡輕鬆體驗該模型的演示:https://huggingface.co/spaces/litagin/anime-whisper-demo
🚀 快速開始
Anime Whisper 是一款專注於日語動漫語音識別的模型,它基於特定的基礎模型並經過大量動漫語音數據的微調。以下是使用該模型的基本步驟和示例代碼。
基礎用法
import torch
from transformers import pipeline
generate_kwargs = {
"language": "Japanese",
"no_repeat_ngram_size": 0,
"repetition_penalty": 1.0,
}
pipe = pipeline(
"automatic-speech-recognition",
model="litagin/anime-whisper",
device="cuda",
torch_dtype=torch.float16,
chunk_length_s=30.0,
batch_size=64,
)
audio_path = "test.wav"
result = pipe(audio_path, generate_kwargs=generate_kwargs)
print(result["text"])
高級用法
- 若要對多個文件進行一次性推理,只需將文件路徑列表傳遞給
pipe
即可。 - 若重複幻覺現象較為明顯,可以將上述的
no_repeat_ngram_size: int
設置為 5 - 10 左右,或者將repetition_penalty
設置為大於 1 的值,以抑制該現象。
# 多個文件推理示例
audio_paths = ["test1.wav", "test2.wav", "test3.wav"]
results = pipe(audio_paths, generate_kwargs=generate_kwargs)
for result in results:
print(result["text"])
# 抑制重複幻覺示例
generate_kwargs = {
"language": "Japanese",
"no_repeat_ngram_size": 5,
"repetition_penalty": 1.2,
}
result = pipe(audio_path, generate_kwargs=generate_kwargs)
print(result["text"])
✨ 主要特性
- 低幻覺率:相比其他模型,Anime Whisper 在語音識別過程中產生的幻覺較少,輸出結果更加準確可靠。
- 忠實記錄非語言表達:能夠忠實地轉錄其他模型容易跳過的語氣詞、笑聲、叫聲和呼吸聲等非語言表達,使轉錄結果更加完整。
- 標點使用恰當:能夠根據語音的節奏和情感,恰當地添加「。、!?…」等標點符號,輸出自然流暢、符合語境的臺詞文本。
- 動漫風格語音識別精度高:尤其擅長處理動漫風格的演技臺詞,在該領域具有較高的識別精度。
- 輕量級與高效性:基於 kotoba-whisper(whisper-large-v3 的蒸餾模型)構建,模型輕量且運行速度快。
- NSFW 語音識別能力:能夠以規範的文體轉錄其他模型幾乎無法處理的 NSFW 語音。
📦 安裝指南
文檔未提及安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
import torch
from transformers import pipeline
generate_kwargs = {
"language": "Japanese",
"no_repeat_ngram_size": 0,
"repetition_penalty": 1.0,
}
pipe = pipeline(
"automatic-speech-recognition",
model="litagin/anime-whisper",
device="cuda",
torch_dtype=torch.float16,
chunk_length_s=30.0,
batch_size=64,
)
audio_path = "test.wav"
result = pipe(audio_path, generate_kwargs=generate_kwargs)
print(result["text"])
高級用法
- 多個文件推理:
audio_paths = ["audio1.wav", "audio2.wav", "audio3.wav"]
results = pipe(audio_paths, generate_kwargs=generate_kwargs)
for res in results:
print(res["text"])
- 抑制重複幻覺:
generate_kwargs = {
"language": "Japanese",
"no_repeat_ngram_size": 7,
"repetition_penalty": 1.3
}
result = pipe(audio_path, generate_kwargs=generate_kwargs)
print(result["text"])
📚 詳細文檔
評估 📊
詳細的評估與觀察報告以及評估代碼將在GitHub 倉庫公開。
CER (Character Error Rate, 字符錯誤率)
- 評估數據:使用「與訓練數據屬於相同動漫風格臺詞領域,但未包含在訓練數據中的個人擁有的 5 部文字冒險遊戲(總計約 75k 個文件)」進行評估。
- 生成參數:為抑制 OpenAI 的 Whisper 系列模型的重複幻覺,使用
no_repeat_ngram_size=5
參數進行生成。 - CER 計算:CER 是對經過適當歸一化處理後的結果進行計算得出的。
表格
模型名稱 | game1 | game2 | game3 | game4 | game5 | 平均值 |
---|---|---|---|---|---|---|
openai/whisper-large | 15.11 | 20.24 | 14.89 | 17.95 | 19.37 | 17.5 |
openai/whisper-large-v2 | 15.11 | 20.12 | 14.83 | 17.65 | 18.59 | 17.3 |
openai/whisper-large-v3 | 14.60 | 18.66 | 14.43 | 17.29 | 17.74 | 16.5 |
openai/whisper-large-v3-turbo | 15.18 | 19.24 | 14.43 | 17.38 | 18.15 | 16.9 |
reazon-research/reazonspeech-nemo-v2 | 23.92 | 25.08 | 20.29 | 25.91 | 22.71 | 23.6 |
nvidia/parakeet-tdt_ctc-0.6b-ja | 17.67 | 20.44 | 15.33 | 19.60 | 19.86 | 18.6 |
kotoba-tech/kotoba-whisper-v1.0 | 16.62 | 21.54 | 16.42 | 19.83 | 20.01 | 18.9 |
kotoba-tech/kotoba-whisper-v2.0 | 16.38 | 21.51 | 16.51 | 19.69 | 20.04 | 18.8 |
Anime Whisper | 11.32 | 16.52 | 11.16 | 12.78 | 13.23 | 13.0 |
偏差等 🚨
- 專有名詞轉錄:當人名等專有名詞存在於訓練數據的視覺小說中時,通常會以該遊戲內的漢字形式進行轉錄。
- 特定單詞轉錄:數據集中的部分特定單詞可能會出現與常規不同的轉錄形式(例如:
からだ
→身體
等,以及其他專有名詞)。 - 輸出規範:由於數據集的歸一化處理,以下情況在輸出結果中幾乎不會出現:
- 元音或長音符的連續:
ああああーーーー
- 相同感嘆號的連續:
こらーっ!!!!
なにそれ!?!?!?!?
- 省略號的連續:
……
(日語書寫中使用 2 個……
是正確的,但輸出結果幾乎總是隻使用 1 個…
)
- 元音或長音符的連續:
- 字符格式:數字、字母和感嘆號將以半角形式進行轉錄。
- 句末標點:句末的「。」幾乎總是會被省略。
- 低俗用語處理:部分低俗用語的轉錄可能會包含伏字「○」。
示例 👀
以下是與上述評估相同的、未包含在訓練數據中的文字冒險遊戲臺詞的轉錄對比(同樣使用 no_repeat_ngram_size=5
進行生成)。
結果顯示,Anime Whisper 大致能達到與 whisper-large-v3 相當的良好性能。以下僅摘錄了一些與其他模型差異顯著的示例(特別是非語言表達或情感豐富的語音)。
正確文本 | Anime Whisper | whisper-large-v3 | kotoba-whisper-v2.0 | reazonspeech-nemo |
---|---|---|---|---|
あわわわっ!わわわわっ! | はわわっ、わわわわっ…! | ああああああああああ | うわうわ | うわ! |
そっ、そっか……。………。……そうなんだ。 | そっ…そっか…そうなんだ… | そっか…そうなんだ… | そっか…そうなんだ | そっそっかあっそうなんだ。 |
たぶん、ぼくが勝つ、はず | たぶん、ボクが勝つ、はず | 多分、僕が勝つはず。 | 多分僕が勝つはず | 僕が勝つはず。 |
げ、げほっ……なんだこいつ! | げほっ、げほっ…なんだ、こいつ… | なんだ、こいつ… | なんだこいつ | フッ何だこいつ。 |
はっ、はい。そうです。……その、えっと。へっ、変だったでしょうか? | は、はい、そうです…その、えと…へ、変だったでしょうか…? | あ、はい、そうです。そ、えっと、へ、変だったでしょうか。 | はいそうですそういと変だったでしょうか | あっはいそうですうすえっとへ変だったでしょうか? |
ぶぶぶぶ豚クソがァァァ!待てコルァァァ! | ぶぶぶぶぶ、ぶたくそがー!待てごらぁぁ! | 待てこらー | 待てこそか | 待てこら! |
地面が揺れるとかありえ……ぎゃっ! | 地面が揺れるとかありえ…ひゃっ!? | 地面が揺れるとかありえ? | 地面が揺れるとかありえ | やっ! |
きゃっほう!い、いたっ、いただきまーす! | きゃっほう!い、いた、いただきまーす! | キャッホー!い、いただきます! | キャホー!いただきます! | いいたいただきます! |
……っ、はぁ……わ、わたし、今日は…… | んっ、はぁ…わ、私、今日は… | 私、今日は… | 私今日は | えっと私今日。 |
……ぷふっ、ンッ。かっ、かっ、かっ……ぷふっ。かっ。んふふっ。かっ、価値観 | うふふっ…か、かはっ…ぷっ…はぁっ…か、価値観っ… | 価値観! | 価値観 | ハッかちかん! |
か、癢くもねぇ……こんなんんん……! | か、癢くもねえ…こんな、んんっ…! | か、回復もねぇ、こんな、うぬぅ | かかゆくもねえこんな | かゆくもねえこんなうう。 |
ひゃっ!や、やだ、くすぐった……や、やっ、あは、あははっ | ひゃうっ!やっ、やだっ…くすぐったっ…やっ、やっ、はんっ、あははっ! | やだ!すぐだ! | やだ | やっほ! |
ふえぇ、急に止まらないでよう…… | ふえぇ、急に止まらないでよぉ | おへぇ、急に止まらないでよ | おへえ急に止まらないでよ | 急に止まらないでよ。 |
ごごご50キロもないです私ー! | ごごご50キロもないです私ー! | 50キロもないです私! | 550キロもないです私 | 50キロもないですわたし! |
いいい、すびばぜん、すびばぜーんっ | いいずびばぜんずびばぜーん! | いいいい! ズビバル10! ズビブル10! | いいズビバーテン! | すみませんすみません。 |
間抜けか貴様ァァァ! | 間抜けか貴様ぁぁっ! | マヌケカキ様! | まぬけかきさま | 抜けか貴様! |
ぷ、くく……ひっ、ひいっ…… | くっ…くくくっ…ぷっ…くくっ… | ご視聴ありがとうございました | フッ | フフフフ。フフフフフ。 |
キミは……。あっ、はっ……。最初から……あんっ、あっ、容赦がないな | 君はぁ…はぁっ、はぁっ…最初から…あんっ、あっ、容赦がないなぁ… | 君は……最初から容赦がないな | 君は最初からあんあ容赦がないな | 君は最初からうっうん容赦がないなあ。 |
望んでるわけ……。のっ、のっ、のっ……望んでるんです。世界が終わればいいって……強く、強くっ。はぁっ、はぁっ | 望んでるわけ…の、の、の…望んでるんです…世界が終わればいいって、強く、強く…はぁっ | 望んでるわけ…望んでるんです…世界が終わればいいって…強く…強く… | 望んでるわけ…ののぞんでるんです世界が終わればいいって強く強く | ん?望んでるんです。世界が終わればいいって強く強く。 |
NSFW 示例 🫣
由於包含成人內容,請謹慎瀏覽。
喘息聲
正確文本 | Anime Whisper | whisper-large-v3 | kotoba-whisper-v2.0 | reazonspeech-nemo |
---|---|---|---|---|
ひっ、あっ!あぅっ、ああぁぁあぁぁぁぁぁっ!はっ、はっ、はっ、はっ、ひぁっ! | んぁっ、あっ、あっ、ああぁぁっ!あっ、はぁっ、はぁっ…んっ、ふぁああっ! | ご視聴ありがとうございました | アハハハ | うわ! |
ち、ちがっ……んっ、あぁぁ……気持ちいい、わけが……あぁっ、やぁっ、待てと……んんっ、はぁ……あふぅっ…… | ち、ちがっ…はぁっ、はぁっ、気持ちいい、わけがっ…あっ、やぁっ、待てとっ…んくっ、はぁ、はぁっ… | ち、ちが…気持ちいいわけが…待てと… | ちちが気持ちいいわけが待てと | ち違うはあ気持ちいいわけが待てとあっ。 |
あんっ!あっ、あっ……そっ、それ……あっ、はぁはぁはぁ。ンンンンッ!ぴっ、ぴりぴり、ってして……。あんっ!はぁはぁはぁ、きっ、きもち……いいです! | ふぁんっ!あっ、あぁっ!そっ、それっ…あっ、はぁっ、はぁっ…んんっ!ぴ、ぴりぴりって、して…ひぁっ!はっ、はぁ、はぁっ…!き、気持ち、いいですっ…! | それ…フィリフィリでした…気持ちいいです… | それフィリフィリフリでした | けきもしいいです! |
その調子って……んんっ、こんなの、あぁっ、んっあぁん……んんっ、しょっ……あぁっ……だめ……んっ、あぁっ…… | その調子って…んんっ、こんなの…はぁっ、んんっ…んっ、しょっ…はぁっ…ダメ…んっ、あっ… | その調子って…こんなの…ダメ… | その調子ってこんなの | その調子ってううんこんなのダメうん |
はぁっ、あっ……んっ……くぅ、あぁっ……やぁ……それは、ん、はぁ……だめ、だ……あっ、んんっ、ふ……ひぃうっ!やめっ……ま、待ってくれ……あぁん……! | はぁっ、あっ、くぅぅっ…あっ、やっ、それはっ…はぁっ、ダメだっ…んんっ…ひぅぅんっ!やめっ…ま、待ってくれっ…あぁぁっ! | それは、ダメだ、やめ、待ってくれ | それはそれはダメだやめやめまってくれ | やめま待ってくれうう。 |
あは、はっ……んっ、くうっ……なん、だろこれ……気持ちいい、かも……んっ、あ、ああっ、はあっ、ふあぁ……やっ、くぅん | はぁっ、はぁっ、んっ…くぅっ…なん、だろこれ…気持ちいい、かも…んんっ、あっ、ああっ…ふぁぁっ、はやっ…んんっ… | あ、あ、あ、んっ、う、なんだろこれ、気持ちいいかも、あ、あ,あ、あ、う、うんっ | なんだろうこれ気持ちいいくも | うっなんだろうこれ。はあ気持ちいいかも。うわ!ううん。 |
だめ、センパイ……そんなにおち○ちん挿れたら、だめだぁっ……あっ、あぁぁぁっ……! | だめ、先輩…んっ、そんなに、おち○ちん挿れたら、だめ…はぁ、あぁぁ…っ | ダメ、先輩…そんなに陥れたらダメ… | ダメ先輩そんなに落ち入れたらダメな | ダメ先輩そんなに気入れたらダメだ。 |
やぁぁっ、こ、こらっ、おち○ちん、そんなに、びくびくさせないのっ……あぁっ、ひぃあぁぁっ……はぁっ、あぁっ、あぁぁぁんっ!! | ひゃんっ!こ、こらっ、おち○ちん、そんなにビクビクさせないのっ!ひぁっ、あっ、はぁっ、はぁっ! | いや、こ、こら、おじっちそんなにビクビクさせないの?いや、なにやろ | ここらじっちそんなにビクビクさせないの | もう全然そんなにビクビクさせないのうん! |
やっ……あっ。……お兄ちゃんの舌が、あっ、中で、やあっ。……そんなりぐりぐりしちゃ、あっ、ふあっ。うくぅぅっ、ああっ、やあっ。 | やっ、あっ、お兄ちゃんの舌が、中で…やぁっ、そんなにぐりぐりしちゃ…あっ、あっ、んっ、ふあぁっ、やぁぁっ…! | にゃー!お兄ちゃんの舌がお腹で…にゃー!そんなにグリグリした…にゃー!! | お兄ちゃんの下がお腹でニャーそんなにグリグリした | お兄ちゃんの舌がおなかでよそんなにグイグイさあぐっにゃん! |
はっ、激しく……して。ンッ。あっ!はあっ、はあっ……わっ、私を……一気に……ンッ。イッ、イかせちゃってくださいッ! | は、激しく、して…んっ、あぅっ…私を、一気に…い、イかせちゃってください…! | あ、ゲンシ君、ステッ、アッ、アッ…私を一気に、行かせてあげください! | あげんしくして私は一気に行かせてください | 激しく私も一輝行かせちゃってください! |
吮吸聲
正確文本 | Anime Whisper | whisper-large-v3 | kotoba-whisper-v2.0 | reazonspeech-nemo |
---|---|---|---|---|
れろっ、んっ……れろ、ちゅ、んちゅ | れろっ、れろっ、ちゅううっ | ううううう | わいしゅう | シュッ! |
はっ、はい!んっ、れろっ、れろっ……あっ、れろっ | は、はい…っ、れろぉ…っ、れりゅっ、れりょっ… | わ、はぁい、わ、う、う、わ、へ、へ、へ | わあはい | はい。 |
れろっ、れろ……むふふ、ここの線なぞると反応いいね、んちゅ、ちゅうっ……ここいい?どう? | れろれろれろっ…んっ、ふふっ、ここの線なぞると反応いいね…ちゅっ、ちゅっ…ここいい?どう? | ここの線なぞると反応いいねここいい?どう? | ここの線なぞると反応いいねうんふうに | へへへここの線なぞると反応いいねここいい?どう? |
あぁむ……ちゅ……れぇろれろ……ん……ん……ちゅ……れぇろ……んん……ちゅぅ……ちゅぱっ……れぇろれろ…… | あむちゅっ…れろれろっ…んちゅっ、れろっ…ちゅぱちゅぷっ…れろぉっ… | アムー… | あん | おへん。 |
んちゅっ……れろれろ……れぇろ、ちゅっ、んれぇろれろ……ちゅっ、ちゅぱっ…… | んちゅっ、れろれろっ、ちゅぱちゅぅっ…れろれろ、ちゅっ…ちゅぷっ… | お疲れ様でした | おくぬかんぱい | う。 |
ん……イク……ちゅるぅ……イッちゃう……ん……あぁっ、ちゅるるっ、イク……もう……らめぇ……んあぁむ……イク……イクぅぅ…… | もう、イクっ…イッちゃう…んっ、んっ、じゅるるっ、イクっ、らめっ…んぁっ、イクッ、イクッ! | おーまいごーおまいごーまいごやめまいごよこー | お前 | ママペイ君! |
れぇろ…………んちゅ……れろれろ……ん……ちゅ……れろれろ……んれぇろれろ……ちゅ…… | れろぉ…んちゅ、れろれろ…ちゅぱ…れろ、れろれちゅ… | エル…ラ…ル…ア…エル…ル…ツ…ン…エ…エル…ツ…ル…ア...エル…ル...プ… | えぇぇ | |
はぷっ、ちゅぷ、んん……はやく、おっきくして……ちんぽ……れろっ、ちゅ、ぴちゅ、ちゅぱっ……はやく勃起ちんぽちょうだい、勃起ちんぽ私にちょうだい | じゅぷっ、じゅぼっ!早くおっきくしてっ、ちんぽっ!んじゅるるるるるっ!はやくっ、はやく勃起ちんぽちょうらいっ、勃起ち○ぽあたしにちょうだいっ! | 早く起きこして!チンポン!早く、早くポッキチンポンちょうだい! ポッキチンパン私にちょうだい!! | 早く大きくしてチンポン早くポッキ全部全部私にちょうだい | 早くおっきい子して。チープ!ん?早く早くボケ全部ちょうだい。ボケ全部私にちょうだい! |
そっ、それじゃ……。あっ、はっ……がっ、がんばるぞ。ンッ!ああああっ!あっ、わっ、ボクも……んちっ、んむっ、んむっ、んんっ、むむっ。 | そ、それじゃあ…はぁ、はぁ、が、頑張るぞ…んっ、あっ、あっ、も、ボクも…れろ、ちゅ、ちゅぱ、ちゅるるっ | それじゃあ、頑張るぞ! | それじゃあ頑張るぞ | そそれじゃあううがんばるぞ。 |
はむ、ちゅ、んんっ、れる……。んむっ、ふーっ、ふーっ。ここなんへ、ろうかひら?ちゅっ……じゅっ。……じゅるる。んっ、。 | はむ…ちゅ、んんっ…ん、はむ…ここなんへ、どうかしら…ちゅっ、ちゅるるっ… | ここな…廊下平… | ここな廊下平 | ん。ん?ここな?どうかしら。んっ。 |
學習步驟 📚
詳細的學習步驟、超參數和學習代碼將在GitHub上公開。
- 數據劃分:將全部數據中的最後一個 tar 文件留作測試數據,使用其餘 3,735,363 個文件進行訓練。
- 模型訓練:
- 首先,從基礎模型開始,凍結編碼器(Encoder),僅對解碼器(Decoder)進行幾個 epoch 的訓練。
- 然後,解除編碼器的凍結,對整個模型進行幾個 epoch 的訓練。
- 模型優化:訓練停止後,嘗試通過「取某個時間點到另一個時間點之間的模型平均值(合併)」的操作來提高性能。使用 Optuna 對基準數據的 CER 進行優化,並將優化結果作為最終模型。
環境 🖥
- 硬件資源:自掏腰包在 vast.ai 上租用了 H100 NVL(VRAM 96GB),經過近 3 周的反覆試驗進行訓練(最初使用 whisper-large-v3-turbo 作為基礎模型,因此訓練時間包含了這部分嘗試)。
- 實際訓練時間:該模型實際使用的訓練時間約為 H100 NVL * 11.2 天(不過,後半段訓練可能由於過擬合導致在測試數據上的性能不佳,因此最終合併時未使用這部分模型)。
🔧 技術細節
文檔未提及技術實現細節,故跳過此章節。
📄 許可證
本項目採用 MIT 許可證。
Voice Activity Detection
MIT
基於pyannote.audio 2.1版本的語音活動檢測模型,用於識別音頻中的語音活動時間段
語音識別
V
pyannote
7.7M
181
Wav2vec2 Large Xlsr 53 Portuguese
Apache-2.0
這是一個針對葡萄牙語語音識別任務微調的XLSR-53大模型,基於Common Voice 6.1數據集訓練,支持葡萄牙語語音轉文本。
語音識別 其他
W
jonatasgrosman
4.9M
32
Whisper Large V3
Apache-2.0
Whisper是由OpenAI提出的先進自動語音識別(ASR)和語音翻譯模型,在超過500萬小時的標註數據上訓練,具有強大的跨數據集和跨領域泛化能力。
語音識別 支持多種語言
W
openai
4.6M
4,321
Whisper Large V3 Turbo
MIT
Whisper是由OpenAI開發的最先進的自動語音識別(ASR)和語音翻譯模型,經過超過500萬小時標記數據的訓練,在零樣本設置下展現出強大的泛化能力。
語音識別
Transformers 支持多種語言

W
openai
4.0M
2,317
Wav2vec2 Large Xlsr 53 Russian
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型微調的俄語語音識別模型,支持16kHz採樣率的語音輸入
語音識別 其他
W
jonatasgrosman
3.9M
54
Wav2vec2 Large Xlsr 53 Chinese Zh Cn
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型微調的中文語音識別模型,支持16kHz採樣率的語音輸入。
語音識別 中文
W
jonatasgrosman
3.8M
110
Wav2vec2 Large Xlsr 53 Dutch
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53微調的荷蘭語語音識別模型,在Common Voice和CSS10數據集上訓練,支持16kHz音頻輸入。
語音識別 其他
W
jonatasgrosman
3.0M
12
Wav2vec2 Large Xlsr 53 Japanese
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型微調的日語語音識別模型,支持16kHz採樣率的語音輸入
語音識別 日語
W
jonatasgrosman
2.9M
33
Mms 300m 1130 Forced Aligner
基於Hugging Face預訓練模型的文本與音頻強制對齊工具,支持多種語言,內存效率高
語音識別
Transformers 支持多種語言

M
MahmoudAshraf
2.5M
50
Wav2vec2 Large Xlsr 53 Arabic
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53微調的阿拉伯語語音識別模型,在Common Voice和阿拉伯語語音語料庫上訓練
語音識別 阿拉伯語
W
jonatasgrosman
2.3M
37
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98