Anime Whisper
模型简介
基于kotoba-whisper-v2.0微调,针对动画风格语音优化的日语ASR模型,特别擅长处理非语言发声和情感表达
模型特点
减少幻觉现象
相比同类模型显著减少了错误生成内容的情况
非语言发声识别
精准捕捉言语停顿、笑声、呼喊、喘息等非语言发声
情感化标点生成
标点符号随语音节奏情感自然生成,呈现剧本级文本流畅度
动画语音优化
对动画风格表演台词识别准确率尤为突出
NSFW内容处理
能专业处理其他模型难以胜任的成人向音频转写
模型能力
日语语音识别
动画风格语音转写
非语言发声识别
情感化文本生成
使用案例
动漫制作
动画配音转写
将动画配音转换为剧本格式文本
准确率比通用模型提高约20%
游戏开发
视觉小说台词转录
自动转录Galgame游戏中的对话内容
CER(字符错误率)平均13.0%
🚀 Anime Whisper 🤗🎤📝
Anime Whisper 是一款专门针对日语动漫风格演技台词领域的日语语音识别模型。该模型以 kotoba-whisper-v2.0 为基础模型,并使用约 5300 小时、373 万个文件的动漫风格语音及剧本数据集 Galgame_Speech_ASR_16kHz 进行了微调。它不仅在动漫演技语音领域表现出色,在其他语音识别任务中也具备独特的特征和较高的性能。
你可以在这里轻松体验该模型的演示:https://huggingface.co/spaces/litagin/anime-whisper-demo
🚀 快速开始
Anime Whisper 是一款专注于日语动漫语音识别的模型,它基于特定的基础模型并经过大量动漫语音数据的微调。以下是使用该模型的基本步骤和示例代码。
基础用法
import torch
from transformers import pipeline
generate_kwargs = {
"language": "Japanese",
"no_repeat_ngram_size": 0,
"repetition_penalty": 1.0,
}
pipe = pipeline(
"automatic-speech-recognition",
model="litagin/anime-whisper",
device="cuda",
torch_dtype=torch.float16,
chunk_length_s=30.0,
batch_size=64,
)
audio_path = "test.wav"
result = pipe(audio_path, generate_kwargs=generate_kwargs)
print(result["text"])
高级用法
- 若要对多个文件进行一次性推理,只需将文件路径列表传递给
pipe
即可。 - 若重复幻觉现象较为明显,可以将上述的
no_repeat_ngram_size: int
设置为 5 - 10 左右,或者将repetition_penalty
设置为大于 1 的值,以抑制该现象。
# 多个文件推理示例
audio_paths = ["test1.wav", "test2.wav", "test3.wav"]
results = pipe(audio_paths, generate_kwargs=generate_kwargs)
for result in results:
print(result["text"])
# 抑制重复幻觉示例
generate_kwargs = {
"language": "Japanese",
"no_repeat_ngram_size": 5,
"repetition_penalty": 1.2,
}
result = pipe(audio_path, generate_kwargs=generate_kwargs)
print(result["text"])
✨ 主要特性
- 低幻觉率:相比其他模型,Anime Whisper 在语音识别过程中产生的幻觉较少,输出结果更加准确可靠。
- 忠实记录非语言表达:能够忠实地转录其他模型容易跳过的语气词、笑声、叫声和呼吸声等非语言表达,使转录结果更加完整。
- 标点使用恰当:能够根据语音的节奏和情感,恰当地添加「。、!?…」等标点符号,输出自然流畅、符合语境的台词文本。
- 动漫风格语音识别精度高:尤其擅长处理动漫风格的演技台词,在该领域具有较高的识别精度。
- 轻量级与高效性:基于 kotoba-whisper(whisper-large-v3 的蒸馏模型)构建,模型轻量且运行速度快。
- NSFW 语音识别能力:能够以规范的文体转录其他模型几乎无法处理的 NSFW 语音。
📦 安装指南
文档未提及安装步骤,故跳过此章节。
💻 使用示例
基础用法
import torch
from transformers import pipeline
generate_kwargs = {
"language": "Japanese",
"no_repeat_ngram_size": 0,
"repetition_penalty": 1.0,
}
pipe = pipeline(
"automatic-speech-recognition",
model="litagin/anime-whisper",
device="cuda",
torch_dtype=torch.float16,
chunk_length_s=30.0,
batch_size=64,
)
audio_path = "test.wav"
result = pipe(audio_path, generate_kwargs=generate_kwargs)
print(result["text"])
高级用法
- 多个文件推理:
audio_paths = ["audio1.wav", "audio2.wav", "audio3.wav"]
results = pipe(audio_paths, generate_kwargs=generate_kwargs)
for res in results:
print(res["text"])
- 抑制重复幻觉:
generate_kwargs = {
"language": "Japanese",
"no_repeat_ngram_size": 7,
"repetition_penalty": 1.3
}
result = pipe(audio_path, generate_kwargs=generate_kwargs)
print(result["text"])
📚 详细文档
评估 📊
详细的评估与观察报告以及评估代码将在GitHub 仓库公开。
CER (Character Error Rate, 字符错误率)
- 评估数据:使用「与训练数据属于相同动漫风格台词领域,但未包含在训练数据中的个人拥有的 5 部文字冒险游戏(总计约 75k 个文件)」进行评估。
- 生成参数:为抑制 OpenAI 的 Whisper 系列模型的重复幻觉,使用
no_repeat_ngram_size=5
参数进行生成。 - CER 计算:CER 是对经过适当归一化处理后的结果进行计算得出的。
表格
模型名称 | game1 | game2 | game3 | game4 | game5 | 平均值 |
---|---|---|---|---|---|---|
openai/whisper-large | 15.11 | 20.24 | 14.89 | 17.95 | 19.37 | 17.5 |
openai/whisper-large-v2 | 15.11 | 20.12 | 14.83 | 17.65 | 18.59 | 17.3 |
openai/whisper-large-v3 | 14.60 | 18.66 | 14.43 | 17.29 | 17.74 | 16.5 |
openai/whisper-large-v3-turbo | 15.18 | 19.24 | 14.43 | 17.38 | 18.15 | 16.9 |
reazon-research/reazonspeech-nemo-v2 | 23.92 | 25.08 | 20.29 | 25.91 | 22.71 | 23.6 |
nvidia/parakeet-tdt_ctc-0.6b-ja | 17.67 | 20.44 | 15.33 | 19.60 | 19.86 | 18.6 |
kotoba-tech/kotoba-whisper-v1.0 | 16.62 | 21.54 | 16.42 | 19.83 | 20.01 | 18.9 |
kotoba-tech/kotoba-whisper-v2.0 | 16.38 | 21.51 | 16.51 | 19.69 | 20.04 | 18.8 |
Anime Whisper | 11.32 | 16.52 | 11.16 | 12.78 | 13.23 | 13.0 |
偏差等 🚨
- 专有名词转录:当人名等专有名词存在于训练数据的视觉小说中时,通常会以该游戏内的汉字形式进行转录。
- 特定单词转录:数据集中的部分特定单词可能会出现与常规不同的转录形式(例如:
からだ
→身体
等,以及其他专有名词)。 - 输出规范:由于数据集的归一化处理,以下情况在输出结果中几乎不会出现:
- 元音或长音符的连续:
ああああーーーー
- 相同感叹号的连续:
こらーっ!!!!
なにそれ!?!?!?!?
- 省略号的连续:
……
(日语书写中使用 2 个……
是正确的,但输出结果几乎总是只使用 1 个…
)
- 元音或长音符的连续:
- 字符格式:数字、字母和感叹号将以半角形式进行转录。
- 句末标点:句末的「。」几乎总是会被省略。
- 低俗用语处理:部分低俗用语的转录可能会包含伏字「○」。
示例 👀
以下是与上述评估相同的、未包含在训练数据中的文字冒险游戏台词的转录对比(同样使用 no_repeat_ngram_size=5
进行生成)。
结果显示,Anime Whisper 大致能达到与 whisper-large-v3 相当的良好性能。以下仅摘录了一些与其他模型差异显著的示例(特别是非语言表达或情感丰富的语音)。
正确文本 | Anime Whisper | whisper-large-v3 | kotoba-whisper-v2.0 | reazonspeech-nemo |
---|---|---|---|---|
あわわわっ!わわわわっ! | はわわっ、わわわわっ…! | ああああああああああ | うわうわ | うわ! |
そっ、そっか……。………。……そうなんだ。 | そっ…そっか…そうなんだ… | そっか…そうなんだ… | そっか…そうなんだ | そっそっかあっそうなんだ。 |
たぶん、ぼくが勝つ、はず | たぶん、ボクが勝つ、はず | 多分、僕が勝つはず。 | 多分僕が勝つはず | 僕が勝つはず。 |
げ、げほっ……なんだこいつ! | げほっ、げほっ…なんだ、こいつ… | なんだ、こいつ… | なんだこいつ | フッ何だこいつ。 |
はっ、はい。そうです。……その、えっと。へっ、変だったでしょうか? | は、はい、そうです…その、えと…へ、変だったでしょうか…? | あ、はい、そうです。そ、えっと、へ、変だったでしょうか。 | はいそうですそういと変だったでしょうか | あっはいそうですうすえっとへ変だったでしょうか? |
ぶぶぶぶ豚クソがァァァ!待てコルァァァ! | ぶぶぶぶぶ、ぶたくそがー!待てごらぁぁ! | 待てこらー | 待てこそか | 待てこら! |
地面が揺れるとかありえ……ぎゃっ! | 地面が揺れるとかありえ…ひゃっ!? | 地面が揺れるとかありえ? | 地面が揺れるとかありえ | やっ! |
きゃっほう!い、いたっ、いただきまーす! | きゃっほう!い、いた、いただきまーす! | キャッホー!い、いただきます! | キャホー!いただきます! | いいたいただきます! |
……っ、はぁ……わ、わたし、今日は…… | んっ、はぁ…わ、私、今日は… | 私、今日は… | 私今日は | えっと私今日。 |
……ぷふっ、ンッ。かっ、かっ、かっ……ぷふっ。かっ。んふふっ。かっ、価値観 | うふふっ…か、かはっ…ぷっ…はぁっ…か、価値観っ… | 価値観! | 価値観 | ハッかちかん! |
か、痒くもねぇ……こんなんんん……! | か、痒くもねえ…こんな、んんっ…! | か、回復もねぇ、こんな、うぬぅ | かかゆくもねえこんな | かゆくもねえこんなうう。 |
ひゃっ!や、やだ、くすぐった……や、やっ、あは、あははっ | ひゃうっ!やっ、やだっ…くすぐったっ…やっ、やっ、はんっ、あははっ! | やだ!すぐだ! | やだ | やっほ! |
ふえぇ、急に止まらないでよう…… | ふえぇ、急に止まらないでよぉ | おへぇ、急に止まらないでよ | おへえ急に止まらないでよ | 急に止まらないでよ。 |
ごごご50キロもないです私ー! | ごごご50キロもないです私ー! | 50キロもないです私! | 550キロもないです私 | 50キロもないですわたし! |
いいい、すびばぜん、すびばぜーんっ | いいずびばぜんずびばぜーん! | いいいい! ズビバル10! ズビブル10! | いいズビバーテン! | すみませんすみません。 |
間抜けか貴様ァァァ! | 間抜けか貴様ぁぁっ! | マヌケカキ様! | まぬけかきさま | 抜けか貴様! |
ぷ、くく……ひっ、ひいっ…… | くっ…くくくっ…ぷっ…くくっ… | ご視聴ありがとうございました | フッ | フフフフ。フフフフフ。 |
キミは……。あっ、はっ……。最初から……あんっ、あっ、容赦がないな | 君はぁ…はぁっ、はぁっ…最初から…あんっ、あっ、容赦がないなぁ… | 君は……最初から容赦がないな | 君は最初からあんあ容赦がないな | 君は最初からうっうん容赦がないなあ。 |
望んでるわけ……。のっ、のっ、のっ……望んでるんです。世界が終わればいいって……強く、強くっ。はぁっ、はぁっ | 望んでるわけ…の、の、の…望んでるんです…世界が終わればいいって、強く、強く…はぁっ | 望んでるわけ…望んでるんです…世界が終わればいいって…強く…強く… | 望んでるわけ…ののぞんでるんです世界が終わればいいって強く強く | ん?望んでるんです。世界が終わればいいって強く強く。 |
NSFW 示例 🫣
由于包含成人内容,请谨慎浏览。
喘息声
正确文本 | Anime Whisper | whisper-large-v3 | kotoba-whisper-v2.0 | reazonspeech-nemo |
---|---|---|---|---|
ひっ、あっ!あぅっ、ああぁぁあぁぁぁぁぁっ!はっ、はっ、はっ、はっ、ひぁっ! | んぁっ、あっ、あっ、ああぁぁっ!あっ、はぁっ、はぁっ…んっ、ふぁああっ! | ご視聴ありがとうございました | アハハハ | うわ! |
ち、ちがっ……んっ、あぁぁ……気持ちいい、わけが……あぁっ、やぁっ、待てと……んんっ、はぁ……あふぅっ…… | ち、ちがっ…はぁっ、はぁっ、気持ちいい、わけがっ…あっ、やぁっ、待てとっ…んくっ、はぁ、はぁっ… | ち、ちが…気持ちいいわけが…待てと… | ちちが気持ちいいわけが待てと | ち違うはあ気持ちいいわけが待てとあっ。 |
あんっ!あっ、あっ……そっ、それ……あっ、はぁはぁはぁ。ンンンンッ!ぴっ、ぴりぴり、ってして……。あんっ!はぁはぁはぁ、きっ、きもち……いいです! | ふぁんっ!あっ、あぁっ!そっ、それっ…あっ、はぁっ、はぁっ…んんっ!ぴ、ぴりぴりって、して…ひぁっ!はっ、はぁ、はぁっ…!き、気持ち、いいですっ…! | それ…フィリフィリでした…気持ちいいです… | それフィリフィリフリでした | けきもしいいです! |
その調子って……んんっ、こんなの、あぁっ、んっあぁん……んんっ、しょっ……あぁっ……だめ……んっ、あぁっ…… | その調子って…んんっ、こんなの…はぁっ、んんっ…んっ、しょっ…はぁっ…ダメ…んっ、あっ… | その調子って…こんなの…ダメ… | その調子ってこんなの | その調子ってううんこんなのダメうん |
はぁっ、あっ……んっ……くぅ、あぁっ……やぁ……それは、ん、はぁ……だめ、だ……あっ、んんっ、ふ……ひぃうっ!やめっ……ま、待ってくれ……あぁん……! | はぁっ、あっ、くぅぅっ…あっ、やっ、それはっ…はぁっ、ダメだっ…んんっ…ひぅぅんっ!やめっ…ま、待ってくれっ…あぁぁっ! | それは、ダメだ、やめ、待ってくれ | それはそれはダメだやめやめまってくれ | やめま待ってくれうう。 |
あは、はっ……んっ、くうっ……なん、だろこれ……気持ちいい、かも……んっ、あ、ああっ、はあっ、ふあぁ……やっ、くぅん | はぁっ、はぁっ、んっ…くぅっ…なん、だろこれ…気持ちいい、かも…んんっ、あっ、ああっ…ふぁぁっ、はやっ…んんっ… | あ、あ、あ、んっ、う、なんだろこれ、気持ちいいかも、あ、あ,あ、あ、う、うんっ | なんだろうこれ気持ちいいくも | うっなんだろうこれ。はあ気持ちいいかも。うわ!ううん。 |
だめ、センパイ……そんなにおち○ちん挿れたら、だめだぁっ……あっ、あぁぁぁっ……! | だめ、先輩…んっ、そんなに、おち○ちん挿れたら、だめ…はぁ、あぁぁ…っ | ダメ、先輩…そんなに陥れたらダメ… | ダメ先輩そんなに落ち入れたらダメな | ダメ先輩そんなに気入れたらダメだ。 |
やぁぁっ、こ、こらっ、おち○ちん、そんなに、びくびくさせないのっ……あぁっ、ひぃあぁぁっ……はぁっ、あぁっ、あぁぁぁんっ!! | ひゃんっ!こ、こらっ、おち○ちん、そんなにビクビクさせないのっ!ひぁっ、あっ、はぁっ、はぁっ! | いや、こ、こら、おじっちそんなにビクビクさせないの?いや、なにやろ | ここらじっちそんなにビクビクさせないの | もう全然そんなにビクビクさせないのうん! |
やっ……あっ。……お兄ちゃんの舌が、あっ、中で、やあっ。……そんなりぐりぐりしちゃ、あっ、ふあっ。うくぅぅっ、ああっ、やあっ。 | やっ、あっ、お兄ちゃんの舌が、中で…やぁっ、そんなにぐりぐりしちゃ…あっ、あっ、んっ、ふあぁっ、やぁぁっ…! | にゃー!お兄ちゃんの舌がお腹で…にゃー!そんなにグリグリした…にゃー!! | お兄ちゃんの下がお腹でニャーそんなにグリグリした | お兄ちゃんの舌がおなかでよそんなにグイグイさあぐっにゃん! |
はっ、激しく……して。ンッ。あっ!はあっ、はあっ……わっ、私を……一気に……ンッ。イッ、イかせちゃってくださいッ! | は、激しく、して…んっ、あぅっ…私を、一気に…い、イかせちゃってください…! | あ、ゲンシ君、ステッ、アッ、アッ…私を一気に、行かせてあげください! | あげんしくして私は一気に行かせてください | 激しく私も一輝行かせちゃってください! |
吮吸声
正确文本 | Anime Whisper | whisper-large-v3 | kotoba-whisper-v2.0 | reazonspeech-nemo |
---|---|---|---|---|
れろっ、んっ……れろ、ちゅ、んちゅ | れろっ、れろっ、ちゅううっ | ううううう | わいしゅう | シュッ! |
はっ、はい!んっ、れろっ、れろっ……あっ、れろっ | は、はい…っ、れろぉ…っ、れりゅっ、れりょっ… | わ、はぁい、わ、う、う、わ、へ、へ、へ | わあはい | はい。 |
れろっ、れろ……むふふ、ここの線なぞると反応いいね、んちゅ、ちゅうっ……ここいい?どう? | れろれろれろっ…んっ、ふふっ、ここの線なぞると反応いいね…ちゅっ、ちゅっ…ここいい?どう? | ここの線なぞると反応いいねここいい?どう? | ここの線なぞると反応いいねうんふうに | へへへここの線なぞると反応いいねここいい?どう? |
あぁむ……ちゅ……れぇろれろ……ん……ん……ちゅ……れぇろ……んん……ちゅぅ……ちゅぱっ……れぇろれろ…… | あむちゅっ…れろれろっ…んちゅっ、れろっ…ちゅぱちゅぷっ…れろぉっ… | アムー… | あん | おへん。 |
んちゅっ……れろれろ……れぇろ、ちゅっ、んれぇろれろ……ちゅっ、ちゅぱっ…… | んちゅっ、れろれろっ、ちゅぱちゅぅっ…れろれろ、ちゅっ…ちゅぷっ… | お疲れ様でした | おくぬかんぱい | う。 |
ん……イク……ちゅるぅ……イッちゃう……ん……あぁっ、ちゅるるっ、イク……もう……らめぇ……んあぁむ……イク……イクぅぅ…… | もう、イクっ…イッちゃう…んっ、んっ、じゅるるっ、イクっ、らめっ…んぁっ、イクッ、イクッ! | おーまいごーおまいごーまいごやめまいごよこー | お前 | ママペイ君! |
れぇろ…………んちゅ……れろれろ……ん……ちゅ……れろれろ……んれぇろれろ……ちゅ…… | れろぉ…んちゅ、れろれろ…ちゅぱ…れろ、れろれちゅ… | エル…ラ…ル…ア…エル…ル…ツ…ン…エ…エル…ツ…ル…ア...エル…ル...プ… | えぇぇ | |
はぷっ、ちゅぷ、んん……はやく、おっきくして……ちんぽ……れろっ、ちゅ、ぴちゅ、ちゅぱっ……はやく勃起ちんぽちょうだい、勃起ちんぽ私にちょうだい | じゅぷっ、じゅぼっ!早くおっきくしてっ、ちんぽっ!んじゅるるるるるっ!はやくっ、はやく勃起ちんぽちょうらいっ、勃起ち○ぽあたしにちょうだいっ! | 早く起きこして!チンポン!早く、早くポッキチンポンちょうだい! ポッキチンパン私にちょうだい!! | 早く大きくしてチンポン早くポッキ全部全部私にちょうだい | 早くおっきい子して。チープ!ん?早く早くボケ全部ちょうだい。ボケ全部私にちょうだい! |
そっ、それじゃ……。あっ、はっ……がっ、がんばるぞ。ンッ!ああああっ!あっ、わっ、ボクも……んちっ、んむっ、んむっ、んんっ、むむっ。 | そ、それじゃあ…はぁ、はぁ、が、頑張るぞ…んっ、あっ、あっ、も、ボクも…れろ、ちゅ、ちゅぱ、ちゅるるっ | それじゃあ、頑張るぞ! | それじゃあ頑張るぞ | そそれじゃあううがんばるぞ。 |
はむ、ちゅ、んんっ、れる……。んむっ、ふーっ、ふーっ。ここなんへ、ろうかひら?ちゅっ……じゅっ。……じゅるる。んっ、。 | はむ…ちゅ、んんっ…ん、はむ…ここなんへ、どうかしら…ちゅっ、ちゅるるっ… | ここな…廊下平… | ここな廊下平 | ん。ん?ここな?どうかしら。んっ。 |
学习步骤 📚
详细的学习步骤、超参数和学习代码将在GitHub上公开。
- 数据划分:将全部数据中的最后一个 tar 文件留作测试数据,使用其余 3,735,363 个文件进行训练。
- 模型训练:
- 首先,从基础模型开始,冻结编码器(Encoder),仅对解码器(Decoder)进行几个 epoch 的训练。
- 然后,解除编码器的冻结,对整个模型进行几个 epoch 的训练。
- 模型优化:训练停止后,尝试通过「取某个时间点到另一个时间点之间的模型平均值(合并)」的操作来提高性能。使用 Optuna 对基准数据的 CER 进行优化,并将优化结果作为最终模型。
环境 🖥
- 硬件资源:自掏腰包在 vast.ai 上租用了 H100 NVL(VRAM 96GB),经过近 3 周的反复试验进行训练(最初使用 whisper-large-v3-turbo 作为基础模型,因此训练时间包含了这部分尝试)。
- 实际训练时间:该模型实际使用的训练时间约为 H100 NVL * 11.2 天(不过,后半段训练可能由于过拟合导致在测试数据上的性能不佳,因此最终合并时未使用这部分模型)。
🔧 技术细节
文档未提及技术实现细节,故跳过此章节。
📄 许可证
本项目采用 MIT 许可证。
Voice Activity Detection
MIT
基于pyannote.audio 2.1版本的语音活动检测模型,用于识别音频中的语音活动时间段
语音识别
V
pyannote
7.7M
181
Wav2vec2 Large Xlsr 53 Portuguese
Apache-2.0
这是一个针对葡萄牙语语音识别任务微调的XLSR-53大模型,基于Common Voice 6.1数据集训练,支持葡萄牙语语音转文本。
语音识别 其他
W
jonatasgrosman
4.9M
32
Whisper Large V3
Apache-2.0
Whisper是由OpenAI提出的先进自动语音识别(ASR)和语音翻译模型,在超过500万小时的标注数据上训练,具有强大的跨数据集和跨领域泛化能力。
语音识别 支持多种语言
W
openai
4.6M
4,321
Whisper Large V3 Turbo
MIT
Whisper是由OpenAI开发的最先进的自动语音识别(ASR)和语音翻译模型,经过超过500万小时标记数据的训练,在零样本设置下展现出强大的泛化能力。
语音识别
Transformers 支持多种语言

W
openai
4.0M
2,317
Wav2vec2 Large Xlsr 53 Russian
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53模型微调的俄语语音识别模型,支持16kHz采样率的语音输入
语音识别 其他
W
jonatasgrosman
3.9M
54
Wav2vec2 Large Xlsr 53 Chinese Zh Cn
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53模型微调的中文语音识别模型,支持16kHz采样率的语音输入。
语音识别 中文
W
jonatasgrosman
3.8M
110
Wav2vec2 Large Xlsr 53 Dutch
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53微调的荷兰语语音识别模型,在Common Voice和CSS10数据集上训练,支持16kHz音频输入。
语音识别 其他
W
jonatasgrosman
3.0M
12
Wav2vec2 Large Xlsr 53 Japanese
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53模型微调的日语语音识别模型,支持16kHz采样率的语音输入
语音识别 日语
W
jonatasgrosman
2.9M
33
Mms 300m 1130 Forced Aligner
基于Hugging Face预训练模型的文本与音频强制对齐工具,支持多种语言,内存效率高
语音识别
Transformers 支持多种语言

M
MahmoudAshraf
2.5M
50
Wav2vec2 Large Xlsr 53 Arabic
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53微调的阿拉伯语语音识别模型,在Common Voice和阿拉伯语语音语料库上训练
语音识别 阿拉伯语
W
jonatasgrosman
2.3M
37
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98