# 端到端模型

Yolov10s
YOLOv10是清華大學提出的即時端到端目標檢測模型,在速度和精度上均有顯著提升。
目標檢測 Safetensors
Y
jameslahm
907
5
Paraformer Large
Apache-2.0
Paraformer 是一種創新的非自迴歸端到端語音識別模型,相比傳統自迴歸模型具有顯著優勢,能夠並行生成整句目標文本,特別適合利用GPU進行並行推理。
語音識別 中文
P
funasr
43
45
Nick Asr LID
基於未知數據集訓練的自動語音識別模型,支持語言識別任務
語音識別 Transformers
N
ntoldalagi
28
0
Overlapped Speech Detection
MIT
一個用於檢測音頻中重疊語音的預訓練模型,能夠識別兩個或更多說話人同時活躍的時間段。
說話人處理
O
pyannote
144.68k
35
S2t Medium Mustc Multilingual St
MIT
基於Transformer的端到端多語言語音翻譯模型,支持英語到多種語言的語音翻譯
語音識別 Transformers 支持多種語言
S
facebook
7,322
6
Segmentation
MIT
一個用於語音活動檢測、重疊語音檢測和說話人分割的音頻處理模型
說話人處理
S
pyannote
9.2M
579
Kan Bayashi Ljspeech Tacotron2
基於ESPnet框架訓練的Tacotron2文本轉語音模型,使用LJSpeech數據集
語音合成 英語
K
espnet
40
3
Speaker Segmentation
MIT
基於pyannote.audio的說話人分割模型,用於檢測音頻中的說話人變化和語音活動
說話人處理
S
pyannote
182
33
Kan Bayashi Csj Asr Train Asr Transformer Raw Char Sp Valid.acc.ave
這是一個基於ESPnet框架訓練的日語自動語音識別(ASR)模型,使用CSJ數據集訓練,採用Transformer架構。
語音識別 日語
K
espnet
13
0
Voice Activity Detection
MIT
基於pyannote.audio 2.1版本的語音活動檢測模型,用於識別音頻中的語音活動時間段
語音識別
V
pyannote
7.7M
181
S2t Small Covost2 Fr En St
MIT
一個基於Transformer的端到端語音翻譯模型,專為法語到英語的語音翻譯任務設計
語音識別 Transformers 支持多種語言
S
facebook
18
0
Kan Bayashi Csmsc Vits
這是一個基於ESPnet2框架訓練的文本轉語音(TTS)模型,使用VITS架構,支持中文普通話。
語音合成 中文
K
espnet
37
0
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase