# 即時語音處理

Ultravox V0 5 Llama 3 2 1b
MIT
基於meta-llama/Llama-3.2-1B-Instruct權重預加載的多語言文本轉文本模型
大型語言模型 Transformers 支持多種語言
U
FriendliAI
211
0
Lite Whisper Large V3 Acc
Apache-2.0
Lite-Whisper 是 OpenAI Whisper 的壓縮版本,採用 LiteASR 技術,在保持高準確率的同時減小模型大小。
語音識別 Transformers
L
efficient-speech
57
3
Ultravox V0 5 Llama 3 2 1b ONNX
MIT
Ultravox是一個多語言音頻轉文本模型,基於LLaMA-3-2.1B架構優化,支持多種語言的語音識別和轉錄任務。
音頻生成文本 Transformers 支持多種語言
U
onnx-community
1,088
3
Ultravox V0 5 Llama 3 2 1b
MIT
Ultravox是一個基於Llama3.2-1B和Whisper-large-v3構建的多模態語音大語言模型,能夠同時處理語音和文本輸入。
文本生成音頻 Transformers 支持多種語言
U
fixie-ai
167.25k
21
Segmentation 3.0
MIT
這是一個用於音頻分割的模型,能夠檢測說話人變化、語音活動及重疊語音,適用於多說話人場景的音頻分析。
說話人處理
S
fatymatariq
1,228
0
Uzbek Stt 3
Apache-2.0
基於Oyqiz/uzbek_stt微調的烏茲別克語語音識別模型,特別針對法律和軍事領域數據進行了優化
語音識別 Transformers 其他
U
sarahai
157
3
Segmentation 3.0
MIT
這是一個基於pyannote.audio的說話人分割模型,能檢測語音活動、說話人變更和重疊語音。
說話人處理
S
tensorlake
387
1
Speaker Diarization 3.0
MIT
基於pyannote.audio 3.0.0訓練的說話人分割管道,支持自動語音活動檢測、說話人變化檢測和重疊語音檢測
說話人處理
S
pyannote
463.91k
186
Wav2vec Fine Tuned Speech Command2
Apache-2.0
基於facebook/wav2vec2-base在speech_commands數據集上微調的語音識別模型,準確率達97.35%
音頻分類 Transformers
W
Thamer
16
0
Speechcommand Demo
Apache-2.0
基於facebook/wav2vec2-base微調的語音命令分類模型,在superb數據集上訓練,準確率達98.09%
音頻分類 Transformers
S
SHENMU007
18
0
Phil Pyannote Speaker Diarization Endpoint
MIT
基於pyannote.audio 2.0版本的說話人分割模型,用於自動檢測和分割音頻中的不同說話人。
說話人處理
P
tawkit
215
7
Metricgan Plus Voicebank
Apache-2.0
這是一個使用MetricGAN+方法訓練的語音增強模型,能夠有效提升語音質量。
音頻增強 英語
M
speechbrain
55.91k
65
S2t Small Mustc En Nl St
MIT
基於S2T架構的端到端語音翻譯模型,專為英語到荷蘭語的語音翻譯任務設計
語音識別 Transformers 支持多種語言
S
facebook
20
0
S2t Small Mustc En Es St
MIT
一個用於端到端英語到西班牙語語音翻譯的語音到文本轉換器模型
語音識別 Transformers 支持多種語言
S
facebook
20
0
Wav2vec2 Large Xlsr 53 Greek
Apache-2.0
這是一個基於XLSR-Wav2Vec2架構的希臘語自動語音識別模型,由希臘軍事學院和克里特技術大學開發。
語音識別 其他
W
lighteternal
443
8
Sepformer Wham Enhancement
Apache-2.0
使用SepFormer模型進行語音增強(去噪)的工具集,在WHAM!數據集(8kHz採樣頻率版本)上預訓練,實現環境噪聲和混響的去除。
音頻增強 英語
S
speechbrain
827
23
Sepformer Whamr Enhancement
Apache-2.0
該模型通過SepFormer架構實現語音增強(去噪+去混響),在WHAMR!數據集(8kHz)上預訓練,測試集SI-SNR達10.59dB。
音頻增強 英語
S
speechbrain
570
11
Convtasnet Libri3Mix Sepnoisy 8k
基於Asteroid框架訓練的ConvTasNet模型,用於從混合音頻中分離出3個獨立音源,特別針對8kHz採樣率的含噪聲語音數據優化。
聲音分離
C
JorisCos
33
2
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase