# 实时语音处理

Ultravox V0 5 Llama 3 2 1b
MIT
基于meta-llama/Llama-3.2-1B-Instruct权重预加载的多语言文本转文本模型
大型语言模型 Transformers 支持多种语言
U
FriendliAI
211
0
Lite Whisper Large V3 Acc
Apache-2.0
Lite-Whisper 是 OpenAI Whisper 的压缩版本,采用 LiteASR 技术,在保持高准确率的同时减小模型大小。
语音识别 Transformers
L
efficient-speech
57
3
Ultravox V0 5 Llama 3 2 1b ONNX
MIT
Ultravox是一个多语言音频转文本模型,基于LLaMA-3-2.1B架构优化,支持多种语言的语音识别和转录任务。
音频生成文本 Transformers 支持多种语言
U
onnx-community
1,088
3
Ultravox V0 5 Llama 3 2 1b
MIT
Ultravox是一个基于Llama3.2-1B和Whisper-large-v3构建的多模态语音大语言模型,能够同时处理语音和文本输入。
文本生成音频 Transformers 支持多种语言
U
fixie-ai
167.25k
21
Segmentation 3.0
MIT
这是一个用于音频分割的模型,能够检测说话人变化、语音活动及重叠语音,适用于多说话人场景的音频分析。
说话人处理
S
fatymatariq
1,228
0
Uzbek Stt 3
Apache-2.0
基于Oyqiz/uzbek_stt微调的乌兹别克语语音识别模型,特别针对法律和军事领域数据进行了优化
语音识别 Transformers 其他
U
sarahai
157
3
Segmentation 3.0
MIT
这是一个基于pyannote.audio的说话人分割模型,能检测语音活动、说话人变更和重叠语音。
说话人处理
S
tensorlake
387
1
Speaker Diarization 3.0
MIT
基于pyannote.audio 3.0.0训练的说话人分割管道,支持自动语音活动检测、说话人变化检测和重叠语音检测
说话人处理
S
pyannote
463.91k
186
Wav2vec Fine Tuned Speech Command2
Apache-2.0
基于facebook/wav2vec2-base在speech_commands数据集上微调的语音识别模型,准确率达97.35%
音频分类 Transformers
W
Thamer
16
0
Speechcommand Demo
Apache-2.0
基于facebook/wav2vec2-base微调的语音命令分类模型,在superb数据集上训练,准确率达98.09%
音频分类 Transformers
S
SHENMU007
18
0
Phil Pyannote Speaker Diarization Endpoint
MIT
基于pyannote.audio 2.0版本的说话人分割模型,用于自动检测和分割音频中的不同说话人。
说话人处理
P
tawkit
215
7
S2t Small Mustc En Es St
MIT
一个用于端到端英语到西班牙语语音翻译的语音到文本转换器模型
语音识别 Transformers 支持多种语言
S
facebook
20
0
Metricgan Plus Voicebank
Apache-2.0
这是一个使用MetricGAN+方法训练的语音增强模型,能够有效提升语音质量。
音频增强 英语
M
speechbrain
55.91k
65
S2t Small Mustc En Nl St
MIT
基于S2T架构的端到端语音翻译模型,专为英语到荷兰语的语音翻译任务设计
语音识别 Transformers 支持多种语言
S
facebook
20
0
Wav2vec2 Large Xlsr 53 Greek
Apache-2.0
这是一个基于XLSR-Wav2Vec2架构的希腊语自动语音识别模型,由希腊军事学院和克里特技术大学开发。
语音识别 其他
W
lighteternal
443
8
Sepformer Whamr Enhancement
Apache-2.0
该模型通过SepFormer架构实现语音增强(去噪+去混响),在WHAMR!数据集(8kHz)上预训练,测试集SI-SNR达10.59dB。
音频增强 英语
S
speechbrain
570
11
Sepformer Wham Enhancement
Apache-2.0
使用SepFormer模型进行语音增强(去噪)的工具集,在WHAM!数据集(8kHz采样频率版本)上预训练,实现环境噪声和混响的去除。
音频增强 英语
S
speechbrain
827
23
Convtasnet Libri3Mix Sepnoisy 8k
基于Asteroid框架训练的ConvTasNet模型,用于从混合音频中分离出3个独立音源,特别针对8kHz采样率的含噪声语音数据优化。
声音分离
C
JorisCos
33
2
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase