即時語音處理

# 即時語音處理

Ultravox V0 5 Llama 3 2 1b

基於meta-llama/Llama-3.2-1B-Instruct權重預加載的多語言文本轉文本模型

大型語言模型

Transformers 支持多種語言

Lite Whisper Large V3 Acc

Lite-Whisper 是 OpenAI Whisper 的壓縮版本，採用 LiteASR 技術，在保持高準確率的同時減小模型大小。

efficient-speech

Ultravox V0 5 Llama 3 2 1b ONNX

Ultravox是一個多語言音頻轉文本模型，基於LLaMA-3-2.1B架構優化，支持多種語言的語音識別和轉錄任務。

音頻生成文本

Transformers 支持多種語言

Ultravox V0 5 Llama 3 2 1b

Ultravox是一個基於Llama3.2-1B和Whisper-large-v3構建的多模態語音大語言模型，能夠同時處理語音和文本輸入。

文本生成音頻

Transformers 支持多種語言

Segmentation 3.0

這是一個用於音頻分割的模型，能夠檢測說話人變化、語音活動及重疊語音，適用於多說話人場景的音頻分析。

說話人處理

基於Oyqiz/uzbek_stt微調的烏茲別克語語音識別模型，特別針對法律和軍事領域數據進行了優化

Transformers 其他

Segmentation 3.0

這是一個基於pyannote.audio的說話人分割模型，能檢測語音活動、說話人變更和重疊語音。

說話人處理

Speaker Diarization 3.0

基於pyannote.audio 3.0.0訓練的說話人分割管道，支持自動語音活動檢測、說話人變化檢測和重疊語音檢測

說話人處理

Wav2vec Fine Tuned Speech Command2

基於facebook/wav2vec2-base在speech_commands數據集上微調的語音識別模型，準確率達97.35%

Speechcommand Demo

基於facebook/wav2vec2-base微調的語音命令分類模型，在superb數據集上訓練，準確率達98.09%

Phil Pyannote Speaker Diarization Endpoint

基於pyannote.audio 2.0版本的說話人分割模型，用於自動檢測和分割音頻中的不同說話人。

說話人處理

Metricgan Plus Voicebank

這是一個使用MetricGAN+方法訓練的語音增強模型，能夠有效提升語音質量。

音頻增強英語

S2t Small Mustc En Nl St

基於S2T架構的端到端語音翻譯模型，專為英語到荷蘭語的語音翻譯任務設計

Transformers 支持多種語言

S2t Small Mustc En Es St

一個用於端到端英語到西班牙語語音翻譯的語音到文本轉換器模型

Transformers 支持多種語言

Wav2vec2 Large Xlsr 53 Greek

這是一個基於XLSR-Wav2Vec2架構的希臘語自動語音識別模型，由希臘軍事學院和克里特技術大學開發。

語音識別其他

Sepformer Wham Enhancement

使用SepFormer模型進行語音增強（去噪）的工具集，在WHAM!數據集（8kHz採樣頻率版本）上預訓練，實現環境噪聲和混響的去除。

音頻增強英語

Sepformer Whamr Enhancement

該模型通過SepFormer架構實現語音增強（去噪+去混響），在WHAMR!數據集（8kHz）上預訓練，測試集SI-SNR達10.59dB。

音頻增強英語

Convtasnet Libri3Mix Sepnoisy 8k

基於Asteroid框架訓練的ConvTasNet模型，用於從混合音頻中分離出3個獨立音源，特別針對8kHz採樣率的含噪聲語音數據優化。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase