即時音頻處理

# 即時音頻處理

Pyannote Segmentation

這是一個基於冪集編碼的說話人分割模型，能夠處理10秒音頻片段並識別多個說話人及其重疊情況。

說話人處理

Speaker Diarization 2.5

基於pyannote/speaker-diarization-3.0修改的說話人分割模型，使用speechbrain/spkrec-ecapa-voxceleb進行說話人嵌入，在某些測試中表現更優

說話人處理

Whisper Large V3 Turbo Russian

基於OpenAI Whisper Large V3 Turbo優化的俄語自動語音識別(ASR)模型，使用Mozilla Common Voice 17俄語數據集微調

Transformers 其他

Distilhubert Finetuned Gtzan

基於DistilHuBERT在GTZAN音樂分類數據集上微調的音頻分類模型，準確率達83%

Voice Gender Classifier

基於ECAPA-TDNN架構的預訓練模型，用於從人類語音中分類性別

Whisper Large V3 Gguf

Whisper 是一個多語言自動語音識別（ASR）系統，支持多種語言的語音轉文本任務。

語音識別支持多種語言

Faster Whisper Large V3 Ja

基於OpenAI Whisper large-v3的日語優化版本，支持多語言語音識別

語音識別支持多種語言

Pyannote Segmentation 30

這是一個用於音頻處理的說話人分割模型，能夠檢測語音活動、重疊語音和多個說話人。

說話人處理

Faster Whisper Large V3

Whisper large-v3是OpenAI開發的大規模多語言自動語音識別(ASR)模型，支持多種語言的語音轉文字任務。

語音識別支持多種語言

Speaker Diarization 3.1

一個用於說話人分割的音頻處理模型，能夠自動檢測和分割音頻中的不同說話人。

說話人處理

Segmentation 3.0

這是一個基於冪集編碼的說話人分割模型，能夠處理10秒音頻片段並識別多個說話人及其重疊語音。

說話人處理

Sonic48k 是一個基於 RVC (Retrieval-based Voice Conversion) 技術的音頻轉音頻模型，主要用於語音轉換任務。

Saitamarvcv2 E520 S7800

這是一個RVC（Retrieval-Based Voice Conversion）模型，用於音頻到音頻的轉換任務。

Messi RVC V2 Crepe 200 Epochs

這是一個基於RVC (Retrieval-based Voice Conversion) 技術的語音轉換模型，經過200輪訓練，使用Crepe算法。

Luffysan2333333

這是一個RVC（Retrieval-Based Voice Conversion）模型，用於音頻轉音頻任務，能夠實現聲音轉換。

這是一個基於RVC（Retrieval-based Voice Conversion）技術的語音轉換模型，能夠將輸入音頻轉換為特定風格的語音。

Homersimpson2333333

這是一個基於RVC（Retrieval-Based Voice Conversion）技術的語音轉換模型，能夠將輸入音頻轉換為荷馬·辛普森風格的聲音。

Edsheeran2333333

這是一個基於RVC（Retrieval-based Voice Conversion）技術的語音轉換模型，能夠將輸入音頻轉換為特定風格的語音。

這是一個基於RVC（Retrieval-Based Voice Conversion）技術的語音轉換模型，可以將輸入音頻轉換為貝吉塔（《龍珠》角色）的聲音。

Ariana Grande RVC V1

這是一個基於RVC（Retrieval-Based Voice Conversion）技術的語音轉換模型，能夠將輸入音頻轉換為愛莉安娜·格蘭德風格的語音。

這是一個RVC（Retrieval-Based Voice Conversion）模型，用於音頻到音頻的轉換任務。

Distilhubert Finetuned Gtzan

這是基於DistilHuBERT在GTZAN音樂分類數據集上微調的音頻分類模型，準確率達82%

Faster Whisper Large V2

這是OpenAI Whisper large-v2模型的CTranslate2轉換版本，用於高效語音識別

語音識別支持多種語言

Pyannote Speaker Diarization Endpoint

基於pyannote.audio 2.0的說話人分割模型，用於自動檢測音頻中的說話人變化和語音活動

說話人處理

Wav2vec2 Keyword Spotting Int8

基於wav2vec2架構的語音關鍵詞檢測模型，已通過Optimum OpenVINO進行量化優化

Wangyou Zhang Chime4 Enh Train Enh Conv Tasnet Raw

基於ESPnet框架訓練的語音增強模型，使用chime4數據集進行訓練，適用於單通道語音增強任務。

Wav2vec2 Large Xlsr 53 Italian

Facebook 發佈的基於 Wav2Vec2 架構的大規模意大利語自動語音識別模型，在 Common Voice 數據集上微調

語音識別其他

Wav2vec2 Large Xlsr 53 Spanish

Facebook 發佈的基於 Wav2Vec2 架構的大規模跨語言語音識別模型，專門針對西班牙語優化

語音識別西班牙語

Fasnettac Paper

基於Asteroid框架訓練的音頻分離模型，專門用於處理帶噪聲的多通道音頻信號分離任務

Convtasnet Libri1Mix Enhsingle

基於Asteroid框架訓練的ConvTasNet模型，用於單通道語音增強任務

Quran Speech Recognizer

該模型是一個基於遷移學習的阿拉伯語語音識別系統，專門用於識別古蘭經誦讀內容並定位到具體章節。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase