16kHz音頻處理

# 16kHz音頻處理

Focalcodec 25hz

基於焦點調製網絡的低比特率語音編解碼器，支持16 kHz語音編碼

Audio Emotion Detection

本模型是基於facebook/wav2vec2-large-xlsr-53微調而成的音頻情感檢測模型，可識別7種情感狀態

Sentis Whisper Tiny

Whisper-Tiny是OpenAI開發的一個小型自動語音識別(ASR)模型，專為語音轉文本任務設計，適用於Unity環境。

Wav2vec2 French Phonemizer

這是一個針對法語語音轉音素任務微調的模型，基於facebook/wav2vec2-base-fr-voxpopuli-v2模型，使用Common Voice v13數據集進行訓練。

Transformers 法語

基於Facebook大規模多語言語音項目微調的語言識別模型，支持126種語言的音頻分類

Transformers 支持多種語言

Wav2vec2 Large Vi Vlsp2020

基於wav2vec2架構的越南語自動語音識別模型，預訓練使用1.3萬小時未標註YouTube音頻，並在250小時標註數據上微調

Transformers 其他

Assignment1 Omar

Wav2Vec2是一個基於自監督學習的語音識別模型，在LibriSpeech 960小時語音數據上預訓練和微調，支持英語語音轉錄。

Transformers 英語

Classroom-workshop

Wav2vec2 Conformer Rope Large 100h Ft

基於Librispeech 100小時語音數據微調的Wav2Vec2 Conformer模型，採用旋轉位置嵌入技術

Transformers 英語

Wav2vec2 Conformer Rel Pos Large 100h Ft

採用相對位置嵌入技術的Wav2Vec2-Conformer大型語音識別模型，基於Librispeech 100小時語音數據微調

Transformers 英語

Wav2vec2 Large 10min Lv60 Self

該模型是基於Wav2Vec2架構的大規模語音識別模型，在Libri-Light和Librispeech的10分鐘數據上進行了預訓練和微調，使用自訓練目標進行訓練，適用於16kHz採樣率的語音音頻。

Transformers 英語

Data2vec Audio Large 10m

Data2Vec是一個通用的自監督學習框架，適用於語音、視覺和語言任務。該音頻大模型基於Librispeech的10分鐘數據進行預訓練和微調，適用於16kHz採樣的語音音頻。

Transformers 英語

Data2vec Audio Large

Data2Vec-Audio-Large是基於16kHz採樣語音音頻預訓練的大型模型，採用自監督學習框架，適用於語音識別等任務。

Transformers 英語

Hubert Base Superb Ks

該模型是基於Hubert架構的關鍵詞識別模型，用於將語音片段分類為預定義的關鍵詞集合。

Transformers 英語

Wav2vec2 Large Xlsr 53 Dutch

基於facebook/wav2vec2-large-xlsr-53微調的荷蘭語語音識別模型，在Common Voice和CSS10數據集上訓練，支持16kHz音頻輸入。

語音識別其他

Wav2vec2 Base 100h

Wav2Vec2基礎版是在16kHz採樣的Librispeech語音音頻上進行了100小時預訓練和微調的自動語音識別模型。

Transformers 英語

Wav2vec2 Base Bg Voxpopuli V2

基於Facebook Wav2Vec2架構的語音模型，專門針對保加利亞語進行預訓練，適用於語音識別任務。

Transformers 其他

Wav2vec2 Base Lt Voxpopuli V2

這是一個基於Facebook Wav2Vec2架構的語音模型，專門針對立陶宛語進行了預訓練，使用了VoxPopuli語料庫中的14.4k未標記數據。

Transformers 其他

Wav2vec2 Large Superb Er

這是一個基於Wav2Vec2-Large模型的情感識別模型，專門用於從語音中識別情感類別。

Transformers 英語

Hubert Large Superb Er

基於Hubert-Large預訓練模型的情感識別模型，用於預測語音中的情感類別

Transformers 英語

Wav2vec2 Base Superb Er

這是一個基於Wav2Vec2架構的語音情感識別模型，移植自S3PRL項目，用於識別語音中的情感類別。

Transformers 英語

Sew D Mid K127 400k Ft Ls100h

SEW-D-mid-k127是由ASAPP Research開發的高效語音識別預訓練模型，在性能和效率方面相比wav2vec 2.0有顯著改進。

Transformers 英語

Wav2vec2 Base Et Voxpopuli V2

基於Facebook Wav2Vec2框架的語音模型，專門針對愛沙尼亞語進行預訓練

Transformers 其他

Wav2vec2 Base Pt Voxpopuli V2

基於葡萄牙語VoxPopuli語料庫預訓練的Wav2Vec2基礎模型，適用於語音識別任務

Transformers 其他

Wav2vec2 Large Mt Voxpopuli V2

Facebook的Wav2Vec2大型模型，僅在馬耳他語（mt）上使用VoxPopuli語料庫的未標記數據進行預訓練，適用於語音識別任務。

Transformers 其他

Wav2vec2 Base Lv Voxpopuli V2

基於Facebook Wav2Vec2架構的語音識別基礎模型，專門針對拉脫維亞語（lv）進行預訓練，使用VoxPopuli語料庫的13.1k未標註數據。

Transformers 其他

Wav2vec2 Large Xlsr 53 German

基於Facebook的Wav2Vec2架構的大規模德語自動語音識別(ASR)模型，在Common Voice德語數據集上微調

語音識別德語

Sew D Tiny 100k Ft Ls100h

SEW-D-tiny 是由 ASAPP Research 開發的高效語音識別預訓練模型，專注於性能和效率的平衡。

Transformers 英語

Wav2vec2 Base Es Voxpopuli V2

Wav2Vec2基礎模型，僅在西班牙語的21.4k無標註數據上預訓練，適用於語音識別任務。

Transformers 西班牙語

Wav2vec2 Large Romance Voxpopuli V2

Facebook的Wav2Vec2大型模型，僅在羅曼語族的VoxPopuli語料庫101.5小時未標註數據上進行預訓練，適用於語音識別任務。

基於facebook/wav2vec2-large-xlsr-53在希臘語上微調的自動語音識別模型

Transformers 其他

Wav2vec2 Base En Voxpopuli V2

基於VoxPopuli語料庫的24.1k無標註英語數據預訓練的Wav2Vec2基礎模型，適用於語音識別任務。

Transformers 英語

Wav2vec2 Base Fi Voxpopuli V2

基於Facebook Wav2Vec2架構的語音模型，專門針對芬蘭語進行預訓練，適用於語音識別任務。

Transformers 其他

Wav2vec2 Base Sl Voxpopuli V2

這是一個基於Facebook Wav2Vec2架構的語音模型，專門針對斯洛文尼亞語(sl)進行預訓練，使用了VoxPopuli語料庫中的11.3k未標註數據。

Transformers 其他

Hubert Base Superb Sid

基於Hubert的說話人識別模型，針對SUPERB基準任務優化

說話人處理

Transformers 英語

Wav2vec2 Large Xlsr 53 French

這是一個基於XLSR-53大模型微調的法語語音識別模型，在Common Voice數據集上訓練，支持高準確率的法語語音轉文本。

語音識別法語

Wav2vec2 Large 960h Lv60 Self

Facebook開發的Wav2Vec2大模型，基於960小時Libri-Light和Librispeech語音數據預訓練和微調，採用自訓練目標，在LibriSpeech測試集上達到SOTA效果。

語音識別英語

Unispeech Sat Base 100h Libri Ft

基於UniSpeech-SAT基礎模型，在LibriSpeech語音數據上進行了100小時微調的自動語音識別模型

Transformers 英語

Wav2vec2 Large Xlsr Georgian

這是一個基於facebook/wav2vec2-large-xlsr-53模型在格魯吉亞語上進行微調的自動語音識別(ASR)模型，使用Common Voice數據集訓練。

語音識別其他

Wave2vec2 Large Xlsr Hindi

基於facebook/wav2vec2-large-xlsr-53模型微調的印地語語音識別模型，使用OpenSLR和Common Voice印地語數據集訓練，支持16kHz採樣率語音輸入。

Transformers 其他

Wav2vec2 Large Xlsr 53 Rm Vallader

基於facebook/wav2vec2-large-xlsr-53模型微調的羅曼什語瓦拉迪爾方言語音識別模型，詞錯誤率32.89%

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase