高精度語音識別

# 高精度語音識別

Whisper Kurmanji

針對庫爾德語庫爾曼吉方言的自動語音識別模型，基於Whisper架構微調

Safetensors 其他

NextVoice是由Lamapi開發的開源語音轉文字解決方案，支持高質量轉錄和即時處理。

Transformers 其他

Medical Whisper Large V3

基於whisper-large-v3微調的醫療場景專用語音識別模型

Transformers 英語

Whisper Small Medical Speech Recognition

基於OpenAI Whisper-small微調的醫療領域語音識別模型，支持醫療場景下的語音轉文本任務

Parakeet Rnnt 1.1b

Parakeet RNNT 1.1B是由NVIDIA NeMo和Suno.ai聯合開發的自動語音識別模型，基於FastConformer Transducer架構，參數約11億，支持英語語音轉錄。

語音識別英語

Stt En Fastconformer Transducer Xlarge

NVIDIA FastConformer-Transducer 是一個用於英語自動語音識別(ASR)的高性能模型，採用優化的FastConformer架構和Transducer解碼器，參數規模約6.18億。

語音識別英語

Stt En Fastconformer Ctc Xlarge

NVIDIA FastConformer-CTC XLarge是一個約6億參數的自動語音識別(ASR)模型，專為英語語音轉錄設計，採用FastConformer架構和CTC損失訓練。

語音識別英語

Stt En Fastconformer Ctc Large

這是一個基於FastConformer架構的大型自動語音識別(ASR)模型，專門用於將英語語音轉錄為文本。

語音識別英語

Stt En Fastconformer Transducer Large

這是一個基於FastConformer架構的大型自動語音識別(ASR)模型，專門用於將英語語音轉錄為文本。

語音識別英語

Whisper Large V2 Japanese 5k Steps

基於OpenAI的whisper-large-v2模型在日語CommonVoice數據集上微調的語音識別模型，訓練5000步，詞錯誤率0.7449

Transformers 日語

Wav2vec2 Large Tedlium

基於TEDLIUM語料庫微調的Wav2Vec2大型語音識別模型，支持英語語音轉文本

語音識別英語

Stt En Conformer Transducer Xlarge

這是一個由NVIDIA開發的自動語音識別(ASR)模型，基於Conformer-Transducer架構，擁有約6億參數，專門用於英語語音轉錄。

語音識別英語

Asr Wav2vec2 Librispeech

這是一個基於LibriSpeech數據集訓練的端到端自動語音識別系統，結合了wav2vec 2.0預訓練模型和CTC技術，在英語語音識別任務上表現出色。

語音識別英語

Wav2vec2 Large 960h Lv60 Self With Wikipedia Lm

基於Facebook的wav2vec2-large-960h-lv60-self模型，通過增強維基百科語言模型改進的自動語音識別(ASR)系統

Wav2vec2 Conformer Rope Large 100h Ft

基於Librispeech 100小時語音數據微調的Wav2Vec2 Conformer模型，採用旋轉位置嵌入技術

Transformers 英語

Wav2vec2 Conformer Rope Large 960h Ft

該模型整合了旋轉位置嵌入技術，基於16kHz採樣的語音音頻，在960小時的LibriSpeech數據上進行了預訓練和精細調優，適用於英語語音識別任務。

Transformers 英語

Wav2vec2 Conformer Rel Pos Large 100h Ft

採用相對位置嵌入技術的Wav2Vec2-Conformer大型語音識別模型，基於Librispeech 100小時語音數據微調

Transformers 英語

Wav2vec2 Conformer Rel Pos Large 960h Ft

基於16kHz採樣語音音頻的Wav2Vec2-Conformer模型，採用相對位置嵌入技術，在960小時Librispeech數據上預訓練和微調

Transformers 英語

Wav2vec2 Large 960h Lv60 Self 4 Gram

基於Facebook Wav2Vec2-Large-960h-lv60-self模型，增加了英語4-gram語言模型以提升語音識別準確率

語音識別英語

patrickvonplaten

Wav2vec2 Base 960h 4 Gram

基於Facebook的Wav2Vec2-Base-960h模型，增加了英語4-gram語言模型，用於提高自動語音識別(ASR)的準確率。

Transformers 英語

patrickvonplaten

Wav2vec2 Large Xlsr 300m Nepali

這是一個基於Wav2Vec2架構的尼泊爾語語音識別模型，支持將尼泊爾語語音轉換為文本。

Stt En Conformer Ctc Large

這是一個基於Conformer架構的大型自動語音識別(ASR)模型，支持英語語音轉錄，使用CTC損失函數進行訓練。

語音識別英語

Data2vec Audio Large 960h

Data2Vec是一個通用自監督學習框架，適用於語音、視覺和語言任務。該音頻大模型基於LibriSpeech的960小時語音數據預訓練和微調，專為自動語音識別任務優化。

Transformers 英語

Iwslt Asr Wav2vec Large 4500h

基於Wav2Vec2架構的大規模英語自動語音識別模型，在4500小時多源語音數據上微調，支持帶語言模型的解碼

Transformers 英語

Wav2vec2 Dogri Stt

這是一個基於Wav2Vec2架構的自動語音識別（ASR）模型，專門用於識別多格拉語（Dogri）的語音內容。

Wav2vec2 Large 960h Lv60 Self

Facebook開發的Wav2Vec2大模型，基於960小時Libri-Light和Librispeech語音數據預訓練和微調，採用自訓練目標，在LibriSpeech測試集上達到SOTA效果。

語音識別英語

Wavlm Libri Clean 100h Base

基於microsoft/wavlm-base在LIBRISPEECH_ASR - CLEAN數據集上微調的自動語音識別模型

patrickvonplaten

Hubert Xlarge Ls960 Ft

基於Librispeech 960小時語音數據微調的Hubert超大規模語音識別模型，在LibriSpeech測試集上WER僅為1.8

Transformers 英語

Personal Speech To Text Model

基於facebook/wav2vec2-large-robust-ft-swbd-300h模型微調的個人語音轉文字模型，針對特定口音優化。

Hubert Large Ls960 Ft

HuBERT-Large是基於LibriSpeech 960小時語音數據微調的自監督語音表示學習模型，用於自動語音識別任務。

Transformers 英語

Wav2vec2 Large 960h

Wav2Vec2是Facebook開發的語音識別模型，通過自監督學習從原始音頻中學習語音表示，並在LibriSpeech數據集上微調，實現高精度語音轉錄。

Transformers 英語

Wav2vec Odia Stt

這是一個基於Wav2Vec2架構的奧里亞語(Odia)語音識別模型，能夠將奧里亞語語音轉換為文本。

Wav2vec2 Large 960h Lv60

Wav2Vec2是一個強大的語音識別模型，通過自監督學習從原始音頻中提取特徵，並在有限標記數據下實現高性能語音識別。

語音識別英語

Wavlm Libri Clean 100h Large

基於microsoft/wavlm-large在LIBRISPEECH_ASR - CLEAN數據集上微調的自動語音識別模型

patrickvonplaten

Data2vec Audio Base 960h

Data2Vec是一個通用的自監督學習框架，適用於語音、視覺和語言處理。該模型是基於LibriSpeech 960小時語音數據預訓練和微調的語音識別模型。

Transformers 英語

Wavlm Libri Clean 100h Base Plus

基於microsoft/wavlm-base-plus在LIBRISPEECH_ASR - CLEAN數據集上微調的自動語音識別模型

patrickvonplaten

Wav2vec2 Base 960h

Wav2Vec2是一個基於自監督學習的語音識別模型，由Facebook開發，在LibriSpeech數據集上訓練，支持英語語音轉文本任務。

Transformers 英語

Wav2vec2 Base 960h

Facebook開發的Wav2Vec2基礎模型，在960小時的Librispeech語音音頻上進行了預訓練和微調，用於英語自動語音識別任務。

Transformers 英語

Simpleoier Librispeech Asr Train Asr Conformer7 Wavlm Large Raw En Bpe5000 Sp

基於ESPnet框架訓練的自動語音識別(ASR)模型，使用Conformer架構和WavLM大型預訓練模型，在LibriSpeech數據集上訓練。

語音識別英語

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase