多語言語音識別

# 多語言語音識別

Whisper是一個預訓練的自動語音識別(ASR)和語音翻譯模型，通過68萬小時標註數據訓練，具有強大的泛化能力。

Safetensors 支持多種語言

Whisper Large V3 Turbo

Whisper是OpenAI開發的最先進的自動語音識別(ASR)和語音翻譯模型，在超過500萬小時的標記數據上訓練，具有強大的零樣本泛化能力。Turbo版本是原版的修剪微調版本，解碼層從32層減少到4層，速度大幅提升但質量略有下降。

Transformers 支持多種語言

Whisper Large V3

Whisper是OpenAI開發的最先進的自動語音識別(ASR)和語音翻譯模型，支持多種語言

Safetensors 支持多種語言

Ipa Whisper Base

基於Whisper-base微調的多語言語音識別模型，支持國際音標(IPA)輸出

語音識別支持多種語言

Quantum_STT 是一種先進的自動語音識別（ASR）和語音翻譯模型，基於大規模弱監督訓練，支持多種語言和任務。

Transformers 支持多種語言

Whisper Large V3 Turbo Gguf

Whisper large-v3-turbo 是基於 Whisper large-v3 的剪枝微調版本，解碼層數從32減少到4，速度大幅提升但質量略有下降。

語音識別支持多種語言

Canary 180m Flash

NVIDIA NeMo Canary Flash 是一個多語言多任務語音模型，支持英語、德語、法語和西班牙語的自動語音識別和翻譯任務。

語音識別支持多種語言

Canary 1b Flash

NVIDIA NeMo Canary Flash 是一個多語言多任務模型家族，在多個語音基準測試中實現了最先進的性能。支持四種語言的自動語音識別和翻譯任務。

語音識別支持多種語言

Whisper Large V3.w4a16

這是openai/whisper-large-v3的量化版本，採用INT4權重量化和FP16激活量化，適用於vLLM推理。

Transformers 英語

OWLS是一套Whisper風格的模型，旨在幫助研究人員理解語音模型的擴展特性，支持多語言語音識別和翻譯。

語音識別其他

Faster Whisper Large V3 Turbo Int8 Ct2

這是OpenAI Whisper-large-v3-turbo模型的CTranslate2轉換版本，採用INT8量化技術，主要用於高效語音識別任務。

語音識別支持多種語言

Mahadhwani Pretrained Conformer

基於自監督學習的預訓練Conformer編碼器模型，支持印度22種預定語言的自動語音識別任務。

Whisper Large V3 Distil Multi4 V0.2

這是一個多語言蒸餾版的Whisper模型，具有2個解碼器層，支持4種歐洲語言：英語、法語、西班牙語和德語。

Transformers 支持多種語言

Whisper Large V3 Distil Multi7 V0.2

一個多語言蒸餾版Whisper模型，支持7種歐洲語言的自動語音識別，具有語碼轉換能力

Transformers 支持多種語言

Voice Clone Large Finetune Final

該模型是基於openai/whisper-large-v3微調的語音克隆模型，主要用於語音識別任務，在評估集上詞錯誤率為15.3572。

Whisper Large V3 Turbo

Whisper large-v3-turbo是OpenAI Whisper large-v3的蒸餾版本，解碼層從32層減少到4層，速度大幅提升但質量略有下降。

語音識別支持多種語言

Faster Whisper Large V3 Turbo Ct2

這是將Whisper large-v3 turbo模型轉換為CTranslate2格式的版本，用於高效的自動語音識別任務。

語音識別支持多種語言

Whisper Large V3 Turbo

Whisper是由OpenAI開發的最先進的自動語音識別(ASR)和語音翻譯模型，經過超過500萬小時標記數據的訓練，在零樣本設置下展現出強大的泛化能力。

Transformers 支持多種語言

Whisper是一個基於Transformer的編碼器-解碼器模型，用於語音識別和翻譯任務，支持多語言處理。

Whisper Large V3 Gguf

Whisper 是一個多語言自動語音識別（ASR）系統，支持多種語言的語音轉文本任務。

語音識別支持多種語言

Whisper Small Uz En Ru Lang Id

基於Whisper-small微調的多語言語音分類模型，支持烏茲別克語、英語和俄語的語音識別與分類。

Transformers 支持多種語言

Owsm Ctc V3.1 1B

OWSM-CTC是一個基於分層多任務自條件CTC的純編碼器語音基礎模型，支持多語言語音識別、語音翻譯和語言識別。

語音識別其他

Whisper Large V3 Japanese 4k Steps Ct2

這是OpenAI Whisper large-v3模型的CTranslate2轉換版本，專門針對日語進行了4000步的額外訓練，支持多種語言的語音識別。

語音識別支持多種語言

Faster Whisper Large V3 Ja

基於OpenAI Whisper large-v3的日語優化版本，支持多語言語音識別

語音識別支持多種語言

Canary-1B是NVIDIA NeMo開發的多語言多任務模型，支持英語、德語、法語和西班牙語的自動語音識別和語音翻譯任務。

語音識別支持多種語言

Whisper Large V3 Ft Cv16 Mn

基於OpenAI Whisper Large V3模型在Common Voice 16.0數據集上微調的語音識別模型

Multilingual Distilwhisper 28k

基於whisper-small模型改進的多語言自動語音識別模型，通過CLSR模塊和知識蒸餾提升目標語言性能

Transformers 其他

Faster Whisper Tiny

基於OpenAI Whisper微型模型的CTranslate2轉換版本，用於高效語音識別

語音識別支持多種語言

Faster Whisper Base

這是OpenAI Whisper基礎模型的CTranslate2轉換版本，用於高效語音識別任務。

語音識別支持多種語言

Faster Whisper Medium

這是OpenAI Whisper中等模型的CTranslate2轉換版本，用於高效語音識別任務。

語音識別支持多種語言

Faster Whisper Large V3

Whisper large-v3是OpenAI開發的大規模多語言自動語音識別(ASR)模型，支持多種語言的語音轉文字任務。

語音識別支持多種語言

Whisper Large V3

Whisper是由OpenAI提出的先進自動語音識別(ASR)和語音翻譯模型，在超過500萬小時的標註數據上訓練，具有強大的跨數據集和跨領域泛化能力。

語音識別支持多種語言

Lang Id Voxlingua107 Ecapa

基於VoxLingua107數據集訓練的ECAPA-TDNN架構口語識別模型，支持107種語言分類

音頻分類支持多種語言

MMS-1B-FL102是Facebook大規模多語言語音項目的一部分，是一個支持102種語言的自動語音識別模型，基於10億參數的Wav2Vec2架構，通過適配器技術實現多語言轉錄。

Transformers 支持多種語言

Facebook大規模多語言語音項目的一部分，支持1162種語言的自動語音識別

Transformers 支持多種語言

Faster Whisper Large V1

這是OpenAI Whisper large-v1模型的CTranslate2轉換版本，用於高效語音識別任務

語音識別支持多種語言

Faster Whisper Large V2

這是OpenAI Whisper large-v2模型的CTranslate2轉換版本，用於高效語音識別

語音識別支持多種語言

Faster Whisper Medium

本項目將openai/whisper-medium模型轉換為CTranslate2模型格式，可用於高效語音識別。

語音識別支持多種語言

Faster Whisper Small

基於Transformer架構的自動語音識別(ASR)模型，支持多語言轉錄

語音識別支持多種語言

Faster Whisper Base

Whisper基礎模型是OpenAI開發的自動語音識別(ASR)模型，支持多種語言的語音轉文字任務。

語音識別支持多種語言

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase