端到端模型

# 端到端模型

YOLOv10是清華大學提出的即時端到端目標檢測模型，在速度和精度上均有顯著提升。

Paraformer Large

Paraformer 是一種創新的非自迴歸端到端語音識別模型，相比傳統自迴歸模型具有顯著優勢，能夠並行生成整句目標文本，特別適合利用GPU進行並行推理。

語音識別中文

基於未知數據集訓練的自動語音識別模型，支持語言識別任務

Overlapped Speech Detection

一個用於檢測音頻中重疊語音的預訓練模型，能夠識別兩個或更多說話人同時活躍的時間段。

說話人處理

S2t Medium Mustc Multilingual St

基於Transformer的端到端多語言語音翻譯模型，支持英語到多種語言的語音翻譯

Transformers 支持多種語言

一個用於語音活動檢測、重疊語音檢測和說話人分割的音頻處理模型

說話人處理

Kan Bayashi Ljspeech Tacotron2

基於ESPnet框架訓練的Tacotron2文本轉語音模型，使用LJSpeech數據集

語音合成英語

Speaker Segmentation

基於pyannote.audio的說話人分割模型，用於檢測音頻中的說話人變化和語音活動

說話人處理

Kan Bayashi Csj Asr Train Asr Transformer Raw Char Sp Valid.acc.ave

這是一個基於ESPnet框架訓練的日語自動語音識別(ASR)模型，使用CSJ數據集訓練，採用Transformer架構。

語音識別日語

Voice Activity Detection

基於pyannote.audio 2.1版本的語音活動檢測模型，用於識別音頻中的語音活動時間段

S2t Small Covost2 Fr En St

一個基於Transformer的端到端語音翻譯模型，專為法語到英語的語音翻譯任務設計

Transformers 支持多種語言

Kan Bayashi Csmsc Vits

這是一個基於ESPnet2框架訓練的文本轉語音(TTS)模型，使用VITS架構，支持中文普通話。

語音合成中文

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase