# エンドツーエンドモデル

Yolov10s
YOLOv10は清華大学が提案したリアルタイムエンドツーエンド物体検出モデルで、速度と精度の両面で顕著な向上が見られます。
物体検出 Safetensors
Y
jameslahm
907
5
Paraformer Large
Apache-2.0
Paraformer は革新的な非自己回帰エンドツーエンド音声認識モデルで、従来の自己回帰モデルと比べて顕著な利点があり、全文のターゲットテキストを並列生成でき、特にGPUを利用した並列推論に適しています。
音声認識 中国語
P
funasr
43
45
Nick Asr LID
未知のデータセットでトレーニングされた自動音声認識モデルで、言語識別タスクをサポート
音声認識 Transformers
N
ntoldalagi
28
0
S2t Medium Mustc Multilingual St
MIT
Transformerベースのエンドツーエンド多言語音声翻訳モデルで、英語から複数言語への音声翻訳をサポート
音声認識 Transformers 複数言語対応
S
facebook
7,322
6
Kan Bayashi Ljspeech Tacotron2
ESPnetフレームワークを基に訓練されたTacotron2テキスト音声変換モデルで、LJSpeechデータセットを使用しています。
音声合成 英語
K
espnet
40
3
Speaker Segmentation
MIT
pyannote.audioに基づく話者分割モデルで、音声中の話者の変化と音声活動を検出するために使用されます。
話者の処理
S
pyannote
182
33
Voice Activity Detection
MIT
pyannote.audio 2.1バージョンに基づく音声活動検出モデルで、音声中の音声活動時間帯を識別するために使用されます
音声認識
V
pyannote
7.7M
181
S2t Small Covost2 Fr En St
MIT
Transformerベースのエンドツーエンド音声翻訳モデルで、フランス語から英語への音声翻訳タスク用に設計されています。
音声認識 Transformers 複数言語対応
S
facebook
18
0
Overlapped Speech Detection
MIT
音声中の重複音声を検出するための事前学習済みモデルで、2人以上の話者が同時に発話している時間帯を識別できます。
話者の処理
O
pyannote
144.68k
35
Segmentation
MIT
音声活動検出、重複音声検出、話者分割のための音声処理モデル
話者の処理
S
pyannote
9.2M
579
Kan Bayashi Csmsc Vits
これはESPnet2フレームワークに基づいて訓練されたテキストを音声に変換する(TTS)モデルで、VITSアーキテクチャを使用し、中国語の普通話をサポートします。
音声合成 中国語
K
espnet
37
0
Kan Bayashi Csj Asr Train Asr Transformer Raw Char Sp Valid.acc.ave
これはESPnetフレームワークに基づいて訓練された日本語自動音声認識(ASR)モデルで、CSJデータセットを使用して訓練され、Transformerアーキテクチャを採用しています。
音声認識 日本語
K
espnet
13
0
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase