# エンドツーエンド音声モデル

Voila Chat
MIT
Voilaは、人間と機械のインタラクション体験を新たなレベルに引き上げることを目的とした、まったく新しい大規模音声-言語基礎モデルシリーズです。
テキスト生成オーディオ Transformers 複数言語対応
V
maitrix-org
2,423
32
Llama3.1 Typhoon2 Audio 8b Instruct
タイフーン2-オーディオ版は、オーディオ、音声、テキスト入力を処理し、テキストと音声の両方を同時に生成できるエンドツーエンドの音声変換モデルアーキテクチャです。このモデルは特にタイ語に最適化されており、英語もサポートしています。
テキスト生成オーディオ Transformers 複数言語対応
L
scb10x
664
9
Flow Mirror
Apache-2.0
FlowMirrorは浙江省精準学AI研究所が開発したエンドツーエンド音声モデルで、音声対話、ASR、TTSなどのタスクをサポートし、教育シーンでの応用に特化しています
テキスト生成オーディオ Transformers
F
jzx-ai-lab
21
2
Mms Tts Vie
Meta社が開発したベトナム語テキスト音声変換モデル、VITSアーキテクチャに基づき、高品質な音声合成をサポート
音声合成 Transformers
M
facebook
3,616
27
Wav2vec2 Large 960h
Apache-2.0
Wav2Vec2はFacebookが開発した音声認識モデルで、自己教師あり学習により生の音声から音声表現を学習し、LibriSpeechデータセットで微調整され、高精度な音声転写を実現します。
音声認識 Transformers 英語
W
facebook
77.59k
29
W2v Timit Ft 4001
Wav2Vec 2.0アーキテクチャに基づく音声認識モデルで、TIMITデータセットで微調整されており、英語音声テキスト変換タスクに適しています
音声認識 Transformers
W
devin132
22
0
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase