モデル選定

エンドツーエンド音声処理

# エンドツーエンド音声処理

Ultravox V0 5 Llama 3 1 8b

Llama-3.1-8B-Instructベースの多言語音声テキスト変換モデル、40以上の言語処理をサポート

大規模言語モデル

Transformers 複数言語対応

Voila Autonomous Preview

Voilaは大規模な音声-言語基盤モデルファミリーで、人間と機械のインタラクション体験を向上させ、リアルタイムで低遅延の音声インタラクションと多言語処理をサポートします。

テキスト生成オーディオ

Transformers 複数言語対応

Voila Tokenizer

Voilaは人間と機械のインタラクション体験を向上させるために設計された大規模な音声-言語基盤モデルシリーズで、様々な音声タスクと言語をサポートします。

テキスト生成オーディオ

Transformers 複数言語対応

Speechless Llama3.2 V0.1

Speechlessはコンパクトなオープンソースのテキストからセマンティックへのモデル（10億パラメータ）で、従来のテキスト読み上げ（TTS）モデルに依存せず、オーディオを直接離散的なセマンティック表現タグに変換することを目的としています。

音声合成複数言語対応

Speechless Llama3.2 V0.1

無言はコンパクトなオープンソースのテキストからセマンティックモデル（10億パラメータ）で、従来のテキスト読み上げ（TTS）モデルに依存せずに、オーディオを直接離散的なセマンティックタグに変換することを目的としています。

音声認識複数言語対応

Wav2vec2 Nepali

Facebookのwav2vec2モデルをファインチューニングしたネパール語音声認識モデル

Transformers その他

anish-shilpakar

Ast Finetuned Speech Commands V2

Speech Commands v2データセットでファインチューニングされた音声スペクトログラムトランスフォーマーモデルで、音声分類タスクに使用され、精度は98.12%です。

これはwav2vecアーキテクチャに基づく音声処理テストモデルで、具体的な用途とトレーニングデータは明記されていません。

Transformerベースのエンドツーエンド音声翻訳モデルで、フランス語から英語への音声翻訳タスク専用です。

Transformers 複数言語対応

Wav2vec2 Base Common Voice Fa Demo Colab

このモデルはfacebook/wav2vec2-baseをファインチューニングしたペルシャ語音声認識モデルで、ペルシャ語音声からテキストへの変換タスクに適しています。

Wav2vec2 Large Xlsr 300m Nepali

これはWav2Vec2アーキテクチャに基づくネパール語音声認識モデルで、ネパール語音声をテキストに変換できます。

Wav2vec2 Base 100k Gtzan Music Genres

Wav2Vec 2.0アーキテクチャに基づくオーディオ分類モデル、音楽ジャンル識別専用

Wav2vec2 Base Russian Big Kaggle

このモデルはfacebook/wav2vec2-baseをロシア語データセットでファインチューニングした音声認識モデルです

S2t Small Mustc En It St

Transformerベースのエンドツーエンド音声翻訳モデルで、英語からイタリア語への音声翻訳タスク向けに設計されています。

Transformers 複数言語対応

Wav2vec2 Large Xlsr Korean

Wav2Vec2 XLSRアーキテクチャに基づく韓国語自動音声認識(ASR)モデルで、Zeroth韓国語データセットで優れた性能を発揮

Transformers 韓国語

Wav2vec2 Urdu Stt

これはWav2Vec2アーキテクチャに基づくウルドゥー語音声認識モデルで、ウルドゥー語音声をテキストに変換できます。

S2t Small Covost2 En Fa St

Transformerベースのエンドツーエンド音声翻訳モデルで、英語からペルシャ語への音声翻訳タスク用

Transformers 複数言語対応

S2t Small Covost2 En De St

エンドツーエンドの英語からドイツ語への音声翻訳用に訓練された音声テキスト変換モデル

Transformers 複数言語対応

Wav2vec2 Xls R 2b En To 15

FacebookのWav2Vec2 XLS-Rモデルで、15言語の音声翻訳タスク向けにファインチューニングされており、英語の音声を複数の書き言葉に翻訳できます。

Transformers 複数言語対応

Wav2vec2 Dogri Stt

これはWav2Vec2アーキテクチャに基づく自動音声認識（ASR）モデルで、ドグリ語（Dogri）の音声内容を認識するために特別に設計されています。

microsoft/wavlm-baseをファインチューニングした英語自動音声認識(ASR)モデルで、english_ASR - CLEANデータセットでトレーニングされ、単語誤り率(WER)は0.0773です。

anjulRajendraSharma

Wav2vec2 Large Xls R 300m Turkish Colab 4

このモデルは、facebook/wav2vec2-xls-r-300mをcommon_voiceトルコ語データセットでファインチューニングした音声認識モデルです。

Wav2vec2 Xls R 1b 21 To En

FacebookのWav2Vec2 XLS-Rモデル、多言語音声から英語への翻訳タスク用

Transformers 複数言語対応

Wav2vec2 Large Xlsr Turkish Demo

このモデルはトルコ語Common VoiceデータセットでファインチューニングされたXLSR-Wav2Vec2音声認識モデルで、主にトルコ語音声からテキストへの変換タスクに使用されます。

patrickvonplaten

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase