モデル選定

16kHzサンプリングレート

# 16kHzサンプリングレート

Wav2vec2 Large Xlsr Sundanese

facebook/wav2vec2-large-xlsr-53をファインチューニングしたスンダ語音声認識モデル。トレーニングデータはOpenSLRの高品質TTSデータセットを使用

音声認識その他

Vits Icelandic Rosa Female Monospeaker

これはfacebook/mms-tts-islをファインチューニングしたアイスランド語テキスト音声変換モデルで、Talrómurデータセットを使用して訓練され、女性の声の合成に特化しています。

Transformers その他

Whisper Medium Cv11 German Ct2

OpenAIのwhisper-mediumモデルをCommon Voice 11.0ドイツ語データセットでファインチューニングした自動音声認識モデル

Transformers ドイツ語

Whisper Medium Medical De AUT

Whisper Mediumアーキテクチャを基に微調整したドイツ語医療分野の音声認識モデルで、特にオーストリア標準ドイツ語の発音に最適化されています

Transformers ドイツ語

VITSアーキテクチャに基づく英語テキスト音声合成モデル、Kakao Enterpriseがトレーニング、高品質な音声合成をサポート

Transformers 英語

Whisper Small Japanese

このモデルはopenai/whisper-smallをファインチューニングした日本語音声認識モデルで、日本語音声からテキストへの変換タスクをサポートします。

Transformers 日本語

Whisper Base Japanese

このモデルは、Common Voice、JVS、JSUTデータセットを使用してopenai/whisper-baseを日本語向けにファインチューニングしたもので、日本語音声認識タスクに適しています。

Transformers 日本語

Wav2vec2 Large Xlsr 53 Japanese

facebook/wav2vec2-large-xlsr-53をベースにファインチューニングした日本語音声認識モデル、16kHzサンプリングレートの音声入力をサポート

Transformers 日本語

Whisper Large V2 Cv11 German

openai/whisper-large-v2をCommon Voice 11.0ドイツ語データセットでファインチューニングした自動音声認識モデルで、ドイツ語音声をテキストに変換可能、単語誤り率5.76

Transformers ドイツ語

Wav2vec2 Large Chinese Zh Cn

XLSR-53大規模モデルをファインチューニングした中国語音声認識モデル、16kHzサンプリングレートの音声入力をサポート

Transformers 中国語

Exp W2v2t Zh Cn Wavlm S596

microsoft/wavlm-largeモデルを基にファインチューニングした中国語音声認識モデルで、簡体字中国語をサポートし、Common Voice 7.0 (zh-CN)データセットでトレーニングされています。

Exp W2v2t Fa Hubert S801

facebook/hubert-large-ll60kモデルをファインチューニングしたペルシャ語自動音声認識モデルで、Common Voice 7.0ペルシャ語データセットを使用してトレーニングされました。

Transformers その他

Exp W2v2t Sv Se Vp Nl S842

これはfacebook/wav2vec2-large-nl-voxpopuliモデルをファインチューニングしたスウェーデン語自動音声認識モデルで、Common Voice 7.0 (sv-SE)データセットを使用してトレーニングされました。

Exp W2v2t Sv Se Wavlm S42

microsoft/wavlm-largeをベースに微調整されたスウェーデン語自動音声認識モデルで、16kHzサンプリングレートの音声入力に適しています。

Exp W2v2t Fr Xls R S250

facebook/wav2vec2-xls-r-300mモデルをベースに、Common Voice 7.0フランス語データセットでファインチューニングした自動音声認識モデル

Transformers フランス語

Exp W2v2t Fr Vp Fr S438

facebook/wav2vec2-large-fr-voxpopuliモデルを基にファインチューニングしたフランス語自動音声認識モデルで、Common Voice 7.0フランス語データセットでトレーニングされています。

Transformers フランス語

Exp W2v2t Fr Unispeech S42

microsoft/unispeech-large-1500h-cvモデルをベースに、Common Voice 7.0（フランス語）データセットでファインチューニングした音声認識モデル

Transformers フランス語

Exp W2v2t It No Pretraining S842

ランダム初期化されたwav2vec2モデルを基にファインチューニングを行い、イタリア語音声認識タスク用に開発されました。トレーニングデータにはCommon Voice 7.0（イタリア語）のトレーニングセット分割部分を使用しています。

Transformers その他

Exp W2v2t It Xlsr 53 S387

facebook/wav2vec2-large-xlsr-53モデルをファインチューニングしたイタリア語自動音声認識モデルで、Common Voice 7.0イタリア語データセットでトレーニングされています。

Transformers その他

Exp W2v2t It Vp 100k S449

facebook/wav2vec2-large-100k-voxpopuliモデルを基にファインチューニングしたイタリア語自動音声認識モデルで、Common Voice 7.0イタリア語データセットでトレーニングされています。

Transformers その他

Exp W2v2t It Wav2vec2 S609

facebook/wav2vec2-large-lv60モデルをベースにファインチューニングしたイタリア語自動音声認識モデル、Common Voice 7.0イタリア語データセットでトレーニング済み。

Transformers その他

Exp W2v2t Ja Vp It S544

facebook/wav2vec2-large-it-voxpopuliモデルをベースに、Common Voice 7.0（日本語版）のトレーニングセットを使用して音声認識のファインチューニングを行った日本語自動音声認識モデルです。

Transformers 日本語

Exp W2v2t Ja Unispeech Sat S884

microsoft/unispeech-sat-largeモデルをベースにファインチューニングした日本語自動音声認識モデルで、Common Voice 7.0日本語データセットでトレーニングされています。

Transformers 日本語

Exp W2v2t Ja Wavlm S729

microsoft/wavlm-largeモデルをファインチューニングした日本語自動音声認識モデル、Common Voice 7.0日本語データセットで学習

Transformers 日本語

Exp W2v2t Ja Unispeech S569

microsoft/unispeech-large-1500h-cvモデルをベースに、Common Voice 7.0（日本語）データセットを使用して音声認識のファインチューニングを行った日本語自動音声認識モデル

Transformers 日本語

Exp W2v2t Ja Xlsr 53 S109

facebook/wav2vec2-large-xlsr-53モデルをファインチューニングした日本語自動音声認識モデル、Common Voice 7.0日本語データセットで学習

Transformers 日本語

Exp W2v2t Th Hubert S533

facebook/hubert-large-ll60kをベースにファインチューニングしたタイ語音声認識モデル、トレーニングデータはCommon Voice 7.0から取得

Transformers その他

Exp W2v2t Th Wav2vec2 S664

facebook/wav2vec2-large-lv60モデルをファインチューニングしたタイ語音声認識モデル、Common Voice 7.0データセットでトレーニング

Transformers その他

Exp W2v2t En Unispeech Sat S459

マイクロソフトのUniSpeech-SAT-Largeモデルをファインチューニングした英語音声認識モデルで、16kHzサンプリングレートの音声入力をサポートします。

Transformers 英語

Exp W2v2t En Vp Nl S281

facebook/wav2vec2-large-nl-voxpopuliモデルを基に微調整した英語音声認識モデルで、Common Voice 7.0トレーニングセットを使用して学習されています。

Transformers 英語

Exp W2v2t En No Pretraining S289

これは英語音声認識タスク向けのモデルで、ランダム初期化されたwav2vec2アーキテクチャを基に、Common Voice 7.0データセットでファインチューニングされています。

Transformers 英語

Wav2vec2 Large Tedlium

TEDLIUMコーパスでファインチューニングされたWav2Vec2大型音声認識モデル、英語音声からテキストへの変換をサポート

音声認識英語

Sharif Wav2vec2

Sharif Wav2vec2のペルシャ語向けファインチューニング版で、Common Voiceのペルシャ語サンプルでトレーニングされ、自動音声認識タスクをサポートします。

Transformers その他

Wav2vec2 Large Xlsr 53 Chinese Zn Cn Aishell1

facebook/wav2vec2-large-xlsr-53をベースに中国語AISHELL-1データセットでファインチューニングした音声認識モデルで、中国語音声認識タスクをサポートします。

Transformers 中国語

Data2vec Audio Large 960h

Data2Vecは音声、視覚、言語タスクに適用可能な汎用自己教師あり学習フレームワークです。この音声大規模モデルはLibriSpeechの960時間音声データで事前学習とファインチューニングされ、自動音声認識タスク向けに最適化されています。

Transformers 英語

Wav2vec2 Base Da Ft Nst

NSTデータセットでファインチューニングされたデンマーク語音声認識モデル、16kHzサンプリングレートの音声入力をサポート

Transformers その他

Wav2vec2 Large Xlsr Dutch

Facebookのwav2vec2-large-xlsr-53モデルを基に、Common Voiceオランダ語データセットでファインチューニングした自動音声認識モデル

Transformers その他

Wav2vec2 Xls R 1b Portuguese

これはXLS-R 1Bアーキテクチャに基づくポルトガル語自動音声認識モデルで、複数のポルトガル語音声データセットでファインチューニングされています。

Transformers その他

facebook/wav2vec2-largeモデルをベースに、Common Voiceデータセットを使用して英語向けにファインチューニングされた音声認識モデルで、16kHzサンプリングレートの音声入力をサポートしています。

Wav2vec2 Large Xlsr 53 Slovenian

これはFacebookのwav2vec2-large-xlsr-53モデルをファインチューニングしたスロベニア語自動音声認識モデルで、Common Voiceデータセットで訓練され、単語誤り率は36.04%です。

音声認識その他

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase