モデル選定

低WER

# 低WER

Wav2vec2 Large Xlsr Sundanese

facebook/wav2vec2-large-xlsr-53をファインチューニングしたスンダ語音声認識モデル。トレーニングデータはOpenSLRの高品質TTSデータセットを使用

音声認識その他

Whosper Large V2

Whosper-large-v2は、セネガルの主要言語であるウォロフ語に特化した最先端の音声認識モデルで、OpenAIのWhisper-large-v2を基に構築されており、単語誤り率（WER）と文字誤り率（CER）を大幅に改善しています。

音声認識複数言語対応

Whisper Hindi2Hinglish Swift

Whisperアーキテクチャを基に最適化されたヒンディー語-ヒンディー英語混合音声認識モデル、インド訛りとノイズ環境向けに特別設計

Transformers 複数言語対応

Viwhisper Medium

ベトナム語音声認識タスク向けに最適化されたWhisper-mediumモデル、1308時間のベトナム語データでファインチューニング済み

Transformers その他

Parakeet Ctc 0.6b

Parakeet CTC 0.6BはNVIDIA NeMoとSuno.aiが共同開発した自動音声認識モデルで、FastConformerアーキテクチャに基づき、約6億のパラメータを持ち、英語音声の書き起こしをサポートします。

音声認識英語

Parakeet Rnnt 0.6b

Parakeet RNNT 0.6B は、NVIDIA NeMo と Suno.ai が共同開発した自動音声認識モデルで、FastConformer アーキテクチャを基にし、約6億のパラメータを持ち、英語音声をテキストに転写するために特別に設計されています。

音声認識英語

Parakeet Ctc 1.1b

Parakeet CTC 1.1BはNVIDIA NeMoとSuno.aiが共同開発した自動音声認識モデルで、FastConformerアーキテクチャを基に約11億のパラメータを持ち、英語音声の転写をサポートします。

音声認識英語

Whisper Large V3 French

OpenAI Whisper-large-v3をファインチューニングしたフランス語自動音声認識モデルで、大文字小文字、句読点、数字の予測をサポート

Transformers フランス語

Asr Whisper Medium Commonvoice Ar

CommonVoiceアラビア語データセットでファインチューニングされたWhisper medium音声認識モデル、SpeechBrainチームによって開発

音声認識アラビア語

Stt En Fastconformer Transducer Xlarge

NVIDIA FastConformer-Transducerは、英語の自動音声認識(ASR)向けの高性能モデルで、最適化されたFastConformerアーキテクチャとTransducerデコーダを採用し、パラメータ規模は約6.18億です。

音声認識英語

Stt En Fastconformer Ctc Xlarge

NVIDIA FastConformer-CTC XLargeは約6億パラメータの自動音声認識(ASR)モデルで、英語音声の文字起こしのために設計され、FastConformerアーキテクチャとCTC損失でトレーニングされています。

音声認識英語

Whisper Small Cv11 French

openai/whisper-smallを基にファインチューニングしたフランス語自動音声認識モデルで、Common Voice 11.0のフランス語データセットで訓練され、大文字小文字と句読点の予測をサポートしています。

Transformers フランス語

Wav2vec2 Base Vi Vlsp2020

wav2vec2アーキテクチャに基づくベトナム語自動音声認識モデル。13,000時間の未ラベルYouTube音声で事前学習され、250時間のラベル付きデータで微調整されています。

Transformers その他

Stt Rw Conformer Transducer Large

これはルワンダ語の音声認識に使用されるConformer-Transducerの大型モデルで、音声を小文字のラテン文字に文字起こしでき、空白とアポストロフィをサポートします。

音声認識その他

Stt Es Conformer Transducer Large

これはスペイン語自動音声認識用の大型Conformer-トランスデューサーモデルで、約1.2億パラメータを持ち、1340時間のスペイン語音声データでトレーニングされています。

音声認識スペイン語

Stt De Conformer Transducer Large

これはドイツ語の自動音声認識用の大規模なConformer-Transducerモデルで、約1.2億のパラメータを持ち、ドイツ語音声をテキストに変換します。

音声認識ドイツ語

Stt De Conformer Ctc Large

これはドイツ語自動音声認識のための大規模Conformer-CTCモデルで、NVIDIAが数千時間のドイツ語音声データでトレーニングおよび最適化しました。

音声認識ドイツ語

Wav2vec2 Large Xlsr 53 Chinese Zn Cn Aishell1

facebook/wav2vec2-large-xlsr-53をベースに中国語AISHELL-1データセットでファインチューニングした音声認識モデルで、中国語音声認識タスクをサポートします。

Transformers 中国語

Wav2vec2 Large Xlsr 53 German Cv9

これはFacebookのwav2vec2-large-xlsr-53モデルを基に、ドイツ語Common Voice 9.0データセットでファインチューニングした自動音声認識(ASR)モデルです。

Transformers ドイツ語

Wav2vec2 Base Vietnamese 160h

Wav2vec2ベースのベトナム語音声認識モデル、160時間のベトナム語音声データでファインチューニング

Transformers その他

Wav2vec2 Base Da Ft Nst

NSTデータセットでファインチューニングされたデンマーク語音声認識モデル、16kHzサンプリングレートの音声入力をサポート

Transformers その他

Wav2vec2 Large Xlsr Open Brazilian Portuguese V2

これはブラジルポルトガル語に最適化されたWav2vec2モデルで、複数のオープンデータセットでトレーニングされ、自動音声認識タスクに使用されます。

Transformers その他

Wav2vec2 Live Japanese

facebook/wav2vec2-large-xlsr-53を微調整した日本語音声認識モデルで、平仮名出力に対応しています。

Transformers 日本語

Bp500 Base100k Voxpopuli

ブラジルポルトガル語に最適化された音声認識モデル、7つの公開データセット計453時間の音声でトレーニング

Transformers その他

これはブラジルポルトガル語に対して微調整されたWav2vec 2.0モデルで、複数のブラジルポルトガル語データセットを使用して訓練され、Common VoiceテストセットでのWERは13.6です。

Transformers その他

Wav2vec2 Base Cynthia Tedlium 2500 V2

このモデルは、facebook/wav2vec2-base-960hをベースにTED-LIUMデータセットで微調整した音声認識モデルで、評価セットで20.33%の単語誤り率を達成しています。

Asr Wav2vec2 Commonvoice Fr

CommonVoiceフランス語データセットを基に訓練されたwav2vec 2.0音声認識モデルで、CTC/Attentionアーキテクチャを使用し、言語モデルは不要です。

音声認識フランス語

ブラジルポルトガル語データセットを用いて微調整されたWav2vec 2.0音声認識モデルで、ブラジルポルトガル語の自動音声認識タスクをサポートします。

Transformers その他

Wav2vec2 Large Xlsr 53 Esperanto

これはFacebookのwav2vec2-large-xlsr-53モデルをファインチューニングしたエスペラント(Esperanto)音声認識モデルで、Common Voiceデータセットでトレーニングされています。

音声認識その他

Wav2vec2 Large Xlsr Open Brazilian Portuguese

これはブラジルポルトガル語に対して微調整されたWav2vec 2.0モデルで、Common Voice、MLS、CETUCなどの複数のオープンブラジルポルトガル語データセットを使用して訓練されています。

Transformers その他

Wav2vec2 Large Xlsr 53 Es

Facebookのwav2vec2-large-xlsr-53モデルをベースに、スペイン語Common Voiceデータセットで微調整した音声認識モデルで、テストWERは10.50%です。

Transformers スペイン語

Wav2vec2 Large Xlsr Eo

facebook/wav2vec2-large-xlsr-53モデルをベースに、Common Voiceデータセットを使ってエスペラント語に対して微調整された音声認識モデルです。

音声認識その他

Wav2vec2 Large Xlsr Turkish

これはfacebook/wav2vec2-large-xlsr-53モデルを基に、トルコ語Common Voiceデータセットでファインチューニングした自動音声認識モデルで、テストWERは21.13%です。

音声認識その他

このモデルは、facebook/wav2vec2-xls-r-300mをガリシア語データセットでファインチューニングした自動音声認識モデルで、Common Voice 8.0テストセットで11.31%のWERを達成しました。

Transformers その他

Xls R Nl V1 Cv8 Lm

これはXLS-Rアーキテクチャに基づく自動音声認識モデルで、オランダ語とフラマン語に特化して最適化されており、5-gram言語モデルを組み合わせることで認識精度を向上させています。

Transformers その他

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase