モデル選定

ロシア語音声認識

# ロシア語音声認識

Stt Ru Fastconformer Hybrid Large Pc Onnx

NVIDIA FastConformer-Hybrid Large は、FastConformer アーキテクチャに基づくロシア語自動音声認識モデルで、CTC と RNN-T デコーダーをサポートしています。

GigaAM v2は自動音声認識（ASR）モデルで、ロシア語音声からテキストへの変換タスクをサポートし、CTCとRNN-Tの2つのアーキテクチャを提供します。

音声認識その他

GigaAM-v2-RNNT はロシア語自動音声認識（ASR）モデルで、RNNTアーキテクチャに基づいており、音声からテキストへの変換タスクに適しています。

Transformers その他

waveletdeboshir

GigaAM-v2-CTCはCTC損失関数でトレーニングされたロシア語自動音声認識(ASR)モデルで、Hugging Face transformersライブラリを通じて利用可能です。

Transformers その他

waveletdeboshir

Whisper Large V3 Russian Ties Podlodka V1.0

TIES融合手法を用いて統合されたロシア語音声認識モデル、電話音声認識効果を最適化

Transformers その他

Wav2vec2 Large Xls R 300m Ru

このモデルはfacebook/wav2vec2-xls-r-300mをcommon_voice_17_0データセットでファインチューニングしたロシア語自動音声認識(ASR)モデルで、単語誤り率(WER)は0.195です。

Whisper Large V3 Turbo Russian

OpenAI Whisper Large V3 Turboを基に最適化したロシア語自動音声認識(ASR)モデル、Mozilla Common Voice 17ロシア語データセットでファインチューニング

Transformers その他

Faster Whisper Large V3 Ru Podlodka Int8

これはOpenAI Whisperアーキテクチャに基づくロシア語音声認識モデルで、ロシア語音声からテキストへの変換タスクに最適化され、ctranslate2形式に変換されて推論効率が向上しています。

音声認識その他

Faster Whisper Large V3 Russian

これはantony66/whisper-large-v3-russianモデルのctranslate2変換バージョンで、ロシア語音声認識タスク向けに最適化されています。

Transformers その他

Faster Whisper Large V3 Ru Podlodka

これは bond005/whisper-large-v3-ru-podlodka の ctranslate2 変換バージョンで、ロシア語音声認識タスク向けに最適化されています。

Transformers その他

Whisper Large V3 Russian

OpenAI Whisper-large-v3をファインチューニングしたロシア語音声認識モデルで、ロシア語認識性能を最適化

Transformers その他

Whisper Large V3 Ru Podlodka

これはWhisper Large V3をベースにしたロシア語音声認識モデルで、ロシア語音声に特化して最適化されています。

Transformers その他

Whisper Tiny Ru

このモデルはopenai/whisper-tinyをベースに、Common Voice 14.0データセットで微調整したロシア語自動音声認識モデルです。

Ru Whisper Small

openai/whisper-smallをベースにファインチューニングしたロシア語音声認識モデル、Sberdevices_golos_10h_crowdデータセットでトレーニング

Transformers その他

OpenAI Whisper-baseモデルをCommon Voice 11.0ロシア語データセットでファインチューニングした音声認識モデル

Transformers その他

Stt Ru Fastconformer Hybrid Large Pc

これはロシア語自動音声認識のためのFastConformerハイブリッドモデルで、TransducerとCTCデコーダーを組み合わせ、パラメータ規模は約1.15億です。

音声認識その他

Stt Ru Conformer Ctc Large

これはロシア語の自動音声認識用の大規模なConformer-CTCモデルで、約1636時間のロシア語音声データでトレーニングされ、約1.2億のパラメータを持っています。

音声認識その他

Wav2vec2 Large Ru Golos With Lm

これはfacebook/wav2vec2-large-xlsr-53をベースに微調整されたロシア語音声認識モデルで、Sberdevices Golosデータセットを使用して訓練され、識別精度を向上させるために2-gram言語モデルが統合されています。

Transformers その他

Wav2vec2 Large Ru Golos

facebook/wav2vec2-large-xlsr-53をファインチューニングしたロシア語音声認識モデル。Sberdevices Golosデータセットでトレーニングされ、16kHz音声入力をサポート

Transformers その他

Wav2vec2 Large Multilang Cv Ru

このモデルはfacebook/wav2vec2-large-xlsr-53をcommon_voiceデータセットでファインチューニングしたバージョンで、主にロシア語音声認識タスクに使用されます。

Wav2vec2 Large Xls R 300m Russian Colab Beam Search Test

このモデルはfacebook/wav2vec2-xls-r-300mを汎用音声データセットでファインチューニングしたロシア語音声認識モデルで、評価セットで0.468の単語誤り率を達成しました。

Wav2vec2 Russian

wav2vec2アーキテクチャに基づくロシア語音声認識モデル。認識結果は対応するテキスト誤り訂正ネットワークで後処理可能

Wav2vec2 Base Russian Big Kaggle

このモデルはfacebook/wav2vec2-baseをロシア語データセットでファインチューニングした音声認識モデルです

Wav2vec2 Xls R 1b Russian

XLS-R 1Bアーキテクチャを基に微調整されたロシア語音声認識モデル、Common Voice 8.0などのデータセットでトレーニング

Transformers その他

Wav2vec2 Large Xlsr 53 Russian

facebook/wav2vec2-large-xlsr-53モデルをファインチューニングしたロシア語音声認識モデル、16kHzサンプリングレートの音声入力をサポート

音声認識その他

Wav2vec2 Large Xls R 300m Ru

これはWav2Vec2 XLS-Rアーキテクチャに基づくロシア語自動音声認識モデルで、パラメータ規模は300m、公共音声およびロバスト音声イベントデータセットで評価されています。

Transformers その他

Wav2vec2 Large Xlsr 53 Russian

facebook/wav2vec2-large-xlsr-53モデルをファインチューニングしたロシア語自動音声認識(ASR)モデルで、Common Voiceロシア語データセットで17.39%の単語誤り率(WER)を達成。

音声認識その他

Wav2vec2 Large 100k Voxpopuli Ft Common Voice Plus TTS Dataset Russian

これはFacebookのwav2vec2-large-100k-voxpopuliモデルをベースに、Common Voice 7.0とM-AILABSのロシア語データを用いて微調整された音声認識モデルです。

Transformers その他

Wav2vec2 Base Russian Modified Kaggle

このモデルは、facebook/wav2vec2-baseを未知のデータセットで微調整したバージョンで、ロシア語音声処理タスクに適しています。

Wav2vec2 Large 100k Voxpopuli Ft Common Voice Plus TTS Dataset Plus Data Augmentation Russian

FacebookのWav2vec2 Large 100k Voxpopuliモデルをベースに、Common Voice 7.0、M-AILABSデータセットおよびデータ拡張技術を使用してロシア語で微調整された音声認識モデルです。

Transformers その他

Wav2vec2 Xlsr 1b Ru

facebook/wav2vec2-xls-r-1bをCommon Voiceデータセットでファインチューニングしたロシア語自動音声認識モデル

Transformers その他

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase