モデル選定

高精度WER

# 高精度WER

Wav2vec2 Large Xlrs Korean V5

このモデルはfacebook/wav2vec2-xls-r-300mをzeroth_koreanデータセットでファインチューニングした韓国語自動音声認識モデルで、単語誤り率は0.2433です。

Wav2vec2 Large Xlsr 53 Icelandic Ep30 967h

アイスランド語の自動音声認識タスク用に微調整された音響モデルで、967時間のアイスランド語データを使って訓練されました。

Transformers その他

language-and-voice-lab

Stt Ru Fastconformer Hybrid Large Pc

これはロシア語自動音声認識のためのFastConformerハイブリッドモデルで、TransducerとCTCデコーダーを組み合わせ、パラメータ規模は約1.15億です。

音声認識その他

Stt De Fastconformer Hybrid Large Pc

これはFastConformerアーキテクチャに基づくドイツ語自動音声認識モデルで、トランスフォーマーとCTCのハイブリッド訓練方式を採用し、パラメータ規模は約115Mです。

音声認識ドイツ語

Wav2vec2 Large Xlsr 53 Spanish Ep5 944h

スペイン語自動音声認識用の音響モデルで、facebook/wav2vec2-large-xlsr-53を5エポックにわたってファインチューニングし、約944時間のスペイン語データを使用しています。

Transformers スペイン語

carlosdanielhernandezmena

Wav2vec2 Large Vi Vlsp2020

wav2vec2アーキテクチャに基づくベトナム語自動音声認識モデル。1.3万時間の未ラベルYouTube音声で事前学習し、250時間のラベル付きデータでファインチューニング

Transformers その他

Stt Ru Conformer Ctc Large

これはロシア語の自動音声認識用の大規模なConformer-CTCモデルで、約1636時間のロシア語音声データでトレーニングされ、約1.2億のパラメータを持っています。

音声認識その他

Stt Es Conformer Ctc Large

これはNVIDIAがトレーニングし公開した、スペイン語自動音声認識(ASR)用の大型Conformer-CTCモデルです。

音声認識スペイン語

Stt Fr Conformer Transducer Large

これはフランス語自動音声認識のための大規模なConformer-トランスデューサーモデルで、約1.2億のパラメータを持ち、1500時間以上のフランス語音声データでトレーニングされています。

音声認識フランス語

Wav2vec2 Large 960h Lv60 Self 4 Gram Fine Tune Real 29 Jun

このモデルはfacebook/wav2vec2-large-960h-lv60-selfをuob_singlishデータセットでファインチューニングした音声認識モデルで、シンガポール英語の認識をサポートします。

Stt Fr Conformer Ctc Large

これはConformerアーキテクチャに基づくフランス語自動音声認識(ASR)の大規模モデルで、CTC損失関数を使用し、1500時間以上のフランス語音声データでトレーニングされています。

音声認識フランス語

Ai Light Dance Stepmania Ft Wav2vec2 Large Xlsr 53

このモデルはfacebook/wav2vec2-large-xlsr-53をGARY109/AI_LIGHT_DANCE - ONSET-STEPMANIA2データセットでファインチューニングした自動音声認識モデルです

Wav2vec2 Large Multilang Cv Ru

このモデルはfacebook/wav2vec2-large-xlsr-53をcommon_voiceデータセットでファインチューニングしたバージョンで、主にロシア語音声認識タスクに使用されます。

Assignment1 Maria

s2t-small-librispeech-asr は自動音声認識（ASR）のための音声からテキストへの変換（S2T）モデルで、シーケンス・ツー・シーケンスのトランスフォーマーアーキテクチャに基づいています。

Transformers 英語

Classroom-workshop

Assignment1 Joane

自動音声認識(ASR)のための音声からテキストへの変換(S2T)モデル

Transformers 英語

Classroom-workshop

Assignment1 Jack

自動音声認識(ASR)のための音声からテキストへの変換(S2T)モデルで、シーケンス・ツー・シーケンス変換アーキテクチャに基づいています

Transformers 英語

Classroom-workshop

Assignment1 Jane

s2t-small-librispeech-asr は、自動音声認識（ASR）のための音声からテキストへの変換器（S2T）モデルで、シーケンス・ツー・シーケンス変換器アーキテクチャに基づいています。

Transformers 英語

Classroom-workshop

Assignment1 Omar

Wav2Vec2は自己教師あり学習に基づく音声認識モデルで、LibriSpeechの960時間の音声データで事前学習と微調整が行われ、英語音声の書き起こしをサポートします。

Transformers 英語

Classroom-workshop

Wav2vec2 Large Xls R 300m Singlish Colab

facebook/wav2vec2-xls-r-300mをシンガポール英語(li_singlish)データセットでファインチューニングした音声認識モデル

Ai Light Dance Singing Ft Wav2vec2 Large Lv60 V2

このモデルはwav2vec2-large-lv60をONSET-SINGINGデータセットでファインチューニングした歌声音声認識モデルです。

Dansk Wav2vec21

このモデルは、Siyam/SKYLyがcommon_voiceデータセットでファインチューニングしたデンマーク語音声認識モデルです

English Filipino Wav2vec2 L Xls R Test 02

これはwav2vec2-large-xlsr-53-englishモデルをフィリピン語音声データセットでファインチューニングした音声認識モデルで、英語とフィリピン語の音声からテキストへの変換タスクをサポートします。

Wav2vec2 Common Voice Lithuanian

このモデルはfacebook/wav2vec2-large-xlsr-53をCOMMON_VOICE - LTデータセットでファインチューニングしたバージョンで、リトアニア語音声認識に使用されます。

Transformers その他

20220413 210552

このモデルは、facebook/wav2vec2-xls-r-300mをcommon_voiceデータセットでファインチューニングした音声認識モデルです

Aradia Ctc Distilhubert Ft

アラビア語音声データセットでdistilhubertを微調整した自動音声認識(ASR)モデル

Wav2vec2 Large Xls R 300m Irish Colab Test

これはfacebook/wav2vec2-xls-r-300mモデルをcommon_voiceアイルランド語データセットでファインチューニングした音声認識モデルで、主にアイルランド語の自動音声認識タスクに使用されます。

Wav2vec2 Xls R 1b Npsc Bokmaal

facebook/wav2vec2-xls-r-1bモデルを基に、ノルウェー書面語（ブークモール）音声データセットでファインチューニングした自動音声認識モデル

Wav2vec2 Large Xls R 300m Ur

wav2vec2-large-xls-r-300mアーキテクチャに基づくウルドゥー語音声認識モデル、common_voiceデータセットでファインチューニング済み

Wav2vec2 Xl 960h Dementiabank

このモデルはfacebook/wav2vec2-large-960hをDementiaBankデータセットでファインチューニングした音声認識モデルで、主に音声からテキストへの変換タスクに使用されます。

Wav2vec2 Xls R 1b Portuguese

これはXLS-R 1Bアーキテクチャに基づくポルトガル語自動音声認識モデルで、複数のポルトガル語音声データセットでファインチューニングされています。

Transformers その他

Wav2vec2 Xls R Hindi

これはfacebook/wav2vec2-xls-r-300mをヒンディー語Common Voice 7.0データセットでファインチューニングした自動音声認識(ASR)モデルです

Transformers その他

Wav2vec2 Large Xls R 300m Galician

これはfacebook/wav2vec2-xls-r-300mをベースに、ガリシア語音声データセットで微調整された自動音声認識モデルです。

Transformers その他

Wav2vec2 Xls R 1b English

これはXLS - R 1Bアーキテクチャに基づく英語音声認識モデルで、複数の英語音声データセットで微調整されています。

Transformers 英語

Wav2vec2 Large Xls R 300m Odia Cv8

facebook/wav2vec2-xls-r-300mをオディア語(OR)Common Voiceデータセットでファインチューニングした自動音声認識モデル

Transformers その他

Wav2vec2 Xls R 1b Russian

XLS-R 1Bアーキテクチャを基に微調整されたロシア語音声認識モデル、Common Voice 8.0などのデータセットでトレーニング

Transformers その他

Wav2vec2 Xlsr Basaa

このモデルはfacebook/wav2vec2-xls-r-1bをCommon Voice 8バサ語データセットでファインチューニングした自動音声認識モデルです。

Transformers その他

Wav2vec2 Large Xlsr 53 Ir

wav2vec2-large-xlsr-53を微調整したアイルランド・ゲール語自動音声識別モデルで、Common Voice 7.0データセットで訓練されました。

Wav2vec2 Xls R 1b Italian

これはXLS-R 1Bアーキテクチャに基づくイタリア語自動音声認識モデルで、複数のイタリア語データセットでファインチューニングされています

Transformers その他

Wav2vec2 Speechdat

このモデルは、facebook/wav2vec2-large-xlsr-53をベースに、COMMON_VOICE - SV-SEデータセットで微調整されたスウェーデン語自動音声認識モデルです。

Wav2vec2 Large Xls R 300m Irish

このモデルはfacebook/wav2vec2-xls-r-300mをアイルランド語データセットでファインチューニングした自動音声認識(ASR)モデルです

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase