モデル選定

高精度音声書き起こし

# 高精度音声書き起こし

Whisper Medium Oswald

OpenAI Whisper-mediumをファインチューニングしたハイチクレオール語音声認識モデル、高精度な書き起こしに特化

Transformers その他

Ai Light Dance Singing2 Ft Wav2vec2 Large Xlsr 53 5gram V3

wav2vec2-large-xlsr-53モデルをファインチューニングした自動音声認識モデルで、歌唱音声認識に特化

Ai Light Dance Singing2 Ft Wav2vec2 Large Xlsr 53 5gram V4 1

このモデルはwav2vec2-large-xlsr-53アーキテクチャに基づく自動音声認識(ASR)モデルで、GARY109/AI_LIGHT_DANCE - ONSET-SINGING2データセットでファインチューニングされ、歌唱音声認識タスクに主に使用されます。

Ai Light Dance Stepmania Ft Wav2vec2 Large Xlsr 53 V5

wav2vec2-large-xlsr-53をベースにした自動音声認識モデルで、GARY109/AI_LIGHT_DANCEデータセットでファインチューニングされています

Wav2vec2 Large Xls R 300m Turkish Colab

このモデルはfacebook/wav2vec2-xls-r-300mをcommon_voiceトルコ語データセットでファインチューニングした音声認識モデルで、評価セットで32.08%の単語誤り率を達成しました。

Ai Light Dance Singing Ft Pretrain Wav2vec2 Large Lv60

このモデルはwav2vec2-large-lv60アーキテクチャに基づく自動音声認識(ASR)モデルで、GARY109/AI_LIGHT_DANCE - ONSET-SINGINGデータセットでファインチューニングされ、主に歌声認識タスクに使用されます。

Wav2vec2 Final 1 Lm 4

facebook/wav2vec2-baseをファインチューニングした音声認識モデルで、評価セットでの単語誤り率は0.4499

Wav2vec2 Large Xlsr 53 Tr Fine Tuning Deprecated

このモデルはfacebook/wav2vec2-large-xlsr-53をcommon_voiceトルコ語データセットでファインチューニングした音声認識モデルです

Wav2vec2 1b Npsc Nst Bokmaal

このモデルは、ノルウェー語Bokmål方言の音声データセットでfacebook/wav2vec2-xls-r-1bを微調整した自動音声認識(ASR)モデルです

wav2vec2-xls-r-2bアーキテクチャに基づくアルメニア語自動音声認識モデル、hy/hye言語をサポート

Transformers その他

20220412 203254

このモデルは、facebook/wav2vec2-xls-r-300mをcommon_voiceデータセットでファインチューニングした音声認識モデルで、自動音声認識タスクをサポートします。

Wav2vec2 Large 100h Lv60 Self

Wav2Vec2-Large-100h-Lv60は、100時間のLibri-LightとLibrispeech音声データを用いて事前学習と微調整を行った大規模モデルで、自己訓練目標で訓練されており、16kHzサンプリングレートの音声認識タスクに適しています。

Transformers 英語

Wav2vec2 Large Xlsr 53 Ft Cgn

facebook/wav2vec2-large-xlsr-53大規模モデルを基に、CTC損失関数を用いてオランダ語口語コーパスでファインチューニングされたオランダ語音声認識モデル

Transformers その他

Wav2vec2 Dutch Large Ft Cgn

オランダ語Wav2Vec2モデルで、オランダ語コーパスCGNを使用して元の英語モデルを継続的に事前学習およびファインチューニングして構築されました。

Transformers その他

Wav2vec2 2 Bart Large No Adapter

このモデルはLibriSpeech ASRデータセットで訓練された自動音声認識(ASR)モデルで、英語音声をテキストに変換できます。

facebook/wav2vec2-largeモデルをベースに、Common Voiceデータセットを使用して英語向けにファインチューニングされた音声認識モデルで、16kHzサンプリングレートの音声入力をサポートしています。

Wav2vec2 Large It Voxpopuli

VoxPopuliイタリア語無注釈データで事前学習された音声認識モデル、FacebookのWav2Vec2アーキテクチャを採用

音声認識その他

Wav2vec2 2 Bert Large No Adapter

LibriSpeechデータセットで訓練された自動音声認識(ASR)モデルで、英語音声をテキストに変換します

Wav2vec2 Large Xlsr 53 Levantine Arabic

facebook/wav2vec2-large-xlsr-53モデルを基に、アラビア語音声コーパスデータセットでファインチューニングしたアラビア語音声認識モデル

音声認識アラビア語

Wav2vec2 Xlsr Chuvash

このモデルはfacebook/wav2vec2-xls-r-1bをCommon Voice 8チュヴァシ語データセットでファインチューニングした自動音声認識モデルです

Transformers その他

Wav2vec2 Large Xlsr Persian Shemo

Wav2Vec2-Large-XLSR-53をペルシア語ShEMOデータセットでファインチューニングした自動音声認識モデル

音声認識その他

Wav2vec2 Large Xlsr 53 Esperanto

これはFacebookのwav2vec2-large-xlsr-53モデルをファインチューニングしたエスペラント(Esperanto)音声認識モデルで、Common Voiceデータセットでトレーニングされています。

音声認識その他

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase