モデル選定

wav2vec2の微調整

# wav2vec2の微調整

Wav2vec2 Large Xlsr 53 Serbian Smart Home Commands

wav2vec2に基づくセルビア語のスマートホーム音声コマンド認識モデルで、7種類の制御コマンドを認識できます。

音声分類その他

Japanese Wav2vec2 Base Rs35kh

大規模な日本語自動音声認識コーパスReazonSpeech v2.0を基に微調整されたwav2vec 2.0 Baseモデルで、日本語自動音声認識タスクに適しています。

Transformers 日本語

reazon-research

Wav2vec2 Audio Emotion Classification

facebook/wav2vec2-baseを微調整した音声感情分類モデルで、音声中の感情状態を分析するために使用されます

Wav2vec2 Phenome Based Alffaamharic

wav2vec2ベースの音声認識モデルで、アムハラ語向けに音素レベルで微調整されています

Wav2vec2 Base Toronto Emotional Speech Set

wav2vec2-baseを微調整した音声感情分類モデルで、話者の感情状態を識別するために使用されます。

Transformers 英語

Exp W2v2t En Vp Nl S281

facebook/wav2vec2-large-nl-voxpopuliモデルを基に微調整した英語音声認識モデルで、Common Voice 7.0トレーニングセットを使用して学習されています。

Transformers 英語

Wav2vec2 Xls R 300m Adult Child Cls

facebook/wav2vec2-xls-r-300mをベースに微調整された成人と子供の音声分類モデルで、正解率は94.04%に達します。

Harveenchadha/vakyansh - wav2vec2 - bengali - bnm - 200をベースに微調整したベンガル語自動音声認識(ASR)モデル

Wav2vec2 Large Xls R 300m Spanish Small

wav2vec2-large-xls-r-300mアーキテクチャに基づくスペイン語音声認識モデルで、汎用音声データセットで微調整され、単語誤り率（WER）は0.1791です。

これはwav2vec2-large-xlsr-53モデルをcommon_voiceデータセットで微調整した中国語（普通話）の音声認識モデルです。

Wav2vec2 Base Russian Modified Kaggle

このモデルは、facebook/wav2vec2-baseを未知のデータセットで微調整したバージョンで、ロシア語音声処理タスクに適しています。

Wav2vec2 Base Timit Demo Colab

facebook/wav2vec2-baseモデルをTIMITデータセットで微調整した音声認識モデルで、主に英語の音声を文字に変換するタスクに使用されます。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase