モデル選定

wav2vec2アーキテクチャ

# wav2vec2アーキテクチャ

Japanese Wav2vec2 Base

rinna株式会社によってトレーニングされた日本語wav2vec 2.0ベースモデル、ReazonSpeechデータセットに基づいてトレーニング

Transformers 日本語

Wav2vec2 Base Finetuned Amd

このモデルはfacebook/wav2vec2-baseを未知のデータセットでファインチューニングしたバージョンで、主に音声認識タスクに使用され、評価セットで84.55%の精度を達成しています。

Wav2vec2 Large Xlsr 53 Gender Recognition Librispeech

Librispeech-clean-100データセットで微調整された性別認識モデルで、テストセットでF1スコア0.9993を達成

Wav2vec2 Spoof Dection1

facebook/wav2vec2-baseをasvspoof2019データセットでファインチューニングした音声偽造検出モデル

Wav2vec2 Base Vi Vlsp2020

wav2vec2アーキテクチャに基づくベトナム語自動音声認識モデル。13,000時間の未ラベルYouTube音声で事前学習され、250時間のラベル付きデータで微調整されています。

Transformers その他

Wav2vec2 Conformer Rel Pos Large 960h Ft Intent Classification Ori

このモデルはfacebook/wav2vec2-conformer-rel-pos-large-960h-ftをファインチューニングした音声意図分類モデルで、評価セットで58.33%の精度を達成しました。

MuhammadIqbalBazmi

Wav2vec2 Base Finetuned Ks

facebook/wav2vec2-baseモデルをベースにファインチューニングした音声認識モデルで、評価セットで87.27%の精度を達成しました。

Exp W2v2t Sv Se R Wav2vec2 S418

facebook/wav2vec2-large-robustモデルをファインチューニングしたスウェーデン語自動音声認識モデルで、16kHzサンプリングレートの音声入力をサポートします。

Exp W2v2t Fr Vp Fr S438

facebook/wav2vec2-large-fr-voxpopuliモデルを基にファインチューニングしたフランス語自動音声認識モデルで、Common Voice 7.0フランス語データセットでトレーニングされています。

Transformers フランス語

Exp W2v2t Th Wav2vec2 S664

facebook/wav2vec2-large-lv60モデルをファインチューニングしたタイ語音声認識モデル、Common Voice 7.0データセットでトレーニング

Transformers その他

facebook/wav2vec2-base-960hをファインチューニングした音声認識モデル

facebook/wav2vec2-base-960hをベースにファインチューニングした音声認識モデルで、評価セットでの単語誤り率は1.0

このモデルはfacebook/wav2vec2-baseをファインチューニングした音声認識モデルで、評価セットで0.4949の単語誤り率を達成しました。

Wav2vec2 Base Timit Demo Colab240

facebook/wav2vec2-baseモデルをファインチューニングした音声認識モデルで、TIMITデータセットでトレーニングされています

My Final Wav2vec2 Urdu Asr Project

これはwav2vec2アーキテクチャに基づくウルドゥー語自動音声認識(ASR)モデルで、ゼロからトレーニングされています。

Wav2vec2 Base Timit Demo Colab3

このモデルはfacebook/wav2vec2-baseをベースにファインチューニングされた音声認識モデルで、TIMITデータセットで0.6704の単語誤り率を達成しました。

Wav2vec2 Base Timit Demo Colab

wav2vec2-baseモデルをTIMITデータセットでファインチューニングした音声認識モデル

Common Voice Lithuanian Fairseq

Common Voiceデータセットでトレーニングされたリトアニア語自動音声認識モデルで、wav2vec2アーキテクチャとfairseqフレームワークを使用しています。

Transformers その他

Wav2vec2 Base Toy Train Data Random High Pass

facebook/wav2vec2-baseを空データセットでファインチューニングした音声認識モデルで、ランダムハイパスフィルタ技術を使用してトレーニングデータを処理しました

Wav2vec2 Pretrained Clsril 23 10k

自己教師付き学習に基づく音声事前学習モデルで、23種類のインド語の生の音声から多言語音声表現を学習できます。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase