モデル選定

低単語誤り率（WER）

# 低単語誤り率（WER）

Wav2vec2 Base Vietnamese 250h

wav2vec 2.0アーキテクチャに基づくベトナム語自動音声認識モデルで、13,000時間の未ラベル付きオーディオと250時間のラベル付きデータで訓練されています。

Transformers その他

Wav2vec2 Large Xlsr Catala

facebook/wav2vec2-large-xlsr-53モデルをベースに微調整されたカタルーニャ語音声認識モデルで、一般音声データベースと議会音声データベースのデータで訓練されています。

音声認識その他

Wav2vec2 Large Voxrex Swedish

VoxRex大型モデルを微調整したスウェーデン語自動音声認識モデルで、16kHzサンプリングレートの音声入力をサポートします。

Transformers その他

Nb Wav2vec2 300m Nynorsk

VoxRex特徴抽出器をベースに微調整された3億パラメータの音声認識モデルで、ニューノルウェー語（Nynorsk）に最適化されており、NPSCテストセットでのWERは12.22%です。

Transformers その他

Wav2vec2 Large Xlsr 53 Spanish

facebook/wav2vec2-large-xlsr-53モデルをベースに微調整されたスペイン語自動音声認識（ASR）モデルで、Common Voiceスペイン語データセットで訓練され、16kHzのサンプリングレートの音声入力をサポートします。

音声認識スペイン語

Wav2vec2 Xls R 300m Rm Sursilv D11

このモデルは、facebook/wav2vec2-xls-r-300mをベースに、ロマンシュ語 - スルシルヴァ方言データセットで微調整された自動音声認識モデルです。Common Voice 8テストセットで24.09%の単語誤り率（WER）を達成しました。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase