モデル選定

汎用音声データセット

# 汎用音声データセット

Wav2vec2 Base Cv 10000

wav2vec2-base-cvをベースに汎用音声データセットでファインチューニングした音声認識モデルで、評価セットで36.84%の単語誤り率を達成しました。

COMMON_VOICE - FAデータセットを基に微調整されたペルシア語自動音声認識モデル

Transformers その他

Wav2vec Tr Lite AG

これはXLSR Wav2Vec2アーキテクチャに基づくトルコ語自動音声認識モデルで、汎用音声トルコ語データセットでトレーニングされています

音声認識その他

Wav2vec2 Large Xlsr Kinyarwanda Apostrophied

facebook/wav2vec2-large-xlsr-53をベースにルワンダ語で微調整したモデルで、代名詞と母音で始まる単語の省略形のアポストロフィの予測をサポートします。

音声認識その他

Wav2vec2 Large Xlsr Portuguese

Facebookのwav2vec2-large-xlsr-53アーキテクチャをベースに微調整されたポルトガル語自動音声認識モデルで、汎用音声データセットで学習され、単語誤り率は13.77%です。

音声認識その他

Wav2vec2 Base Checkpoint 14

wav2vec2アーキテクチャに基づく音声認識モデルで、汎用音声データセットでファインチューニングされています

Wav2vec2 Large Xlsr Mongolian

facebook/wav2vec2-large-xlsr-53をモンゴル語汎用音声データセットでファインチューニングした自動音声認識モデル

音声認識その他

Wav2vec2 Large Xlrs Estonian

これは、facebook/wav2vec2-large-xlsr-53モデルをベースに、エストニア語の汎用音声データセットで微調整された自動音声認識（ASR）モデルです。

音声認識その他

Wav2vec2 Large Xlsr Luganda

facebook/wav2vec2-large-xlsr-53モデルをファインチューニングしたルガンダ語音声認識モデルで、汎用音声データセットで訓練され、単語誤り率29.52%

音声認識その他

Wav2vec2 Large Xlsr Frisian

これはfacebook/wav2vec2-large-xlsr-53モデルをフリジア語で微調整した自動音声認識モデルで、汎用音声データセットを使用して訓練されています。

Xlsr Wav2vec English

facebook/wav2vec2-largeを汎用音声データセットで英語にファインチューニングした自動音声認識モデルで、16kHzサンプリングレートの音声入力をサポートします。

Transformers 英語

Wav2vec2 Large Xlsr Mongolian

facebook/wav2vec2-large-xlsr-53を基に汎用音声データセットでモンゴル語向けにファインチューニングした自動音声認識モデル

Transformers その他

Wav2vec2 Xls R 300m Zh CN

このモデルはfacebook/wav2vec2-xls-r-300mを汎用音声データセットZH-CNでファインチューニングした自動音声認識(ASR)モデルで、中国語普通話の認識をサポートします。

Transformers その他

Wav2vec2 Xls R 300m Hy AM CV8 V1

facebook/wav2vec2-xls-r-300mを基に汎用音声データセットでファインチューニングした音声認識モデル

Wav2vec2 Xls R 300m Es

このモデルは、facebook/wav2vec2-xls-r-300mをCOMMON_VOICE - ESデータセットでファインチューニングしたスペイン語自動音声認識モデルです。

Transformers スペイン語

Wav2vec2 Large Xlsr 53 Chuvash

facebook/wav2vec2-large-xlsr-53モデルをベースに微調整されたチュヴァシ語自動音声認識モデルで、汎用音声データセットで訓練され、単語誤り率は40.01%です。

音声認識その他

Wav2vec2 Large Xlsr 53 Sah CV8

facebook/wav2vec2-large-xlsr-53をベースに、汎用音声ヤクート語データセットで微調整した音声認識モデル

Transformers その他

Wav2vec2 Xls R 300m Urdu

Facebookの3億パラメータの音声認識モデルで、ウルドゥー語に合わせて微調整され、汎用音声8.0ウルドゥー語データセットを基に訓練されています。

Base Spanish Asr

汎用音声データセットでトレーニングされたスペイン語音声認識モデル、wav2vec2アーキテクチャを採用

Wav2vec2 Large Xls R 300m Spanish Small

wav2vec2-large-xls-r-300mアーキテクチャに基づくスペイン語音声認識モデルで、汎用音声データセットで微調整され、単語誤り率（WER）は0.1791です。

Wav2vec2 Xlsr Multilingual 56

これは56言語をサポートする多言語自動音声認識（ASR）モデルで、facebook/wav2vec2-large-xlsr-53を汎用音声データセットで微調整して作成されました。

Transformers 複数言語対応

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase