モデル選定

16kHz音声対応

# 16kHz音声対応

Wav2vec2 Xlsr Multilingual 53 Fa

wav2vec 2.0アーキテクチャに基づく多言語音声認識モデルで、ペルシア語向けに特別にファインチューニングされており、単語誤り率を大幅に低減

Wav2vec2 Large Xlsr 53 Breton

facebook/wav2vec2-large-xlsr-53をブルトン語でファインチューニングした音声認識モデル

音声認識その他

Wav2vec2 Base Da Voxpopuli V2

Facebook Wav2Vec2アーキテクチャに基づく音声モデルで、デンマーク語に特化して事前学習されており、VoxPopuliコーパスの13.6kの未ラベルデータを使用しています。

Transformers その他

Wav2vec2 Large Superb Ks

Wav2Vec2-Large-LV60事前学習モデルを基に、SUPERBキーワード検出タスクでファインチューニングした音声分類モデル

Transformers 英語

Wav2vec2 Large Xlsr Georgian

facebook/wav2vec2-large-xlsr-53モデルをファインチューニングしたジョージア語自動音声認識モデル、16kHzサンプリングレートの音声入力をサポート

Transformers その他

Wav2vec2 Large Xlsr 53 Dhivehi V2

facebook/wav2vec2-large-xlsr-53モデルを基に、Common Voiceのディベヒ語データでファインチューニングした自動音声認識モデルです。

Transformers その他

Sew D Tiny 100k

SEW-DはASAPP Researchが開発した圧縮効率型音声事前学習モデルで、16kHzサンプリングの音声データで事前学習されており、様々な下流音声タスクに適用可能です。

Transformers 英語

Wav2vec2 Large Xlsr 53 Vietnamese

facebook/wav2vec2-large-xlsr-53モデルをベトナム語向けにファインチューニングした自動音声認識モデルで、16kHzサンプリングレートの音声入力をサポートします。

Transformers その他

Hubert Large Superb Ks

Hubert-Largeアーキテクチャに基づくキーワード検出モデルで、SUPERBベンチマークで優れた性能を発揮

Transformers 英語

Wav2vec2 Large Fr Voxpopuli French

facebook/wav2vec2-large-fr-voxpopuliをファインチューニングしたフランス語音声認識モデル、Common Voice 6.1フランス語データセットでトレーニング、16kHz音声入力に対応

音声認識フランス語

Unispeech 1350 En 17h Ky Ft 1h

マイクロソフトUniSpeechアーキテクチャに基づく音声認識モデルで、キルギス語向けに特別にファインチューニングされています

Transformers その他

Wav2vec2 Large West Germanic Voxpopuli V2

FacebookのWav2Vec2大型モデルで、西ゲルマン語系のVoxPopuliコーパス66.3時間の未注釈データのみで事前学習されています。

Wav2vec2 Large Xlsr 53 Estonian

facebook/wav2vec2-large-xlsr-53モデルを基に、Common Voiceデータセットでエストニア語にファインチューニングした自動音声認識モデル

Transformers その他

W2v Hf Commonvoice From Xlsr53 Pretrain 0329UTC1500

facebook/wav2vec2-large-xlsr-53をCommon Voice日本語データセットでファインチューニングした音声認識モデル

Wav2vec2 Large Xlsr 53 Sakha

XLSR-53大規模モデルをファインチューニングしたヤクート語音声認識モデル、単語誤り率32.23%

音声認識その他

Wav2vec2 Base Vn 270h

約270時間のベトナム語注釈データでファインチューニングされた音声認識モデルで、ベトナム語の自動音声認識タスクをサポート

音声認識その他

Wav2vec2 Large Xlsr 53 Dutch

facebook/wav2vec2-large-xlsr-53をオランダ語Common Voiceデータセットでファインチューニングした自動音声認識モデルで、テストWERは17.09%です。

Transformers その他

Wav2vec2 Large Xlsr Vietnamese

facebook/wav2vec2-large-xlsr-53モデルをベースにファインチューニングしたベトナム語自動音声認識モデル

音声認識その他

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase