モデル選定

低リソース音声認識

# 低リソース音声認識

Whisper Akan Finetuned

Whisperアーキテクチャに基づく自動音声認識モデルで、特定の言語や方言に対して微調整されています

KinyaWhisperはOpenAI Whisperモデルをファインチューニングしたルワンダ語自動音声認識(ASR)システムで、低リソースの先住民言語向けに設計されています。

Transformers その他

Wav2vec2 Large Mms 1b Wolof

このモデルはfacebook/mms-1b-allをIsma/alffa_wolofデータセットでファインチューニングしたバージョンで、ウォロフ語の自動音声認識（ASR）タスク専用に設計されています。

Safetensors その他

Xlsr 53 Bemba 5hrs

facebook/wav2vec2-large-xlsr-53をファインチューニングした音声認識モデルで、Bemba語をサポート

Wav2vec2 Large 10min Lv60 Self

このモデルはWav2Vec2アーキテクチャに基づく大規模音声認識モデルで、Libri-LightとLibrispeechの10分間データで事前学習と微調整が行われ、自己学習目標を使用してトレーニングされました。16kHzサンプリングレートの音声オーディオに適しています。

Transformers 英語

facebook/wav2vec2-xls-r-300mをタミル語データセットでファインチューニングした自動音声認識モデル

Transformers その他

Wav2vec2 Xls R 300m Bas CV8 V2

facebook/wav2vec2-xls-r-300mをベースにCommon Voice 8データセットでファインチューニングされた自動音声認識モデルで、バスク語(bas)をサポートします。

Transformers その他

Asr Hubert Cluster Bart Base

HubertとBARTアーキテクチャに基づく自動音声認識モデルで、クラスタリング特徴変換を通じて音声からテキストへの変換を実現します。

Transformers 複数言語対応

Wav2vec2 Large Xlsr Egyptian

facebook/wav2vec2-large-xlsr-53モデルをファインチューニングしたエジプトアラビア語自動音声認識モデルで、16kHzサンプリングレートの音声入力をサポートします。

Transformers その他

Wav2vec2 Large Xlsr 53 Rm Vallader

facebook/wav2vec2-large-xlsr-53モデルを微調整したロマンシュ語ヴァラディエル方言の音声認識モデルで、単語誤り率は32.89%です。

Unispeech 1350 En 90 It Ft 1h

UniSpeechは、教師あり音素CTC学習と自己教師あり学習を組み合わせた統一音声表現学習モデルで、特にイタリア語向けにファインチューニングされています。

Transformers その他

Wav2vec2 Xls R 1b Hi Cv8

これはfacebook/wav2vec2-xls-r-1bモデルをCommon Voice 8.0ヒンディー語データセットでファインチューニングした自動音声認識モデルで、ヒンディー語の音声をテキストに変換するタスクをサポートします。

Transformers その他

Wav2vec2 Base 100h

Wav2Vec2基礎版は、16kHzサンプリングのLibrispeech音声オーディオで100時間の事前学習と微調整を行った自動音声認識モデルです。

Transformers 英語

facebook/wav2vec2-large-xlsr-53をファインチューニングしたエジプトアラビア語自動音声認識モデルで、arabicspeech.org MGB-3データセットでトレーニングされています。

Transformers アラビア語

Wav2vec2 Large Xlsr Rm Sursilv

これはfacebook/wav2vec2-large-xlsr-53モデルを基にファインチューニングした自動音声認識モデルで、ロマンシュ語のスルシルヴァ方言を識別するために特別に設計されています。

Xls R 300m Ur Cv7

このモデルは、facebook/wav2vec2-xls-r-300mをMOZILLA - FOUNDATION/COMMON_VOICE_7_0 - URデータセットで微調整したウルドゥー語自動音声認識(ASR)モデルです。

Transformers その他

HarrisDePerceptron

これはXLS - Rアーキテクチャに基づき、Common Voice 8.0ウルドゥー語データセットで微調整された自動音声認識モデルで、単語誤り率(WER)は47.38です。

Transformers その他

HarrisDePerceptron

Xlsr Large 53 Ur

このモデルは、facebook/wav2vec2-large-xlsr-53をベースに、Common Voice 8.0ウルドゥー語データセットで微調整された自動音声認識モデルです。

Transformers その他

HarrisDePerceptron

Wav2vec2 Xls R 60 Urdu

このモデルはfacebook/wav2vec2-large-xlsr-53をCommon Voiceウルドゥー語データセットでファインチューニングした自動音声認識モデルです

Transformers その他

Facebookのwav2vec2-xls-r-1bモデルをファインチューニングしたウルドゥー語自動音声認識(ASR)モデルで、Common Voice 8.0ウルドゥー語データセットでトレーニングされています

Transformers その他

HarrisDePerceptron

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase