モデル選定

低リソース音声処理

# 低リソース音声処理

Whisper Small Ta

このモデルは、OpenAIのWhisper Smallをタミル語のCommon Voice 17.0データセットでファインチューニングした音声認識モデルで、単語誤り率(WER)は43.23%です。

Transformers その他

Whisper Fa Tinyyy

OpenAI Whisper-tinyをファインチューニングしたペルシャ語自動音声認識モデル、common_voice_11_0データセットでトレーニング

Transformers その他

Mms 300m Arabic Dialect Identifier

このモデルはMMS-300mをファインチューニングしたアラビア語方言音声認識モデルで、現代標準アラビア語および4つの主要なアラビア語方言を識別できます。

Transformers アラビア語

My Frugal Audio Model

これはfacebook/wav2vec2-baseをファインチューニングした音声処理モデルで、主に音声関連タスクに使用されます

Xls R Greek Cretan

クレタ方言向け初の自動音声認識(ASR)モデルで、ギリシャ語XLS-Rモデルをファインチューニングして訓練されました。

Arabic Alphabet Speech Classification

これはアラビア文字の発音を認識・分類するtransformersモデルです。

Whisper Large V3 Taiwanese Hakka

Whisper-large-v3をファインチューニングした台湾客家語音声認識モデルで、複数の客家語方言をサポート

Transformers その他

Wav2vec2 Large Xls R 300m Albanian Colab

このモデルは、facebook/wav2vec2-xls-r-300mをcommon_voice_albanianデータセットで微調整した音声処理モデルで、アルバニア語関連のタスクに適しています。

Viet Tones Model

wav2vec2-base-vietnamese-250hをファインチューニングしたベトナム語声調識別モデル、精度59.72%

Vegam Whisper Medium Ml

これはthennal/whisper-medium-mlをCTranslate2モデル形式に変換したバージョンで、マラヤーラム語音声認識に使用されます

音声認識その他

Exp W2v2t Th Hubert S533

facebook/hubert-large-ll60kをベースにファインチューニングしたタイ語音声認識モデル、トレーニングデータはCommon Voice 7.0から取得

Transformers その他

Ai Light Dance Stepmania Ft Wav2vec2 Large Xlsr 53 V3

wav2vec2-large-xlsr-53ベースの自動音声認識モデルで、GARY109/AI_LIGHT_DANCEデータセットでファインチューニング済み

Asr Wav2vec2 Dvoice Amharic

これはアムハラ語向けの自動音声認識モデルで、wav2vec 2.0アーキテクチャとCTC/Attentionメカニズムを使用してトレーニングされています

音声認識その他

Wav2vec2 Xls R 300m Mrbrown Finetune1

facebook/wav2vec2-xls-r-300m事前学習モデルをベースに、uob_singlishデータセットで微調整した音声認識モデル

Malaya Speech Mrbrown Finetune1

このモデルはuob_singlishデータセットを使用してwav2vec2-xls-r-300m-mixedを微調整したバージョンで、シンガポール英語音声認識に特化しています。

One Simple Finetune Test

このモデルはli_singlishデータセットを使用してRuiqianLi/wav2vec2-large-xls-r-300m-singlish-colabをファインチューニングしたバージョンで、主にシンガポール英語音声認識タスクに使用されます。

このモデルはfacebook/wav2vec2-large-xlsr-53を未知のデータセットでファインチューニングした音声認識モデルで、アラビア語方言(Arabizi)の認識をサポートします。

Speech Processing Project Wav2vec2

このモデルはkingabzpro/wav2vec2-urduをファインチューニングした音声処理モデルで、特定の音声認識タスクに適しています。

Filipino Wav2vec2 L Xls R 300m Test

このモデルはfacebook/wav2vec2-xls-r-300mをfilipino_voiceデータセットでファインチューニングした音声認識モデルで、フィリピン語をサポートしています。

Wav2vec2 Large 100h Lv60 Self

Wav2Vec2-Large-100h-Lv60は、100時間のLibri-LightとLibrispeech音声データを用いて事前学習と微調整を行った大規模モデルで、自己訓練目標で訓練されており、16kHzサンプリングレートの音声認識タスクに適しています。

Transformers 英語

Wav2vec2 Common Voice Tr Demo

このモデルはfacebook/wav2vec2-large-xlsr-53をトルコ語Common Voiceデータセットでファインチューニングした音声認識モデルです

Transformers その他

Wav2vec2 Large Xlsr Turkish

facebook/wav2vec2-large-xlsr-53をトルコ語Common Voiceデータセットでファインチューニングした音声認識モデル

音声認識その他

このモデルはCommon Voice 7.0 ABデータセットで微調整された自動音声認識モデルで、XLS - Rダミーアーキテクチャに基づいています。

Transformers その他

HIYACCENT Wav2Vec2

HIYACCENTはナイジェリア英語アクセントに最適化された音声認識システムで、Wav2Vec2アーキテクチャを改良し、認識性能を20％以上向上させました。

Wav2vec2 XLS R 300m Konkani

facebook/wav2vec2-xls-r-300mをプライベートデータセットでファインチューニングした自動音声認識モデルで、ロバストな音声イベント処理能力を備えています。

StephennFernandes

Wav2vec2 Large Xlsr Tamil Commonvoice

このモデルはfacebook/wav2vec2-large-xlsr-53をcommon_voiceタミル語データセットでファインチューニングした音声認識モデルです

Wav2vec2 Large Xlsr 53 Ir

wav2vec2-large-xlsr-53を微調整したアイルランド・ゲール語自動音声識別モデルで、Common Voice 7.0データセットで訓練されました。

Wav2vec2 Large Xlsr Upper Sorbian Mixed

これはfacebook/wav2vec2-large-xlsr-53をファインチューニングした上ソルブ語音声認識モデルで、トレーニングデータはCommon Voiceデータセットとオンラインソルブ語コースから取得されています。

音声認識その他

Wav2vec2 Large Xlsr 53 Hungarian

これはfacebook/wav2vec2-large-xlsr-53モデルを微調整したハンガリー語自動音声認識モデルで、一般音声データセットを使用して訓練されています。

音声認識その他

Wav2vec2 Xls R 300m W2V2 XLSR 300M YAKUT SMALL

これはfacebook/wav2vec2-xls-r-300mモデルをヤクート語（サハ語）音声データセットで微調整した音声認識モデルです。

Transformers その他

DistilHuBERTは、HuBERTモデルを階層的に蒸留することで実現された軽量版の音声表現学習モデルで、性能を維持しながらモデルサイズと計算コストを大幅に削減します。

Transformers 英語

microsoft/wavlm-base-plusをベースに、PHONGDTD/VINDATAVLSP - NAデータセットで微調整したベトナム語自動音声認識モデル

Sew D Small 100k Ft Timit

asapp/sew-d-small-100kを基にTIMIT_ASRデータセットで微調整された自動音声認識モデル

patrickvonplaten

Wav2vec2 Xls R 300m Lg

このモデルはfacebook/wav2vec2-xls-r-300mをCOMMON_VOICE - LGデータセットでファインチューニングした音声認識モデルで、ルガンダ語(lg)の自動音声認識タスクをサポートします。

Transformers その他

Wav2vec2 Base 10k 8khz Pt Cv7 2

このモデルはwav2vec2アーキテクチャに基づくポルトガル語自動音声認識モデルで、Common Voice 7データセットで微調整されており、8kHzサンプリングレートのオーディオ入力をサポートします。

Transformers その他

Wav2vec2 Large Xls Ar

facebook/wav2vec2-large-xlsr-53モデルを基にファインチューニングしたアラビア語自動音声認識モデルで、Common Voiceアラビア語データセットでテストしたWERは52%です。

Transformers アラビア語

Wav2vec2 Large 960h

Wav2Vec2はFacebookが開発した音声認識モデルで、自己教師あり学習により生の音声から音声表現を学習し、LibriSpeechデータセットで微調整され、高精度な音声転写を実現します。

Transformers 英語

Xlrs 53 Finnish

XLSR-Wav2Vec2は多言語音声認識モデルで、言語間事前学習により共有音声表現を学習し、53言語をサポートします。

音声認識その他

Wav2vec2 Large Xlsr Turkish Demo Colab

このモデルはfacebook/wav2vec2-large-xlsr-53をCommon Voiceデータセットでファインチューニングしたトルコ語音声認識モデルです

patrickvonplaten

Wav2vec2 Base 10k Voxpopuli Ft Sk

VoxPopuliコーパスの10Kの未ラベルデータで事前学習され、スロバキア語の転写データでファインチューニングされた音声認識モデル

Transformers その他

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase