Phi 4 Multimodal Instruct Commonvoice Zh Tw
MIT
microsoft/Phi-4-multimodal-instructをファインチューニングした台湾標準中国語音声認識モデルで、台湾標準中国語汎用音声19.0データセットでトレーニング済み
音声生成テキスト
Transformers 中国語

P
JacobLinCool
28
1
Phi 4 Multimodal Instruct Ko Asr
microsoft/Phi-4-multimodal-instructを微調整した韓国語自動音声認識(ASR)および音声翻訳(AST)モデルで、zeroth-koreanとfleursデータセットで優れた性能を発揮します。
テキスト生成オーディオ
Transformers 韓国語

P
junnei
354
3
Whisper Large V3 Cantonese
Apache-2.0
Whisper v3を微調整した広東語自動音声認識モデル、Common Voice 17データセットで訓練
音声認識
Transformers その他

W
khleeloo
25
4
Japanese Wav2vec2 Large Rs35kh
Apache-2.0
wav2vec 2.0 Largeアーキテクチャに基づき、大規模な日本語ASRコーパスReazonSpeech v2.0でファインチューニングされた日本語自動音声認識モデル
音声認識
Transformers 日本語

J
reazon-research
244
1
Court Records Htr
MIT
マイクロソフトTrOCRをファインチューニングした手書き文字認識モデルで、19世紀のフィンランド語とスウェーデン語の裁判記録文書に特化
文字認識
C
Kansallisarkisto
24
0
Hubert Uk
mHuBERT-147基本モデルを基に訓練されたウクライナ語自動音声認識モデルで、ウクライナ語音声からテキストへの変換タスクをサポートします。
音声認識 その他
H
Yehor
31
4
Belle Whisper Large V2 Zh
Apache-2.0
whisper-large-v2を微調整した中国語音声認識モデルで、複数の中国語音声認識ベンチマークテストにおいて30-70%の相対的性能向上を実現しました。
音声認識
Transformers

B
BELLE-2
140
33
Trocr Base Handwritten OCR Handwriting Recognition V2
マイクロソフトのtrocr-base-handwrittenを微調整した手書きOCRモデルで、評価データセットにおける文字誤り率(CER)は0.0360
文字認識
Transformers 英語

T
DunnBC22
269
16
Trocr Base Printed License Plates Ocr
microsoft/trocr-base-printedを微調整したOCRモデルで、ナンバープレートのテキスト認識に特化
文字認識
Transformers 英語

T
DunnBC22
517
9
Trocr Base Printed Captcha Ocr
microsoft/trocr-base-printedを基に微調整したキャプチャOCRモデルで、画像キャプチャからテキストを抽出します。
文字認識
Transformers 英語

T
DunnBC22
272
8
Whisper Large V2 Mn 13
Apache-2.0
OpenAIのwhisper-large-v2モデルをモンゴル語データセットでファインチューニングした音声認識モデルで、モンゴル語の自動音声認識タスクをサポートします。
音声認識
Transformers その他

W
bayartsogt
161
6
Whisper Large V2 Cantonese
Apache-2.0
OpenAI Whisper Large V2モデルを微調整した広東語自動音声認識(ASR)モデルで、Common Voice 11.0広東語データセットで訓練され、文字誤り率(CER)は6.21%です。
音声認識
Transformers その他

W
Scrya
210
7
Whisper Large V2 Cantonese
Apache-2.0
OpenAI Whisper Large V2を広東語データセットでファインチューニングした自動音声認識モデルで、テストセットで6.7274%の文字誤り率を達成
音声認識
Transformers その他

W
simonl0909
131
12
Wav2vec2 Bloom Speech Tgl
その他
facebook/wav2vec2-xls-r-300mをファインチューニングしたタガログ語音声認識モデル
音声認識
Transformers その他

W
sil-ai
3,412
0
Wav2vec2 Large Xlsr 53 Cantonese
Apache-2.0
facebook/wav2vec2-large-xlsr-53モデルをベースに、Common Voiceコーパス8.0版で広東語にファインチューニングした音声認識モデル
音声認識
Transformers その他

W
CAiRE
1,214
3
Wav2vec2 Xls R 1b Italian Doc4lm 5gram
Apache-2.0
XLS-R 10億パラメータモデルをファインチューニングしたイタリア語音声認識モデルで、言語モデル対応の認識をサポート
音声認識
Transformers その他

W
radiogroup-crits
19
1
Wav2vec2 Xlsr 300m Finnish Lm
Apache-2.0
facebook/wav2vec2-xls-r-300mをファインチューニングしたフィンランド語自動音声認識モデル。275.6時間のフィンランド語注釈データで訓練され、KenLM言語モデルとの連携使用をサポート。
音声認識
Transformers その他

W
Finnish-NLP
28.39k
0
Xls R Et
Apache-2.0
wav2vec2-xls-r-300mアーキテクチャをファインチューニングしたエストニア語自動音声認識モデル、Common Voice 7.0データセットでトレーニング
音声認識
Transformers その他

X
shpotes
23
0
Wav2vec2 Large Xlsr 53 Greek
Apache-2.0
facebook/wav2vec2-large-xlsr-53モデルをベースに微調整されたギリシャ語音声認識モデルで、16kHzサンプリングレートの音声入力に対応しています。
音声認識
Transformers その他

W
vasilis
25
0
Wav2vec2 Large Xls R 1b Indonesian
Apache-2.0
facebook/wav2vec2-xls-r-1bをCommon Voiceインドネシア語データセットでファインチューニングした自動音声認識モデル
音声認識
Transformers その他

W
kingabzpro
14
1
Wav2vec2 Large Xlsr 53 Persian
Apache-2.0
ペルシア語に最適化されたXLSR - 53大規模モデルの音声認識システムで、facebook/wav2vec2-large-xlsr-53アーキテクチャに基づいて微調整されています。
音声認識 その他
W
jonatasgrosman
257.76k
22
Wav2vec2 Xls R 300m Hy
Apache-2.0
facebook/wav2vec2-xls-r-300mモデルをアルメニア語データセットでファインチューニングした自動音声認識(ASR)モデルで、アルメニア語音声からテキストへの変換タスクをサポートします。
音声認識
Transformers その他

W
arampacha
25
0
Wav2vec2 Large Xlsr 53 Hungarian
Apache-2.0
これはハンガリー語音声認識タスクに対して微調整されたXLSR - 53大規模モデルで、Common VoiceとCSS10データセットを基に訓練されています。
音声認識 その他
W
jonatasgrosman
127.73k
9
Wav2vec2 Xls R 1b Italian Robust
Apache-2.0
facebook/wav2vec2 - xls - r - 1bをCommon Voice 7とLibri Speechデータセットでファインチューニングしたイタリア語自動音声認識モデル
音声認識
Transformers その他

W
dbdmg
130
0
Bp Cetuc100 Xlsr
Apache-2.0
CETUCデータセットを使用してブラジルポルトガル語向けにファインチューニングされたWav2vec2モデル。約145時間のブラジルポルトガル語音声データでトレーニング
音声認識
Transformers その他

B
lgris
22
0
Wav2vec2 Large Xlsr 53 Russian
Apache-2.0
facebook/wav2vec2-large-xlsr-53モデルをファインチューニングしたロシア語音声認識モデル、16kHzサンプリングレートの音声入力をサポート
音声認識 その他
W
jonatasgrosman
3.9M
54
Wav2vec2 Large Xls R 300m Ru
これはWav2Vec2 XLS-Rアーキテクチャに基づくロシア語自動音声認識モデルで、パラメータ規模は300m、公共音声およびロバスト音声イベントデータセットで評価されています。
音声認識
Transformers その他

W
mobedkova
37
1
Wav2vec2 Xlsr 1b Finnish
Apache-2.0
Facebookのwav2vec2-xls-r-1bモデルを基に、フィンランド語自動音声認識(ASR)向けに微調整したバージョン。259.57時間のフィンランド語注釈付き音声データで訓練
音声認識
Transformers その他

W
aapot
18
0
Wav2vec2 Xls R 300m Es
Apache-2.0
このモデルは、facebook/wav2vec2-xls-r-300mをCOMMON_VOICE - ESデータセットでファインチューニングしたスペイン語自動音声認識モデルです。
音声認識
Transformers スペイン語

W
samitizerxu
23
0
Wav2vec2 Large Xlsr 53 Polish
Apache-2.0
ポーランド語に最適化されたXLSR-53大規模音声認識システム、facebook/wav2vec2-large-xlsr-53を基にファインチューニング、ポーランド語自動音声認識をサポート
音声認識 その他
W
jonatasgrosman
412.13k
11
Wav2vec2 10july
Apache-2.0
これはXLSR Wav2Vec2アーキテクチャに基づくドイツ語自動音声認識モデルで、Common Voiceドイツ語データセットでファインチューニングされています。
音声認識
Transformers ドイツ語

W
sourabharsh
24
0
Wav2vec2 Large Xlsr 53 Estonian
Apache-2.0
facebook/wav2vec2-large-xlsr-53モデルを基に、Common Voiceデータセットでエストニア語にファインチューニングした自動音声認識モデル
音声認識
Transformers その他

W
vasilis
26
0
Wav2vec2 Large Xlsr 53 Finnish
Apache-2.0
facebook/wav2vec2-large-xlsr-53モデルをファインチューニングしたフィンランド語自動音声認識モデルで、16kHzサンプリングレートの音声入力をサポート
音声認識
Transformers その他

W
vasilis
27
0
Xlsr 300m CV 8.0 50 EP New Params Nl
Apache-2.0
これはXLS-Rアーキテクチャに基づく300Mパラメータの自動音声認識(ASR)モデルで、オランダ語に特化して最適化され、Common Voice 8.0データセットでトレーニングされました。
音声認識
Transformers その他

X
Iskaj
25
0
Xlsr300m Cv 7.0 Nl Lm
Apache-2.0
XLS-R-300M は自動音声認識(ASR)ベースのモデルで、オランダ語に特化して最適化されており、Common Voice 8 オランダ語データセットでトレーニングされています。
音声認識
Transformers その他

X
Iskaj
23
0
Wav2vec2 Large Xls R 300m Bg V1
Apache-2.0
これはfacebook/wav2vec2-xls-r-300mモデルをブルガリア語音声データセットでファインチューニングした自動音声認識(ASR)モデルです。
音声認識
Transformers その他

W
DrishtiSharma
16
1
Xls R 300m Pt
Apache-2.0
これはFacebookのwav2vec2-xls-r-300mモデルをポルトガル語Common Voice 8.0データセットでファインチューニングした自動音声認識モデルです
音声認識
Transformers その他

X
AlexN
28
1
XLSR 300M Nynorsk
Apache-2.0
XLSR-300Mアーキテクチャに基づく新ノルウェー語自動音声認識モデルで、NPSCデータセットでトレーニングされ、単語誤り率と文字誤り率が低いです。
音声認識
Transformers

X
NbAiLab
22
0
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98