Phi 4 Multimodal Instruct
MIT
Phi-4-multimodal-instructは、テキスト、画像、音声入力をサポートし、テキスト出力を生成する軽量オープンソースのマルチモーダル基盤モデルで、128Kトークンのコンテキスト長を備えています。
マルチモーダル融合
Transformers 複数言語対応

P
mjtechguy
18
0
Whisper Uz
Apache-2.0
Whisper Baseをファインチューニングしたウズベク語音声認識モデル、Common Voiceデータセットでトレーニング済み
音声認識
Transformers その他

W
jamshidahmadov
1,179
3
Ultravox V0 4 ToolACE 8B
これは🤗 transformersモデルの説明カードで、音声テキストからテキストへのタスク用にHubプラットフォームにプッシュされています。
音声認識
Transformers

U
fixie-ai
1,178
1
Qwen Audio Nf4
Qwen-Audio-nf4はQwen-Audioの量子化バージョンで、複数の音声入力とテキスト出力をサポートします
音声生成テキスト
Transformers 複数言語対応

Q
Ostixe360
134
1
Wav2vec2 Large Xlsr 53 Tr Fine Tuning Deprecated
Apache-2.0
このモデルはfacebook/wav2vec2-large-xlsr-53をcommon_voiceトルコ語データセットでファインチューニングした音声認識モデルです
音声認識
Transformers

W
bekirbakar
17
0
English Filipino Wav2vec2 L Xls R Test 07
Apache-2.0
このモデルはjonatasgrosman/wav2vec2-large-xlsr-53-englishをベースにフィリピン語音声データセットでファインチューニングしたバージョンで、英語からフィリピン語への音声認識タスクに主に使用されます。
音声認識
Transformers

E
Khalsuu
24
0
Wav2vec2 Xlsr Nepali
Apache-2.0
このモデルはfacebook/wav2vec2-large-xlsr-53をネパール語データセットでファインチューニングした音声認識モデルです。
音声認識
W
shishirAI
22
2
Wav2vec2 Large Xls R 300m Irish Colab Test
Apache-2.0
これはfacebook/wav2vec2-xls-r-300mモデルをcommon_voiceアイルランド語データセットでファインチューニングした音声認識モデルで、主にアイルランド語の自動音声認識タスクに使用されます。
音声認識
Transformers

W
jfealko
24
0
Wav2vec2 Large Xls R 300m Welsh
Apache-2.0
これはfacebook/wav2vec2-xls-r-300mをウェールズ語データセットでファインチューニングした自動音声認識モデルで、Common Voice 7ウェールズ語テストセットで31.003%の単語誤り率と7.775%の文字誤り率を達成しました。
音声認識
Transformers その他

W
infinitejoy
89
0
Wav2vec2 Base 10k Voxpopuli Ft Hr
Facebook Wav2Vec2アーキテクチャに基づく音声認識モデルで、VoxPopuliコーパスで事前学習されクロアチア語データでファインチューニングされています
音声認識
Transformers その他

W
facebook
20
0
Wav2vec2 Large North Germanic Voxpopuli V2
北ゲルマン語系VoxPopuliコーパスで事前学習された大規模音声モデル
音声認識
Transformers

W
facebook
25
0
Xls R Et V 3
Apache-2.0
このモデルは、facebook/wav2vec2 - xls - r - 1bをエストニア語データセットでファインチューニングした自動音声認識モデルです。
音声認識
Transformers その他

X
vasilis
41
0
S2t Small Covost2 En Ca St
MIT
これはTransformerベースのエンドツーエンド音声翻訳モデルで、英語音声をカタルーニャ語テキストに翻訳するために特別に設計されています。
音声認識
Transformers 複数言語対応

S
facebook
15
0
S2t Wav2vec2 Large En Tr
MIT
Transformerベースのエンドツーエンド音声翻訳モデルで、英語からトルコ語への音声テキスト変換タスク用
音声認識
Transformers 複数言語対応

S
facebook
55
3
Output
このモデルは、アブハズ語データセットでファインチューニングされた自動音声認識モデルで、XLS-Rアーキテクチャに基づいています
音声認識
Transformers その他

O
deepdml
25
0
Wav2vec2 Large Xlsr Slovene
Apache-2.0
これはFacebookのwav2vec2-large-xlsr-53モデルを微調整したスロベニア語音声認識モデルで、Common Voiceデータセットを使用して訓練されています。
音声認識 その他
W
mrshu
23
2
Wav2vec2 Xls R 300m Turkish Tr Med
Apache-2.0
このモデルは、facebook/wav2vec2-xls-r-300mを一般的な音声データセットで微調整したトルコ語音声認識モデルです。
音声認識
Transformers

W
emre
22
0
Wav2vec2 Large El Voxpopuli V2
VoxPopuliコーパスを基に事前学習されたギリシャ語音声認識モデルで、17.7時間の未ラベル付きデータを使用しています。
音声認識
Transformers その他

W
facebook
24
0
Wav2vec2 Large West Germanic Voxpopuli V2
FacebookのWav2Vec2大型モデルで、西ゲルマン語系のVoxPopuliコーパス66.3時間の未注釈データのみで事前学習されています。
音声認識
Transformers

W
facebook
25
1
Wav2vec2 Large Xlsr Rm Sursilv
Apache-2.0
これはfacebook/wav2vec2-large-xlsr-53モデルを基にファインチューニングした自動音声認識モデルで、ロマンシュ語のスルシルヴァ方言を識別するために特別に設計されています。
音声認識
W
gchhablani
27
0
S2t Small Covost2 En Et St
MIT
これはTransformerベースのエンドツーエンド音声翻訳モデルで、英語音声をエストニア語テキストに変換するために特別に設計されています。
音声認識
Transformers 複数言語対応

S
facebook
15
0
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98