Ultravox V0 5 Llama 3 1 8b
MIT
Llama-3.1-8B-Instructベースの多言語音声テキスト変換モデル、40以上の言語処理をサポート
大規模言語モデル
Transformers 複数言語対応

U
FriendliAI
218
0
Voila Autonomous Preview
MIT
Voilaは大規模な音声-言語基盤モデルファミリーで、人間と機械のインタラクション体験を向上させ、リアルタイムで低遅延の音声インタラクションと多言語処理をサポートします。
テキスト生成オーディオ
Transformers 複数言語対応

V
maitrix-org
332
8
Voila Tokenizer
MIT
Voilaは人間と機械のインタラクション体験を向上させるために設計された大規模な音声-言語基盤モデルシリーズで、様々な音声タスクと言語をサポートします。
テキスト生成オーディオ
Transformers 複数言語対応

V
maitrix-org
4,912
3
Speechless Llama3.2 V0.1
Apache-2.0
Speechlessはコンパクトなオープンソースのテキストからセマンティックへのモデル(10億パラメータ)で、従来のテキスト読み上げ(TTS)モデルに依存せず、オーディオを直接離散的なセマンティック表現タグに変換することを目的としています。
音声合成 複数言語対応
S
homebrewltd
28
3
Speechless Llama3.2 V0.1
Apache-2.0
無言はコンパクトなオープンソースのテキストからセマンティックモデル(10億パラメータ)で、従来のテキスト読み上げ(TTS)モデルに依存せずに、オーディオを直接離散的なセマンティックタグに変換することを目的としています。
音声認識 複数言語対応
S
Menlo
39
3
Wav2vec2 Nepali
Facebookのwav2vec2モデルをファインチューニングしたネパール語音声認識モデル
音声認識
Transformers その他

W
anish-shilpakar
312
1
Ast Finetuned Speech Commands V2
Bsd-3-clause
Speech Commands v2データセットでファインチューニングされた音声スペクトログラムトランスフォーマーモデルで、音声分類タスクに使用され、精度は98.12%です。
音声分類
Transformers

A
MIT
10.94k
15
Wav2vec Test
これはwav2vecアーキテクチャに基づく音声処理テストモデルで、具体的な用途とトレーニングデータは明記されていません。
音声認識
Transformers

W
eugenetanjc
73
0
Test Audio
MIT
Transformerベースのエンドツーエンド音声翻訳モデルで、フランス語から英語への音声翻訳タスク専用です。
音声認識
Transformers 複数言語対応

T
joaogante
19
0
Wav2vec2 Base Common Voice Fa Demo Colab
Apache-2.0
このモデルはfacebook/wav2vec2-baseをファインチューニングしたペルシャ語音声認識モデルで、ペルシャ語音声からテキストへの変換タスクに適しています。
音声認識
Transformers

W
zoha
15
0
Wav2vec2 Large Xlsr 300m Nepali
これはWav2Vec2アーキテクチャに基づくネパール語音声認識モデルで、ネパール語音声をテキストに変換できます。
音声認識
Transformers

W
shniranjan
15
0
Wav2vec2 Base 100k Gtzan Music Genres
Wav2Vec 2.0アーキテクチャに基づくオーディオ分類モデル、音楽ジャンル識別専用
音声分類
Transformers

W
m3hrdadfi
405
20
Wav2vec2 Base Russian Big Kaggle
Apache-2.0
このモデルはfacebook/wav2vec2-baseをロシア語データセットでファインチューニングした音声認識モデルです
音声認識
Transformers

W
Eyvaz
17
1
S2t Small Mustc En It St
MIT
Transformerベースのエンドツーエンド音声翻訳モデルで、英語からイタリア語への音声翻訳タスク向けに設計されています。
音声認識
Transformers 複数言語対応

S
facebook
1,331
1
Wav2vec2 Large Xlsr Korean
Apache-2.0
Wav2Vec2 XLSRアーキテクチャに基づく韓国語自動音声認識(ASR)モデルで、Zeroth韓国語データセットで優れた性能を発揮
音声認識
Transformers 韓国語

W
kresnik
1.7M
44
Wav2vec2 Urdu Stt
これはWav2Vec2アーキテクチャに基づくウルドゥー語音声認識モデルで、ウルドゥー語音声をテキストに変換できます。
音声認識
Transformers

W
addy88
145
0
S2t Small Covost2 En Fa St
MIT
Transformerベースのエンドツーエンド音声翻訳モデルで、英語からペルシャ語への音声翻訳タスク用
音声認識
Transformers 複数言語対応

S
facebook
49
3
S2t Small Covost2 En De St
MIT
エンドツーエンドの英語からドイツ語への音声翻訳用に訓練された音声テキスト変換モデル
音声認識
Transformers 複数言語対応

S
facebook
15
1
Wav2vec2 Xls R 2b En To 15
Apache-2.0
FacebookのWav2Vec2 XLS-Rモデルで、15言語の音声翻訳タスク向けにファインチューニングされており、英語の音声を複数の書き言葉に翻訳できます。
音声認識
Transformers 複数言語対応

W
facebook
27
1
Wav2vec2 Dogri Stt
これはWav2Vec2アーキテクチャに基づく自動音声認識(ASR)モデルで、ドグリ語(Dogri)の音声内容を認識するために特別に設計されています。
音声認識
Transformers

W
addy88
30
1
Wavlm Base En
microsoft/wavlm-baseをファインチューニングした英語自動音声認識(ASR)モデルで、english_ASR - CLEANデータセットでトレーニングされ、単語誤り率(WER)は0.0773です。
音声認識
Transformers

W
anjulRajendraSharma
17
0
Wav2vec2 Large Xls R 300m Turkish Colab 4
Apache-2.0
このモデルは、facebook/wav2vec2-xls-r-300mをcommon_voiceトルコ語データセットでファインチューニングした音声認識モデルです。
音声認識
Transformers

W
nimrah
20
0
Wav2vec2 Xls R 1b 21 To En
Apache-2.0
FacebookのWav2Vec2 XLS-Rモデル、多言語音声から英語への翻訳タスク用
音声認識
Transformers 複数言語対応

W
facebook
511
3
Wav2vec2 Large Xlsr Turkish Demo
このモデルはトルコ語Common VoiceデータセットでファインチューニングされたXLSR-Wav2Vec2音声認識モデルで、主にトルコ語音声からテキストへの変換タスクに使用されます。
音声認識
W
patrickvonplaten
18
0
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98