# 16kHzオーディオ処理

Focalcodec 25hz
Apache-2.0
焦点変調ネットワークに基づく低ビットレート音声コーデック、16 kHz音声符号化をサポート
音声合成
F
lucadellalib
25
1
Sentis Whisper Tiny
Apache-2.0
Whisper-TinyはOpenAIが開発した小型の自動音声認識(ASR)モデルで、音声からテキストへの変換タスク向けに設計されており、Unity環境に適しています。
音声認識
S
unity
253
48
Wav2vec2 French Phonemizer
MIT
これはフランス語音声から音素への変換タスクに対して微調整されたモデルで、facebook/wav2vec2-base-fr-voxpopuli-v2モデルをベースに、Common Voice v13データセットを使用して訓練されました。
音声認識 Transformers フランス語
W
Cnam-LMSSC
9,832
7
Wav2vec2 Conformer Rope Large 100h Ft
Apache-2.0
Librispeech 100時間の音声データでファインチューニングされたWav2Vec2 Conformerモデルで、回転位置埋め込み技術を採用
音声認識 Transformers 英語
W
facebook
99
0
Data2vec Audio Large 10m
Apache-2.0
Data2Vecは音声、視覚、言語タスクに適用可能な汎用自己教師あり学習フレームワークです。この音声大規模モデルはLibrispeechの10分データで事前学習とファインチューニングされており、16kHzサンプリングの音声オーディオに適しています。
音声認識 Transformers 英語
D
facebook
19
0
Wav2vec2 Large Xlsr 53 Finnish
Apache-2.0
これはfacebook/wav2vec2-large-xlsr-53をベースにフィンランド語で微調整された自動音声認識モデルですが、旧モデルとしてマークされており、新しい代替モデルの使用をおすすめします。
音声認識 その他
W
aapot
33
0
Wav2vec2 Large Xlsr 53 Ukrainian
Apache-2.0
facebook/wav2vec2-large-xlsr-53モデルを基に微調整されたウクライナ語自動音声認識(ASR)モデルで、Common Voiceデータセットを使用して訓練されています。
音声認識 その他
W
anton-l
21
1
Sew Tiny 100k Ft Ls100h
Apache-2.0
SEW(圧縮高効率版Wav2vec)は、ASAPP Researchによって開発された音声認識の事前学習モデルで、性能と効率の面でwav2vec 2.0より優れています。
音声認識 Transformers 複数言語対応
S
asapp
736
1
Wav2vec2 Large Xlsr Bengali
facebook/wav2vec2-large-xlsr - 53をベースに微調整されたベンガル語自動音声認識モデルで、OpenSLRデータセットの約4万件の音声データで訓練されています。
音声認識 その他
W
arijitx
758
6
Wav2vec2 Large Xlsr 53 French
Apache-2.0
これはXLSR - 53大規模モデルを微調整したフランス語音声認識モデルで、Common Voiceデータセットで訓練され、高い精度でフランス語の音声をテキストに変換できます。
音声認識 フランス語
W
jonatasgrosman
47.83k
11
Wav2vec2 Base Es Voxpopuli V2
Wav2Vec2の基礎モデルで、スペイン語の21.4kの無ラベルデータのみで事前学習され、音声認識タスクに適しています。
音声認識 Transformers スペイン語
W
facebook
46
1
Wav2vec2 Base Fi Voxpopuli V2
Facebook Wav2Vec2アーキテクチャに基づく音声モデルで、フィンランド語に特化して事前学習されており、音声認識タスクに適しています。
音声認識 Transformers その他
W
facebook
29
1
Wav2vec2 Large Xlsr 53 Tatar
Apache-2.0
Facebookのwav2vec2-large-xlsr-53モデルをタタール語Common Voiceデータセットで微調整した音声認識モデル
音声認識 その他
W
anton-l
25
1
Hubert Base Superb Er
Apache-2.0
このモデルはHubert-Baseアーキテクチャに基づく感情識別モデルで、SUPERB感情識別タスクで訓練され、音声感情分類に使用されます。
音声分類 Transformers 英語
H
superb
7,887
20
Wav2vec2 Base Lv Voxpopuli V2
FacebookのWav2Vec2アーキテクチャに基づく音声認識の基礎モデルで、ラトビア語(lv)に特化して事前学習されており、VoxPopuliコーパスの13.1kの未ラベル付きデータを使用しています。
音声認識 Transformers その他
W
facebook
29
1
Wav2vec2 Large Xlsr Kn
Apache-2.0
これはFacebookのwav2vec2-large-xlsr-53モデルをカンナダ語で微調整した自動音声認識(ASR)モデルで、OpenSLR SLR79データセットを使用して訓練されています。
音声認識 その他
W
amoghsgopadi
2,200
1
Greek Lsr 1
Apache-2.0
facebook/wav2vec2-large-xlsr-53をベースにギリシャ語で微調整した自動音声認識モデル
音声認識 Transformers その他
G
skylord
17
0
Wav2vec2 Base Superb Sv
Apache-2.0
これはWav2Vec2アーキテクチャに基づく話者検証モデルで、SUPERBベンチマークテストの話者検証タスク用に設計されています。
話者の処理 Transformers 英語
W
anton-l
901
3
Wav2vec2 Large Xlsr 53 Rm Vallader
Apache-2.0
facebook/wav2vec2-large-xlsr-53モデルを微調整したロマンシュ語ヴァラディエル方言の音声認識モデルで、単語誤り率は32.89%です。
音声認識
W
anuragshas
58
0
Hubert Base Superb Sid
Apache-2.0
Hubertに基づく話者識別モデルで、SUPERBベンチマークタスクに対して最適化されています。
話者の処理 Transformers 英語
H
superb
673
1
Wav2vec2 Large 960h Lv60 Self
Apache-2.0
Facebookが開発したWav2Vec2の大規模モデルで、960時間のLibri-LightとLibrispeechの音声データを基に事前学習と微調整を行い、自己学習目標を採用し、LibriSpeechテストセットでSOTAの結果を達成しました。
音声認識 英語
W
facebook
56.00k
146
Sew D Tiny 100k Ft Ls100h
Apache-2.0
SEW-D-tinyはASAPP Researchによって開発された高効率音声認識事前学習モデルで、性能と効率のバランスに重点を置いています。
音声認識 Transformers 英語
S
asapp
24.55k
2
Wav2vec2 Large Robust Ft Swbd 300h
Apache-2.0
このモデルはFacebookのWav2Vec2-Large-Robustの微調整バージョンで、電話音声認識タスクに特化して最適化されており、300時間のSwitchboard電話音声コーパスを使用して微調整されています。
音声認識 Transformers 英語
W
facebook
2,543
20
Wav2vec2 Large Xlsr Pt
Apache-2.0
facebook/wav2vec2-large-xlsr-53モデルをベースに微調整されたポルトガル語自動音声認識(ASR)モデルで、Common Voiceのポルトガル語データセットで17.22%の単語誤り率(WER)を達成しました。
音声認識 その他
W
gchhablani
29
0
Hubert Base Superb Ks
Apache-2.0
このモデルはHubertアーキテクチャに基づくキーワード認識モデルで、音声フラグメントを事前定義されたキーワード集合に分類するために使用されます。
音声分類 Transformers 英語
H
superb
11.29k
8
Wav2vec2 Base 960h
Apache-2.0
Facebookが開発したWav2Vec2の基礎モデルで、960時間のLibrispeech音声オーディオで事前学習と微調整を行い、英語の自動音声認識タスクに使用されます。
音声認識 Transformers 英語
W
facebook
2.1M
331
Wav2vec2 Large Xlsr 53 Hebrew
Apache-2.0
facebook/wav2vec2-large-xlsr-53をベースに、ヘブライ語音声データで微調整した自動音声認識モデル
音声認識 その他
W
imvladikon
338
5
Wav2vec2 Large Uralic Voxpopuli V2
VoxPopuliコーパスの42.5時間のウラル語族の無ラベルデータで事前学習されたWav2Vec2大型音声モデル
音声認識 Transformers
W
facebook
46
0
Wav2vec2 Base 100h
Apache-2.0
Wav2Vec2基礎版は、16kHzサンプリングのLibrispeech音声オーディオで100時間の事前学習と微調整を行った自動音声認識モデルです。
音声認識 Transformers 英語
W
facebook
4,380
6
Data2vec Audio Base 100h
Apache-2.0
Data2Vecは音声、視覚、言語タスクに適用可能な汎用自己教師あり学習フレームワークです。このオーディオ基本モデルはLibrispeech音声データで100時間の事前学習とファインチューニングが行われています。
音声認識 Transformers 英語
D
facebook
4,369
1
Hubert Large Superb Er
Apache-2.0
Hubert-Large事前学習モデルをベースにした感情識別モデルで、音声の感情カテゴリを予測するために使用されます。
音声分類 Transformers 英語
H
superb
10.24k
21
Wav2vec2 Base Pt Voxpopuli V2
ポルトガル語のVoxPopuliコーパスを使って事前学習されたWav2Vec2の基礎モデルで、音声認識タスクに適しています。
音声認識 Transformers その他
W
facebook
30
0
Wav2vec2 Large Xlsr Mr 3
Apache-2.0
これはfacebook/wav2vec2-large-xlsr-53モデルを微調整したマラーティー語自動音声認識(ASR)モデルで、OpenSLRとInterSpeech 2021データセットを使用して訓練されています。
音声認識 その他
W
gchhablani
22
0
Wav2vec2 Large Xlsr 53 German
Apache-2.0
FacebookのWav2Vec2アーキテクチャに基づく大規模ドイツ語自動音声認識(ASR)モデルで、Common Voiceドイツ語データセットで微調整されています。
音声認識 ドイツ語
W
facebook
1,767
3
Convtasnet Libri2Mix Sepnoisy 16k
Asteroidフレームワークを基に訓練されたConvTasNetモデルで、雑音付き音声分離タスクに使用され、Libri2Mixデータセットで訓練されています。
音声分離
C
JorisCos
8,407
1
Dprnntasnet Ks2 Libri1Mix Enhsingle 16k
Asteroidフレームワークを基に訓練されたオーディオ強化モデルで、単チャンネル音声強化タスクに特化し、Libri1Mixデータセットで訓練されました。
オーディオ拡張
D
JorisCos
4,859
1
Convtasnet Libri3Mix Sepnoisy 16k
Asteroidフレームワークを基に訓練されたConvTasNetモデルで、混合オーディオからノイズと音声信号を分離するために使用されます。
音声分離
C
JorisCos
473
1
Dccrnet Libri1Mix Enhsingle 16k
Asteroidフレームワークを基に訓練されたDCCRN - CLアーキテクチャの音声強化モデルで、単チャンネル音声強化タスクに特化し、Libri1Mixデータセットで訓練されました。
オーディオ拡張
D
JorisCos
10.99k
16
Convtasnet Libri3Mix Sepclean 16k
Asteroidフレームワークを基に訓練されたConvTasNetモデルで、音声分離タスクに使用され、Libri3Mixデータセットで訓練され、16kHzのサンプリングレートのオーディオ入力をサポートします。
音声分離
C
JorisCos
48
0
Wav2vec2 Large Xlsr 53 Spanish
Apache-2.0
facebook/wav2vec2-large-xlsr-53モデルをベースに微調整されたスペイン語自動音声認識(ASR)モデルで、Common Voiceスペイン語データセットで訓練され、16kHzのサンプリングレートの音声入力をサポートします。
音声認識 スペイン語
W
LuisG07
50
0
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase