# 16kHz音声処理

Audio Emotion Detection
Apache-2.0
このモデルはfacebook/wav2vec2-large-xlsr-53をファインチューニングした音声感情検出モデルで、7種類の感情状態を識別可能
音声分類 Transformers
A
Hatman
630
8
Mms Lid 126
Facebookの大規模多言語音声プロジェクトを基にファインチューニングした言語識別モデルで、126言語の音声分類をサポート
音声分類 Transformers 複数言語対応
M
facebook
2.1M
26
Wav2vec2 Large Vi Vlsp2020
wav2vec2アーキテクチャに基づくベトナム語自動音声認識モデル。1.3万時間の未ラベルYouTube音声で事前学習し、250時間のラベル付きデータでファインチューニング
音声認識 Transformers その他
W
nguyenvulebinh
385
4
Assignment1 Omar
Apache-2.0
Wav2Vec2は自己教師あり学習に基づく音声認識モデルで、LibriSpeechの960時間の音声データで事前学習と微調整が行われ、英語音声の書き起こしをサポートします。
音声認識 Transformers 英語
A
Classroom-workshop
28
0
Wav2vec2 Conformer Rel Pos Large 100h Ft
Apache-2.0
相対位置埋め込み技術を採用したWav2Vec2-Conformer大型音声認識モデル、Librispeech 100時間音声データで微調整
音声認識 Transformers 英語
W
facebook
99
0
Wav2vec2 Large 10min Lv60 Self
Apache-2.0
このモデルはWav2Vec2アーキテクチャに基づく大規模音声認識モデルで、Libri-LightとLibrispeechの10分間データで事前学習と微調整が行われ、自己学習目標を使用してトレーニングされました。16kHzサンプリングレートの音声オーディオに適しています。
音声認識 Transformers 英語
W
Splend1dchan
177
0
Data2vec Audio Large
Apache-2.0
Data2Vec-Audio-Largeは16kHzサンプリング音声データで事前学習された大型モデルで、自己教師あり学習フレームワークを採用し、音声認識などのタスクに適しています。
音声認識 Transformers 英語
D
facebook
97
1
Unispeech Sat Base 100h Libri Ft
Apache-2.0
UniSpeech-SAT基本モデルを基に、LibriSpeech音声データで100時間のファインチューニングを行った自動音声認識モデル
音声認識 Transformers 英語
U
microsoft
643
4
Romanian Wav2vec2
Apache-2.0
facebook/wav2vec2-xls-r-300mをファインチューニングしたルーマニア語音声認識モデルで、Common Voice 8.0とルーマニア語音声合成データセットで訓練され、HuggingFace Robust Speech Challengeでルーマニア語音声認識1位を獲得しました。
音声認識 Transformers その他
R
gigant
88.90k
6
Wav2vec2 Large Xlsr 53 Odia
Apache-2.0
facebook/wav2vec2-large-xlsr-53をファインチューニングしたオディア語自動音声認識モデル、低リソースインド言語チャレンジデータで訓練
音声認識 Transformers その他
W
theainerd
83
3
Hubert Base Ls960
Apache-2.0
HuBERTは自己教師あり音声表現学習モデルで、BERTのような予測損失を通じて音声特徴を学習し、音声認識などのタスクに適しています。
音声認識 Transformers 英語
H
facebook
406.60k
55
Wav2vec2 Large Xlsr German
Apache-2.0
Facebookのwav2vec2-large-xlsr-53モデルをベースに、Common Voiceドイツ語データセットで微調整された自動音声認識(ASR)モデル
音声認識 ドイツ語
W
maxidl
253
0
Wav2vec2 Large Baltic Voxpopuli V2
FacebookのWav2Vec2大型モデルで、バルト語族のVoxPopuliコーパスのみを使って27.5時間の無ラベルデータで事前学習されました。
音声認識 Transformers
W
facebook
25
0
Wav2vec2 Large Romance Voxpopuli V2
FacebookのWav2Vec2大型モデル、ロマンス語族のVoxPopuliコーパス101.5時間の未ラベルデータのみで事前学習され、音声認識タスクに適しています。
音声認識 Transformers
W
facebook
26
0
Wav2vec2 Base Lt Voxpopuli V2
これはFacebookのWav2Vec2アーキテクチャに基づく音声モデルで、リトアニア語に特化して事前学習されており、VoxPopuliコーパスの14.4kの未ラベルデータを使用しています。
音声認識 Transformers その他
W
facebook
31
0
Wav2vec2 Large Xlsr 53 Dutch
Apache-2.0
facebook/wav2vec2-large-xlsr-53をファインチューニングしたオランダ語音声認識モデルで、Common VoiceとCSS10データセットでトレーニングされ、16kHz音声入力に対応しています。
音声認識 その他
W
jonatasgrosman
3.0M
12
Wav2vec2 Large Superb Sid
Apache-2.0
Wav2Vec2-Large アーキテクチャに基づく話者認識モデルで、VoxCeleb1 データセットでトレーニングされ、音声を話者IDごとに分類するために使用されます
話者の処理 Transformers 英語
W
superb
27
1
Wav2vec2 Base Cs Voxpopuli V2
VoxPopuliコーパスで事前学習されたWav2Vec2ベースモデル、チェコ語音声処理に特化
音声認識 Transformers その他
W
facebook
33
1
Wav2vec2 Base Superb Er
Apache-2.0
これはWav2Vec2アーキテクチャに基づく音声感情認識モデルで、S3PRLプロジェクトから移植され、音声中の感情カテゴリを識別します。
音声分類 Transformers 英語
W
superb
28.14k
11
Wav2vec2 Base Superb Sid
Apache-2.0
Wav2Vec2-base事前学習モデルを基に、VoxCeleb1データセットでファインチューニングされた話者認識モデルで、音声分類タスクに使用されます
話者の処理 Transformers 英語
W
superb
1,489
20
Wav2vec2 Large Mt Voxpopuli V2
FacebookのWav2Vec2大型モデル、マルタ語(mt)のみでVoxPopuliコーパスの未ラベルデータを使用して事前学習され、音声認識タスクに適しています。
音声認識 Transformers その他
W
facebook
25
0
Wav2vec2 Base De Voxpopuli V2
Facebook Wav2Vec2アーキテクチャに基づくドイツ語音声事前学習モデルで、VoxPopuliコーパスの23.2kの未ラベルドイツ語データを使用して事前学習されています。
音声認識 Transformers ドイツ語
W
facebook
44
1
Wav2vec2 Base Sl Voxpopuli V2
これはFacebookのWav2Vec2アーキテクチャに基づく音声モデルで、スロベニア語(sl)に特化して事前学習されており、VoxPopuliコーパスから11.3kの未ラベルデータを使用しています。
音声認識 Transformers その他
W
facebook
31
0
Wav2vec2 Base Superb Ic
Apache-2.0
このモデルはWav2Vec2-baseをベースとした意図分類モデルで、音声命令の意図認識のために設計されており、音声断片を事前定義された意図カテゴリに分類できます。
音声分類 Transformers 英語
W
superb
779
0
Xlsr Indonesia
Apache-2.0
XLSRアーキテクチャを基にファインチューニングしたインドネシア語自動音声認識(ASR)モデル、Common Voiceインドネシア語データセットでトレーニング
音声認識 Transformers その他
X
acul3
23
0
Wav2vec2 Large Xlsr 53 Eu
Apache-2.0
facebook/wav2vec2-large-xlsr-53モデルを基に、Common Voiceデータセットでバスク語にファインチューニングした音声認識モデルです。
音声認識 Transformers
W
enterprise-explorers
2,758
0
Wav2vec2 Large Xlsr Georgian
Apache-2.0
これはfacebook/wav2vec2-large-xlsr-53モデルを基にジョージア語でファインチューニングした自動音声認識(ASR)モデルで、Common Voiceデータセットを使用してトレーニングされました。
音声認識 その他
W
m3hrdadfi
66
5
Wav2vec2 Base Hu Voxpopuli V2
Facebook Wav2Vec2アーキテクチャに基づく音声事前学習モデル、VoxPopuliコーパスのハンガリー語データで事前学習済み
音声認識 Transformers その他
W
facebook
30
0
Wav2vec2 Large Slavic Voxpopuli V2
FacebookのWav2Vec2大型モデルで、スラブ語系のVoxPopuliコーパスにおいて88.99999999999999時間の未ラベルデータ事前学習を行っています。
音声認識 Transformers
W
facebook
26
0
Wav2vec2 Large Xlsr Cnh
Apache-2.0
facebook/wav2vec2-large-xlsr-53モデルをファインチューニングしたハカチン語音声認識モデルで、汎用音声データセットでトレーニングされ、テストWERは31.38%です。
音声認識 その他
W
gchhablani
22
0
Wav2vec2 Large Superb Er
Apache-2.0
これはWav2Vec2-Largeモデルに基づく感情認識モデルで、音声から感情カテゴリーを識別するために特別に設計されています。
音声分類 Transformers 英語
W
superb
1,442
1
Hubert Xlarge Ll60k
Apache-2.0
Hubertは自己監督学習に基づく音声表現モデルで、BERTに似た予測損失を通じて音声の音響と言語の連合表現を学習します。
音声認識 Transformers 英語
H
facebook
3,874
5
Wav2vec2 Base Sv Voxpopuli V2
Facebook Wav2Vec2アーキテクチャに基づく音声モデルで、スウェーデン語に特化して事前学習されており、VoxPopuliコーパスの16.3kの未ラベルデータを使用しています。
音声認識 Transformers その他
W
facebook
30
0
Sew D Mid K127 400k Ft Ls100h
Apache-2.0
SEW-D-mid-k127はASAPP Researchが開発した高効率音声認識事前学習モデルで、性能と効率の面でwav2vec 2.0と比べて大幅な改善が見られます。
音声認識 Transformers 英語
S
asapp
16
0
Wave2vec2 Large Xlsr Hindi
Apache-2.0
facebook/wav2vec2-large-xlsr-53モデルをベースにファインチューニングしたヒンディー語音声認識モデルで、OpenSLRとCommon Voiceのヒンディー語データセットを使用して訓練され、16kHzサンプリングレートの音声入力をサポートします。
音声認識 Transformers その他
W
shiwangi27
63
1
Wav2vec2 Base Sk Voxpopuli V2
VoxPopuliコーパスのスロバキア語データで事前学習されたWav2Vec2基本モデルで、音声認識タスクに適しています。
音声認識 Transformers その他
W
facebook
31
0
Wav2vec2 Large Xlsr Persian
Apache-2.0
facebook/wav2vec2-large-xlsr-53を基にペルシア語(Farsi)でファインチューニングした自動音声認識モデルで、16kHzサンプリングレートの音声入力をサポートします。
音声認識 その他
W
m3hrdadfi
562
16
Wav2vec2 Large Superb Ic
Apache-2.0
Wav2Vec2-Large-LV60ベースの意図分類モデルで、SUPERB意図分類タスクでファインチューニングされ、音声コマンドの意図認識に使用されます
音声分類 Transformers 英語
W
superb
110
1
Wav2vec2 Base En Voxpopuli V2
VoxPopuliコーパスの24.1kのラベルなし英語データで事前学習されたWav2Vec2基本モデルで、音声認識タスクに適しています。
音声認識 Transformers 英語
W
facebook
35
1
Sew D Mid 400k Ft Ls100h
Apache-2.0
SEW-D-midはASAPP Researchが開発した音声事前学習モデルで、自動音声認識タスクに焦点を当て、性能と効率の良いバランスを実現しています。
音声認識 Transformers 英語
S
asapp
20
1
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase