# ベトナム語音声認識

Whisper Small Vi
MIT
openai/whisper-smallをベースにベトナム語音声データ向けにファインチューニングした自動音声認識モデルで、ベトナム語の文字起こし精度と頑健性を向上
音声認識 Transformers その他
W
namphungdn134
334
2
Whisper Base Vi
MIT
openai/whisper-baseモデルを100時間のベトナム語音声データでファインチューニングした音声認識モデルで、ベトナム語文字起こしの精度を向上
音声認識 Transformers その他
W
namphungdn134
215
3
Chunkformer Large Vie
ChunkFormerアーキテクチャに基づく大規模ベトナム語自動音声認識モデルで、約3000時間のベトナム語公開音声データで微調整され、優れた性能を発揮します。
音声認識 その他
C
khanhld
1,765
12
Vi Whisper Large V3 Turbo V1
ベトナム語自動音声認識(ASR)タスク向けに最適化されたWhisper-V3-Turboモデル、複数のベトナム語データセットでファインチューニング済み
音声認識 Transformers その他
V
suzii
182
7
Viwhisper Medium
MIT
ベトナム語音声認識タスク向けに最適化されたWhisper-mediumモデル、1308時間のベトナム語データでファインチューニング済み
音声認識 Transformers その他
V
NhutP
139
4
Whisper Tiny Vi
Apache-2.0
OpenAI Whisper-tinyアーキテクチャをベースにファインチューニングしたベトナム語自動音声認識(ASR)モデルで、複数のベトナム語データセットで優れた性能を発揮
音声認識 Transformers その他
W
doof-ferb
44
2
Phowhisper Medium
Bsd-3-clause
PhoWhisperは、ベトナム語の自動音声認識(ASR)に特化したモデルシリーズで、844時間のベトナム語アクセントデータセットでWhisperモデルを微調整することで高いロバスト性を実現しています。
音声認識 Transformers その他
P
vinai
2,999
10
Phowhisper Small
Bsd-3-clause
PhoWhisperはベトナム語自動音声認識のために特別に設計されたシステムで、Whisperモデルをファインチューニングしており、さまざまなベトナム語のアクセントをサポートしています。
音声認識 Transformers その他
P
vinai
2,725
8
Wav2vec2 Bartpho
これはベトナム語をサポートする自動音声認識モデルで、正規化されたテキストの出力、タイムスタンプの付与、および複数話者のセグメンテーションが可能です。
音声認識 Transformers その他
W
nguyenvulebinh
472
6
Whisper Large V2 Vietnamese
Apache-2.0
このモデルはOpenAIのWhisper Smallアーキテクチャを基に、Common Voice 11.0ベトナム語データセットでファインチューニングされた自動音声認識(ASR)モデルです
音声認識 Transformers その他
W
DrishtiSharma
25
2
Wav2vec2 Large Vi Vlsp2020
wav2vec2アーキテクチャに基づくベトナム語自動音声認識モデル。1.3万時間の未ラベルYouTube音声で事前学習し、250時間のラベル付きデータでファインチューニング
音声認識 Transformers その他
W
nguyenvulebinh
385
4
Wav2vec2 Base Vietnamese 160h
Wav2vec2ベースのベトナム語音声認識モデル、160時間のベトナム語音声データでファインチューニング
音声認識 Transformers その他
W
khanhld
356
10
Viwav2vec2 Base 3k
このモデルは3千時間のベトナム語音声データで事前学習されたWav2Vec2ベースモデルで、ベトナム語音声認識タスクに適しており、下流タスクで微調整して使用する必要があります。
音声認識 Transformers その他
V
dragonSwing
41
2
Viwav2vec2 Base 1.5k
このモデルは1.5千時間のベトナム語音声データで事前学習されており、ベトナム語音声認識タスクに適しています。使用前に微調整が必要です。
音声認識 Transformers その他
V
dragonSwing
38
0
Wav2vec NCKH 2022
Wav2vec2アーキテクチャに基づくベトナム語自動音声認識モデル、音声からテキストへの変換をサポート
音声認識 Transformers その他
W
hoangbinhmta99
29
0
Wav2vec2 Large Xls R 300m Vietnamese Colab
Apache-2.0
このモデルはfacebook/wav2vec2-xls-r-300mを汎用音声データセットでファインチューニングしたベトナム語音声認識モデルです
音声認識 Transformers
W
Jungwonchang
22
0
Fb Vindata Vi Large
Apache-2.0
このモデルは、facebook/wav2vec2-large-xlsr-53をPHONGDTD/VINDATAVLSP - NAデータセットでファインチューニングしたベトナム語自動音声認識モデルです
音声認識 Transformers
F
phongdtd
29
0
Xls Asr Vi 40h
Apache-2.0
このモデルはfacebook/wav2vec2-xls-r-300mをCommon Voice 7.0ベトナム語データセット及びプライベートデータセットでファインチューニングした音声認識モデルです。
音声認識 Transformers その他
X
geninhu
14
0
Wavlm VLSP Vi
microsoft/wavlm-base-plusをベースに、PHONGDTD/VINDATAVLSP - NAデータセットで微調整したベトナム語自動音声認識モデル
音声認識 Transformers
W
phongdtd
21
0
Wav2vec2 Base Vietnamese
Apache-2.0
Wav2Vec2アーキテクチャに基づくベトナム語音声認識モデル、VSLPデータセットでファインチューニング済み、16kHzサンプリングレートの音声入力をサポート
音声認識 Transformers その他
W
dragonSwing
16
2
Wav2vec2 Base Vietnamese 250h
wav2vec 2.0アーキテクチャに基づくベトナム語自動音声認識モデルで、13,000時間の未ラベル付きオーディオと250時間のラベル付きデータで訓練されています。
音声認識 Transformers その他
W
nguyenvulebinh
6,868
39
Fine Tune XLSR Wav2Vec2 Speech2Text Vietnamese
Apache-2.0
これはMT5アーキテクチャに基づくベトナム語自動音声認識(ASR)修復モデルで、ベトナム語音声認識タスク向けにファインチューニングされています。
音声認識 その他
F
leduytan93
25
0
Viwav2vec2 Base 100h
Apache-2.0
VLSPデータセットの100時間のラベルなしベトナム語音声データで事前学習されたWav2Vec2基本モデルで、下流タスクで微調整が必要です。
音声認識 Transformers その他
V
dragonSwing
19
0
Wav2vec2 Large Xlsr 53 Vietnamese
Apache-2.0
facebook/wav2vec2-large-xlsr-53モデルをベトナム語向けにファインチューニングした自動音声認識モデルで、16kHzサンプリングレートの音声入力をサポートします。
音声認識 Transformers その他
W
not-tanh
22
4
Xls Asr Vi 40h 1B
Apache-2.0
facebook/wav2vec2-xls-r-1bをベースに、40時間のFPTオープン音声データセット(FOSD)と公共音声データセット7.0で微調整したベトナム語自動音声認識モデル
音声認識 Transformers その他
X
geninhu
23
0
Wav2vec2 Large Xlsr 53 Vietnamese
Apache-2.0
facebook/wav2vec2-large-xlsr-53モデルをファインチューニングしたベトナム語自動音声認識モデル、Common Voiceデータセットでトレーニング済み。
音声認識 その他
W
anuragshas
279
2
Wavlm Vindata Demo Dist
microsoft/wavlm-baseをベトナム語データセットでファインチューニングした自動音声認識モデル
音声認識 Transformers
W
phongdtd
17
0
Fb Youtube Vi Large
Apache-2.0
このモデルは、facebook/wav2vec2-large-xlsr-53をベトナム語のYouTube非公式音声データセットでファインチューニングした自動音声認識モデルです。
音声認識 Transformers
F
phongdtd
31
1
Wav2vec2 Base Vn 270h
約270時間のベトナム語注釈データでファインチューニングされた音声認識モデルで、ベトナム語の自動音声認識タスクをサポート
音声認識 その他
W
dragonSwing
202
8
Wav2vec2 Large Xlsr Vietnamese
Apache-2.0
facebook/wav2vec2-large-xlsr-53モデルをベースにファインチューニングしたベトナム語自動音声認識モデル
音声認識 その他
W
Nhut
22
0
Wav2vec2 Large Xlsr Vietnamese
Apache-2.0
これはfacebook/wav2vec2-large-xlsr - 53モデルをベトナム語で微調整した音声認識モデルで、Common VoiceとInfore_25hデータセットを使用して訓練されました。
音声認識 その他
W
CuongLD
37
1
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase