# 複数データセット学習

Vitpose Plus Large
Apache-2.0
ViTPose++はビジョントランスフォーマーに基づく人体姿勢推定の基本モデルで、MS COCOキーポイントテストセットで81.1 APの優れた性能を達成しました。
姿勢推定 Transformers
V
usyd-community
1,731
1
Whisper Ja Anime V0.1
日本語アニメ分野に特化した音声認識用Whisper派生モデル、アニメ音声特性に最適化
音声認識 日本語
W
efwkjn
205
15
Test Push
Apache-2.0
distilvitはVIT画像エンコーダーと蒸留版GPT-2テキストデコーダーを基にした画像からテキストへのモデルで、画像のテキスト説明を生成できます。
画像生成テキスト Transformers
T
tarekziade
17
0
Pix2text Table Rec
MIT
マイクロソフトTable Transformerを基に開発した表構造認識モデルで、ドキュメント内の表検出と認識タスクに使用
文字認識 Transformers
P
breezedeus
1,124
2
Whisper Small Cantonese
Apache-2.0
OpenAI Whisper-smallをファインチューニングした広東語音声認識モデル、Common Voice 16.0テストセットでCER7.93を達成
音声認識 Transformers 複数言語対応
W
alvanlii
2,413
85
Stt De Conformer Ctc Large
これはドイツ語自動音声認識のための大規模Conformer-CTCモデルで、NVIDIAが数千時間のドイツ語音声データでトレーニングおよび最適化しました。
音声認識 ドイツ語
S
nvidia
132
4
Wav2vec2 Xls R 1b Dutch
Apache-2.0
これはXLS-R 10億パラメータモデルをファインチューニングしたオランダ語自動音声認識(ASR)モデルで、Common Voice 8.0など複数のデータセットで学習されており、16kHzサンプリングレートの音声入力をサポートしています。
音声認識 Transformers その他
W
jonatasgrosman
146
2
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98
Wav2vec2 Base Turkish
Apache-2.0
このモデルはCommon Voiceトルコ語データセットでファインチューニングされたWav2Vec2音声認識モデルで、トルコ語自動音声認識タスクで優れた性能を発揮します。
音声認識 Transformers その他
W
cahya
49
4
Wav2vec2 Xls R 1b Spanish
Apache-2.0
これはXLS-R 10億パラメータモデルをファインチューニングしたスペイン語自動音声認識モデルで、複数のスペイン語データセットで学習・最適化されています。
音声認識 Transformers スペイン語
W
jonatasgrosman
2,270
6
Roberta Large Finnish
Apache-2.0
マスク言語モデリング(MLM)目標で事前学習されたフィンランド語RoBERTaモデル、双方向コンテキスト理解をサポート
大規模言語モデル その他
R
Finnish-NLP
24
5
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase