モデル選定

複数データセット学習

# 複数データセット学習

Vitpose Plus Large

ViTPose++はビジョントランスフォーマーに基づく人体姿勢推定の基本モデルで、MS COCOキーポイントテストセットで81.1 APの優れた性能を達成しました。

Whisper Ja Anime V0.1

日本語アニメ分野に特化した音声認識用Whisper派生モデル、アニメ音声特性に最適化

音声認識日本語

distilvitはVIT画像エンコーダーと蒸留版GPT-2テキストデコーダーを基にした画像からテキストへのモデルで、画像のテキスト説明を生成できます。

画像生成テキスト

Pix2text Table Rec

マイクロソフトTable Transformerを基に開発した表構造認識モデルで、ドキュメント内の表検出と認識タスクに使用

Whisper Small Cantonese

OpenAI Whisper-smallをファインチューニングした広東語音声認識モデル、Common Voice 16.0テストセットでCER7.93を達成

Transformers 複数言語対応

Stt De Conformer Ctc Large

これはドイツ語自動音声認識のための大規模Conformer-CTCモデルで、NVIDIAが数千時間のドイツ語音声データでトレーニングおよび最適化しました。

音声認識ドイツ語

Wav2vec2 Xls R 1b Dutch

これはXLS-R 10億パラメータモデルをファインチューニングしたオランダ語自動音声認識(ASR)モデルで、Common Voice 8.0など複数のデータセットで学習されており、16kHzサンプリングレートの音声入力をサポートしています。

Transformers その他

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

Wav2vec2 Base Turkish

このモデルはCommon Voiceトルコ語データセットでファインチューニングされたWav2Vec2音声認識モデルで、トルコ語自動音声認識タスクで優れた性能を発揮します。

Transformers その他

Wav2vec2 Xls R 1b Spanish

これはXLS-R 10億パラメータモデルをファインチューニングしたスペイン語自動音声認識モデルで、複数のスペイン語データセットで学習・最適化されています。

Transformers スペイン語

Roberta Large Finnish

マスク言語モデリング(MLM)目標で事前学習されたフィンランド語RoBERTaモデル、双方向コンテキスト理解をサポート

大規模言語モデルその他

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase