モデル選定

少数サンプル学習

# 少数サンプル学習

Swin Tiny Finetuned Dogfood

Swin Transformer Tinyアーキテクチャをファインチューニングしたドッグフード画像分類モデル、テストセットで98.8%の精度を達成

Vit Finetuned Vanilla Cifar10 0

Vision Transformer (ViT)アーキテクチャを基にCIFAR-10データセットでファインチューニングされた画像分類モデル、精度99.2%達成

LWM 1.1は無線チャネル特徴抽出のために特別に設計されたアップグレード版事前学習モデルで、多様なチャネル設定をサポートし、特徴抽出の品質と汎化能力を向上させます。

物理学モデル

KinyaWhisperはOpenAI Whisperモデルをファインチューニングしたルワンダ語自動音声認識(ASR)システムで、低リソースの先住民言語向けに設計されています。

Transformers その他

Cricket Project 03

このモデルはmicrosoft/deberta-v3-baseをファインチューニングしたバージョンで、評価データセットで優れた性能を示し、精度は99.87%に達しました。

大規模言語モデル

Tinyllava Video Coldstart NextQA 16

TinyLLaVA-Video-R1は、NextQAデータセットからの16個の手動アノテーションサンプルを使用してTinyLLaVA-Videoをコールドスタート訓練することで得られた動画テキストからテキストへのモデルです。

ビデオ生成テキスト

google/vit-base-patch16-224-in21kをbeansデータセットでファインチューニングしたVision Transformerモデル、画像分類タスク用

Videomae Base Finetuned Ucf101 Subset

VideoMAEベースモデルをUCF101サブセットでファインチューニングしたビデオ分類モデル

R1-AQAはQwen2-Audio-7B-Instructを基にした音声質問応答モデルで、集団相対戦略最適化（GRPO）アルゴリズムによる強化学習最適化を行い、MMAUベンチマークテストで最先端の性能を達成しました。

音声生成テキスト

Segformer B0 Finetuned Morphpadver1 Hgo 3

nvidia/mit-b0をベースにファインチューニングした画像セグメンテーションモデルで、NICOPOI-9/morphpad_hgo_512_4classデータセットでトレーニングされ、高精度な画像セグメンテーションタスクに優れています。

画像セグメンテーション

Google Vision Transformer (ViT)アーキテクチャに基づく画像分類モデルで、beansデータセットに特化してファインチューニングされています

Zurich 7B GCv2 100k

Qwen 2.5 7B Instructモデルをファインチューニングした対話モデルで、ガンマコーパスv2-100kでトレーニング

大規模言語モデル

Transformers 英語

Cat Dog Classifier With Small Datasest

microsoft/resnet-50をファインチューニングした猫犬画像分類モデルで、評価セットで95%の精度を達成

Tomato Leaf Disease Classification Vit

Google Vision Transformer (ViT)アーキテクチャを基にファインチューニングしたトマト葉病害分類モデルで、評価セットで99.67%の精度を達成

Few Shot Art Painting

これは拡散モデルに基づく無条件画像生成モデルで、可愛い蝶の画像を生成するために特別に設計されています。

My Awesome Mind Model

facebook/wav2vec2-baseをminds14データセットでファインチューニングした音声分類モデル

Upernetconvnext Finetuned Segments Food Oct 14

ConvNeXtアーキテクチャに基づく食品画像セグメンテーションモデルで、FoodSeg103データセットでファインチューニングされ、食品画像中の異なる食材カテゴリを識別・分割するために特別に設計されています。

画像セグメンテーション

LWMは無線通信分野初の基盤モデルで、汎用特徴抽出器として開発され、無線チャネルデータから精緻な表現を抽出できます。

物理学モデル

Sapiens Pretrain 0.6b

Sapiensは3億枚の1024×1024解像度人体画像で事前学習された視覚Transformerモデルで、人間中心の視覚タスクに優れています。

画像分類英語

Theia Base Patch16 224 Cdiv

テイアはロボット学習向けの視覚基盤モデルで、複数の既存視覚基盤モデルを蒸留して構築され、豊富な視覚表現能力を備えています。

Theia Tiny Patch16 224 Cdiv

テイアはロボット学習向けの視覚基盤モデルで、複数の既存視覚基盤モデルを蒸留して作成され、豊富な視覚表現能力を備えています。

Robbert V2 Dutch Base Finetuned Emotion

このモデルはRobBERT v2オランダ語ベースモデルを感情分析タスクで微調整したバージョンで、主にオランダ語テキストの感情分類に使用されます。

テキスト分類

XTTS V2 Argentinian Spanish

ⓍTTSは音声生成モデルで、わずか6秒の音声サンプルで声をクローンし、異なる言語に適用できます。何時間もの大量のトレーニングデータは必要ありません。

音声合成スペイン語

Diffusion Aurora 256

拡散モデルに基づいた高品質なオーロラ画像を生成できるモデルです。

UL Exterior Classification

GoogleのViT-base-patch16-224モデルをファインチューニングした画像分類モデルで、評価セットでの精度は68.97%

Videomae Base ASD Eye Contact V2

VideoMAEベースモデルをファインチューニングしたビデオ分析モデルで、自閉症スペクトラム障害(ASD)関連のアイコンタクト認識タスクに特化

UL Base Classification

このモデルはGoogleのViT-base-patch16-224を画像フォルダデータセットでファインチューニングした画像分類モデルで、検証セットの精度は89.21%です。

Emotion Image Classification V2

GoogleのViTモデルをファインチューニングした感情画像分類モデルで、検証セットで59.38%の精度を達成しました。

Setfit Contracts Clauses

これはSetFitフレームワークに基づくテキスト分類モデルで、契約条項分類タスクに特化しており、精度は94.25%です。

テキスト分類

CosmicBun-8BはLlama3-8Bアーキテクチャを基にした統合モデルで、数学、物理、化学、生物などの科学分野のテキスト生成タスクに特化しています。

大規模言語モデル

Bhutanese Textile Model

GoogleのViTモデルをファインチューニングしたブータンテキスタイル画像分類モデル

Turkish Gpt2 Medium 350m Instruct V0.1

ytu-ce-cosmos/turkish-gpt2-mediumをベースに開発されたトルコ語モデルで、3.5万件の命令データセットでファインチューニングされており、様々なテキスト生成タスクに適しています

大規模言語モデル

Transformers その他

因果言語モデリング(CLM)アーキテクチャに基づく対話AIで、自然言語インタラクション向けに設計されており、一貫性があり文脈に合った応答を生成できます。

大規模言語モデル

Transformers 複数言語対応

VAIBHAV22334455

Mistralアーキテクチャに基づく7Bパラメータの大規模言語モデル。UnslothとTRLライブラリを使用した効率的なトレーニングにより、複数のベンチマークテストで優れたパフォーマンスを発揮。

大規模言語モデル

Transformers 英語

Skin Cancer Image Classification

視覚変換器(ViT)ベースの皮膚癌画像分類モデル、7種類の皮膚病変タイプを識別可能

Google ViTベースモデルをファインチューニングしたアルツハイマー病MRI画像分類モデルで、精度は92.6%

BoreanGale-70Bは、カスタムアルゴリズム(NearSwap)を使用して統合された70Bパラメータの大規模言語モデルで、miqu-1-70b-sfとWinterGoddess-1.4x-70B-L2の2つのモデルを統合して作成されました。

大規模言語モデル

Strangemerges 17 7B Dare Ties

StrangeMerges_17-7B-dare_tiesは、LazyMergekitを使用してGille/StrangeMerges_16-7B-slerpとGille/StrangeMerges_12-7B-slerpの2つのモデルをdare_tiesマージ手法で統合したものです。

大規模言語モデル

Tinycode Python

このモデルはbigcode/starcoderdataデータセットの58のPythonファイルのうち4つで学習されており、主にコード関連タスクに使用されます。

大規模言語モデル

Transformers 複数言語対応

Orthogonal 2x7B V2 Base

orthogonal-2x7B-v2-baseは、Mistral-7B-Instruct-v0.2とSanjiWatsuki/Kunoichi-DPO-v2-7Bを基にした混合専門家モデルで、テキスト生成タスクに特化しています。

大規模言語モデル

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase