モデル選定

少数サンプル微調整

# 少数サンプル微調整

Swf Trained Model

このモデルはmukesh3444/window_detection_modelをベースに、nagarajuthirupathi/indoor_window_detection_swfデータセットで微調整した画像セグメンテーションモデルで、室内の窓検出タスクに特化しています。

画像セグメンテーション

nagarajuthirupathi

Logoiconemojimoe V0.2 FLUX.1 Dev LoRA

FLUX.1-devモデルを基にしたLoRAアダプターで、ロゴ、アイコン、絵文字の生成に特化しており、マイクロソフトFluentUIスタイルを含む様々な3Dレンダリング効果をサポートします。

Bge Base En V1.5 Course Recommender V5

これはBAAI/bge-base-en-v1.5から微調整されたsentence-transformersモデルで、文や段落を768次元の密ベクトル空間にマッピングできます。

テキスト埋め込み

これはFlaxフレームワークをベースにしたテキスト生成画像モデルで、ぬいぐるみスタイルの画像生成に特化しています。

テキスト生成画像英語

Segformer B0 Finetuned Morphpadver1 Hgo Coord

nvidia/mit-b0をベースに微調整した画像セグメンテーションモデルで、NICOPOI-9/morphpad_coord_hgo_512_4classデータセットで優れた性能を発揮

画像セグメンテーション

Finetuning Sentiment Model 3000 Samples

distilbert-base-uncasedを基に微調整した感情分析モデルで、評価セットで87.67%の精度を達成

テキスト分類

Learn Hf Food Not Food Text Classifier Distilbert Base Uncased

DistilBERTベースのテキスト分類モデルで、食品と非食品のテキストを区別するために使用されます

テキスト分類

HimanshuGoyal2004

Finetuned ViT Model

DETR-ResNet50アーキテクチャを基に微調整された安全帽検出モデル、産業シーン向けに設計

Transformers 英語

チュニジアカスタムデータセットで微調整されたXTTS V2テキスト音声合成モデル

音声合成アラビア語

Speecht5 Base Cs Tts

これは単一言語チェコ語のSpeechT5ベースモデルで、12万時間のチェコ語音声と1750億単語のテキストコーパスで事前学習されており、チェコ語TTSの微調整の出発点として設計されています。

Transformers その他

Florence 2 DocVQA

これはMicrosoftのFlorence-2モデルをDocmatixデータセット（データ量5%）で学習率1e-6で1日間微調整したバージョンです

テキスト生成画像

Kosmos 2 PokemonCards Trl Merged

これはマイクロソフトのKosmos-2モデルを微調整したマルチモーダルモデルで、ポケモンカードのポケモン名を識別するために特別に設計されています。

画像生成テキスト

Transformers 英語

Llama 3 8b Patent Small Dataset

Meta-Llama-3-8B-Instructを基に、16,000件の韓国語特許の小規模データセット英語翻訳版で微調整したモデルで、テスト用途のみに使用されます。

大規模言語モデル

Transformers 英語

Finetuned Clothes

GoogleのViTモデルを微調整した衣料品分類モデル、7種類の衣料品カテゴリの画像分類をサポート

Gemma 1.1 7b It Fictional Chinese V1

google/gemma-1.1-7b-itをgeneratorデータセットで微調整した中国語言語モデル

大規模言語モデル

Intent Classifier

Flan-T5-Baseを微調整した意図分類モデルで、顧客の質問を事前定義されたカテゴリに分類するために使用されます

テキスト分類

Detr Resnet 101 Dc5 Sku110k

これはDETRアーキテクチャに基づく物体検出モデルで、ResNet-101-DC5をバックボーンネットワークとして使用し、SKU110Kデータセットでトレーニングされ、クエリ数は400に設定されています。

Videomae Base Finetuned Subset

MCG-NJU/videomae-baseモデルを未知のデータセットで微調整した動画理解モデル、精度67.13%達成

Distil Ast Audioset Finetuned Cry

bookbot/distil-ast-audiosetモデルをDonateACryデータセットで微調整したオーディオ分類モデルで、赤ちゃんの泣き声を識別するために使用されます

Blip Image Captioning Base Test Sagemaker Tops 3

このモデルはSalesforceのBLIP画像キャプション生成ベースモデルをSageMakerプラットフォームで微調整したバージョンで、主に画像キャプション生成タスクに使用されます。

画像生成テキスト

naver-clova-ix/donut-base-finetuned-cord-v2を微調整した文書画像理解モデル

画像生成テキスト

Abap Nous Hermes

これはLlama-2-7b-chat-hfを微調整したABAPプログラミング言語モデルで、ABAPコード生成に特化しています

大規模言語モデル

Transformers 英語

Segformer Finetuned Ihc

nvidia/mit-b0モデルをIsaacks/ihc_slide_tissueデータセットで微調整した画像分割モデル

画像セグメンテーション

Donut Base Sroie

naver-clova-ix/donut-baseを画像フォルダデータセットで微調整したモデル、具体的な用途は明記されていません

Digit Mask Data2vec Audio Base 960h Ft

data2vec-audio-base-960hを微調整した音声数字認識モデルで、数字マスキング拡張データセットで優れた性能を発揮

Digit Mask Unispeech Sat Base Ft

microsoft/unispeech-sat-baseを微調整した音声処理モデルで、数字マスキングタスクに特化しており、評価セットで優れた性能を発揮します。

Swinv2 Tiny Patch4 Window8 256 Finetuned THFOOD 50

このモデルはSwin Transformer V2アーキテクチャに基づき、THFOOD-50タイ料理データセットで微調整された視覚分類モデルで、タイ料理の画像識別に特化しています。

philschmid/donut-base-sroieを微調整したモデルで、画像処理タスクに適しています

Dreambooth Diffusion Clay Cups

Keras Dreamboothで微調整されたテキストから画像を生成するモデルで、ベンガル陶土芸術スタイルの様々な物品画像を生成可能

keras-dreambooth

Swin Tiny Patch4 Window7 224 Finetuned Eurosat

microsoft/swin-tiny-patch4-window7-224を画像フォルダデータセットで微調整した視覚モデル

Vit Base Railspace

google/vit-base-patch16-224-in21kを微調整したVision Transformerモデルで、評価セットで99.26%の精度を達成

Donut Base Finetuned Latvian Receipts V2

Donutアーキテクチャに基づくモデルで、ラトビア領収書データに特化して微調整されています

Donut Base Finetuned Latvian Receipts

このモデルはdonut-baseをラトビア領収書データセットで微調整したバージョンで、主に領収書画像処理タスクに使用されます

Platzi Vit Model Julio Test

これはGoogleのViTモデルを豆類データセットで微調整した画像分類モデルで、検証セットで99.25%の高い精度を達成しました。

Deit Tiny Patch16 224 Finetuned Og Dataset 10e

DeiT-tinyアーキテクチャに基づく軽量画像分類モデル、カスタム画像データセットで微調整後94.8%の精度を達成

Swin Tiny Patch4 Window7 224 Finetuned Skin Cancer

Swin Transformerアーキテクチャに基づく微調整モデルで、皮膚癌画像分類タスク専用

Whisper Medium Catalan

これはOpenAI Whisper Mediumモデルをカタルーニャ語Common Voice 11.0データセットで微調整した音声認識モデルです。

Transformers その他

Beit Base Patch16 224 Pt22k Ft22k Finetuned FER2013CKPlus 7e 05 Finetuned SFEW 7e 05

BEiTアーキテクチャに基づく視覚Transformerモデルで、FER2013CKPlusとSFEWデータセットで微調整され、顔表情認識タスクに使用されます。

Swin Tiny Patch4 Window7 224 Finetuned Trash Classification

Swin Transformerアーキテクチャに基づく微調整モデルで、ゴミ分別タスクに使用され、精度は88.27%

Swin Small Finetuned Cifar100

Swin Transformerアーキテクチャに基づく小型モデルで、CIFAR-100データセットで微調整され、画像分類タスクに使用されます

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase