モデル選定

強化学習ファインチューニング

# 強化学習ファインチューニング

Finetuned Tamil Llama 7B Finetuned

Transformersライブラリをベースにした教師ありファインチューニング(SFT)モデルで、言語モデルの性能を最適化するために使用されます

大規模言語モデル

Phi 4 Reasoning Plus

Phi-4-reasoning-plus はマイクロソフトリサーチが開発した先進的なオープンウェイト推論モデルで、Phi-4を基に教師ありファインチューニングと強化学習で最適化され、数学、科学、コーディング分野の高度な推論能力に特化しています。

大規模言語モデル

Transformers 複数言語対応

Deepcoder 1.5B Preview AWQ

DeepCoder-1.5B-Previewは、コード推論に特化した大規模言語モデルで、分散型強化学習によりDeepSeek-R1-Distilled-Qwen-1.5Bからファインチューニングされ、より長い文脈長を処理できます。

大規模言語モデル

Transformers 英語

Ablation 141 A128.dpo.armorm.rp Shisa V2 Llama 3.1 8b

DPO手法でファインチューニングされた言語モデル、テキスト生成タスクに適応

大規模言語モデル

Ice0.101 20.03 RP GRPO 1

Unsloth無惰性最適化フレームワークとHuggingface TRLトレーニングライブラリで最適化された薄霧モデル、2倍速のトレーニング効率を実現

大規模言語モデル

Transformers 英語

Llama 3.1 Tulu 3.1 8B

Tülu 3は最先端の指示追従モデルファミリーで、完全オープンソースのデータ、コード、トレーニング手法を提供し、現代技術の包括的なガイドとして機能します。バージョン3.1では強化学習フェーズが改善され、性能が全体的に向上しました。

大規模言語モデル

Transformers 英語

Alignprop Trl Aesthetics

Stable Diffusion v1.5をファインチューニングしたテキストから画像を生成するモデルで、動物データセットの美学報酬関数を使用し、報酬逆伝播法でトレーニングされています。

Llama 3 NeuralPaca 8b

Meta LLAMA-3-8Bをベースに構築された最適化モデル。遅延なし最適化技術とHuggingface TRLライブラリを使用し、速度を2倍向上

大規模言語モデル

Transformers 英語

Blip Image Captioning Base Mocha

BLIP基礎モデルの公式チェックポイント。MOCHA強化学習フレームワークを用いてMS-COCOデータセットでファインチューニングされ、オープン語彙記述における幻覚問題を緩和

画像生成テキスト

Blip Image Captioning Large Mocha

これはBLIP-Largeモデルの公式ファインチューニング版で、MOCHa強化学習フレームワークを用いてMS-COCOデータセットでファインチューニングされ、開放語彙記述の幻覚問題を緩和することを目的としています

画像生成テキスト

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase