モデル選定

強化学習の微調整

# 強化学習の微調整

Unireason Qwen3 14B RL GGUF

UniReason-Qwen3-14B-RLの静的量子化バージョンで、テキスト生成と数学推理の研究シーンに適しています。

大規模言語モデル

Transformers 英語

Deephermes ToolCalling Specialist Atropos

Nous ResearchがAtropos強化学習フレームワークで微調整した実験的モデルで、Llama-3.1 8Bモデルの推論モードにおけるツール呼び出し性能の向上に焦点を当てています

大規模言語モデル

Transformers 英語

Qwen2.5 0.5B Instruct Gensyn Swarm Fierce Placid Whale

Gensyn/Qwen2.5-0.5B-Instructを微調整したバージョンで、TRLフレームワークとGRPOアルゴリズムを使用してトレーニング

大規模言語モデル

EXAONE 3.5 2.4B Fine Tuning

Hugging Faceが提供するTransformerモデルライブラリ、多様な自然言語処理タスクをサポート

大規模言語モデル

Qwen2.5 0.5B Instruct

Gensyn強化学習群専用に設計された0.5Bパラメータの命令微調整モデルで、ローカルでの微調整トレーニングをサポート

大規模言語モデル

Transformers 英語

Tifa DeepsexV2 7b MGRPO Safetensors GGUF

Tifa-DeepsexV2-7b-MGRPO-safetensors は、transformersライブラリを基にした多言語（中国語と英語）対応の大規模言語モデルで、増分事前学習、教師あり微調整、強化学習最適化を経ており、ロールプレイングや思考連鎖タスクに適しています。

大規模言語モデル複数言語対応

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase