モデル選定

DPO強化学習

# DPO強化学習

Bielik 1.5B V3.0 Instruct

Bielik-1.5B-v3-Instructは16億パラメータを持つポーランド語生成テキストモデルで、Bielik-1.5B-v3を基に命令ファインチューニングされ、SpeakLeashとACK Cyfronet AGHの協力で開発されました。

大規模言語モデル

Transformers その他

Calme 2.1 Qwen2.5 72b

Qwen/Qwen2.5-72B-Instructを基に微調整した高度な言語モデルで、自然言語理解と生成に優れた性能を発揮

大規模言語モデル

Transformers 英語

Orca Mini V5 8b Dpo

Llama 3アーキテクチャに基づく8Bパラメータモデル、複数のDPOデータセットでトレーニングされ、テキスト生成タスクに特化

大規模言語モデル

Transformers 英語

Self Biorag 7b Olaph

Minbyul/selfbiorag-7b-wo-kqa_golden-iter-dpo-step3-filteredを基にファインチューニングしたバージョンで、HuggingFace MedLFQA（kqa_goldenを除く）データセットを使用して直接選好最適化(DPO)トレーニングを実施

大規模言語モデル

Transformers 英語

Llama 3 8B Instruct 64k

winglian/Llama-3-8b-64k-PoSE を基に開発された8Bパラメータの大規模言語モデル。PoSE技術を用いてコンテキスト長を64kに拡張し、DPO微調整で最適化

大規模言語モデル

Transformers 英語

TC Instruct DPO

台風7Bを微調整したタイ語命令最適化モデルで、直接選好最適化(DPO)技術を用いてトレーニング

大規模言語モデル

Transformers 複数言語対応

Noromaid 7B 0.4 DPO

IkariDevとUndiが共同開発した7Bパラメータの大規模言語モデル、DPO最適化訓練を経た

大規模言語モデル

Phi2 Chinese 0.2B

Phi2アーキテクチャに基づく2億パラメータの中国語因果言語モデル、テキスト生成タスクをサポート

大規模言語モデル

Transformers 複数言語対応

Dpopenhermes 7B V2

DPOpenHermes 7B v2はOpenHermes-2.5-Mistral-7Bを基にした2回目のRL微調整モデルで、直接選好最適化（DPO）による強化学習を行い、Intel/orca_dpo_pairsとallenai/ultrafeedback_binarized_cleanedの選好データセットを使用しています。

大規模言語モデル

Transformers 英語

openaccess-ai-collective

CausalLM/14B-DPO-αは因果言語モデルに基づく大規模言語モデルで、中英テキスト生成タスクをサポートし、MT-Bench評価で優れた性能を発揮します。

大規模言語モデル

Transformers 複数言語対応

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase