# DPO強化学習

Bielik 1.5B V3.0 Instruct
Apache-2.0
Bielik-1.5B-v3-Instructは16億パラメータを持つポーランド語生成テキストモデルで、Bielik-1.5B-v3を基に命令ファインチューニングされ、SpeakLeashとACK Cyfronet AGHの協力で開発されました。
大規模言語モデル Transformers その他
B
speakleash
780
8
Calme 2.1 Qwen2.5 72b
その他
Qwen/Qwen2.5-72B-Instructを基に微調整した高度な言語モデルで、自然言語理解と生成に優れた性能を発揮
大規模言語モデル Transformers 英語
C
MaziyarPanahi
155
3
Orca Mini V5 8b Dpo
Llama 3アーキテクチャに基づく8Bパラメータモデル、複数のDPOデータセットでトレーニングされ、テキスト生成タスクに特化
大規模言語モデル Transformers 英語
O
pankajmathur
16
3
Self Biorag 7b Olaph
Minbyul/selfbiorag-7b-wo-kqa_golden-iter-dpo-step3-filteredを基にファインチューニングしたバージョンで、HuggingFace MedLFQA(kqa_goldenを除く)データセットを使用して直接選好最適化(DPO)トレーニングを実施
大規模言語モデル Transformers 英語
S
dmis-lab
20
3
Llama 3 8B Instruct 64k
winglian/Llama-3-8b-64k-PoSE を基に開発された8Bパラメータの大規模言語モデル。PoSE技術を用いてコンテキスト長を64kに拡張し、DPO微調整で最適化
大規模言語モデル Transformers 英語
L
MaziyarPanahi
91
12
TC Instruct DPO
Apache-2.0
台風7Bを微調整したタイ語命令最適化モデルで、直接選好最適化(DPO)技術を用いてトレーニング
大規模言語モデル Transformers 複数言語対応
T
tanamettpk
28
10
Noromaid 7B 0.4 DPO
IkariDevとUndiが共同開発した7Bパラメータの大規模言語モデル、DPO最適化訓練を経た
大規模言語モデル Transformers
N
NeverSleep
137
27
Phi2 Chinese 0.2B
Apache-2.0
Phi2アーキテクチャに基づく2億パラメータの中国語因果言語モデル、テキスト生成タスクをサポート
大規模言語モデル Transformers 複数言語対応
P
charent
65
30
Dpopenhermes 7B V2
Apache-2.0
DPOpenHermes 7B v2はOpenHermes-2.5-Mistral-7Bを基にした2回目のRL微調整モデルで、直接選好最適化(DPO)による強化学習を行い、Intel/orca_dpo_pairsとallenai/ultrafeedback_binarized_cleanedの選好データセットを使用しています。
大規模言語モデル Transformers 英語
D
openaccess-ai-collective
30
31
14B DPO Alpha
CausalLM/14B-DPO-αは因果言語モデルに基づく大規模言語モデルで、中英テキスト生成タスクをサポートし、MT-Bench評価で優れた性能を発揮します。
大規模言語モデル Transformers 複数言語対応
1
CausalLM
172
118
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase