L

Llama 3 2 3B Dpo Rlhf Fine Tuning

SURESHBEEKHANIによって開発
このモデルはLlama 3.2-3B-Instructを直接選好最適化(DPO)でファインチューニングしたバージョンで、報酬モデリングタスク向けに設計されており、言語理解、命令応答生成、選好に基づく回答順位付けタスクに適しています。
ダウンロード数 25
リリース時間 : 1/24/2025

モデル概要

4ビット量子化、勾配チェックポイント、パラメータ効率的ファインチューニング(PEFT)などのメモリ最適化技術を採用し、言語理解、命令応答生成、選好に基づく回答順位付けタスクに適しています。

モデル特徴

4ビット量子化
4ビット量子化によりVRAM使用量を削減し、低VRAMデバイスに対応。
勾配チェックポイント
勾配チェックポイントによりメモリ効率を向上させ、トレーニングプロセスを最適化。
パラメータ効率的ファインチューニング(PEFT)
LoRA(低ランク適応)などのPEFT手法を採用し、効率的にモデルをファインチューニング。
長文処理
RoPEスケーリングにより2048トークンの効率的な処理をサポート。

モデル能力

テキスト生成
選好最適化
長文処理
高速推論

使用事例

Q&Aシステム
精密な質問応答
ユーザーの命令に基づき正確で詳細な回答を生成。
命令実行
命令応答生成
ユーザーの要求に応じて応答を生成。
選好モデリング
回答順位付け
ユーザーフィードバック(採用vs拒否)に基づき回答を順位付け。
テキスト補完
テキスト継続
命令に基づきテキストを継続。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase