Llama 3 2 3B Dpo Rlhf Fine Tuning
L
Llama 3 2 3B Dpo Rlhf Fine Tuning
SURESHBEEKHANIによって開発
このモデルはLlama 3.2-3B-Instructを直接選好最適化(DPO)でファインチューニングしたバージョンで、報酬モデリングタスク向けに設計されており、言語理解、命令応答生成、選好に基づく回答順位付けタスクに適しています。
ダウンロード数 25
リリース時間 : 1/24/2025
モデル概要
4ビット量子化、勾配チェックポイント、パラメータ効率的ファインチューニング(PEFT)などのメモリ最適化技術を採用し、言語理解、命令応答生成、選好に基づく回答順位付けタスクに適しています。
モデル特徴
4ビット量子化
4ビット量子化によりVRAM使用量を削減し、低VRAMデバイスに対応。
勾配チェックポイント
勾配チェックポイントによりメモリ効率を向上させ、トレーニングプロセスを最適化。
パラメータ効率的ファインチューニング(PEFT)
LoRA(低ランク適応)などのPEFT手法を採用し、効率的にモデルをファインチューニング。
長文処理
RoPEスケーリングにより2048トークンの効率的な処理をサポート。
モデル能力
テキスト生成
選好最適化
長文処理
高速推論
使用事例
Q&Aシステム
精密な質問応答
ユーザーの命令に基づき正確で詳細な回答を生成。
命令実行
命令応答生成
ユーザーの要求に応じて応答を生成。
選好モデリング
回答順位付け
ユーザーフィードバック(採用vs拒否)に基づき回答を順位付け。
テキスト補完
テキスト継続
命令に基づきテキストを継続。
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98