L

Llama 3 Bophades V3 8B

nbeerbowerによって開発
Llama-3-8bを基に構築されたDPOファインチューニングモデルで、真実性と数学的推論能力の向上に焦点を当てています
ダウンロード数 44
リリース時間 : 5/2/2024

モデル概要

このモデルはLlama-3-8bをベースに、truthy-dpoとorca_math_dpoデータセットを使用して直接選好最適化(DPO)によるファインチューニングを行った改良版で、モデルの真実的な回答能力と数学的推論能力を強化することを目的としています。

モデル特徴

直接選好最適化(DPO)
DPO手法を用いたファインチューニングにより、採用回答と拒否回答を比較してモデルの出力品質を最適化
複数データセット統合トレーニング
truthy-dpo(真実性)とorca_math_dpo(数学的推論)の2つのデータセットを組み合わせてトレーニング
LoRA効率的ファインチューニング
低ランク適応(LoRA)技術を採用したパラメータ効率的なファインチューニングにより、計算リソース要件を削減

モデル能力

テキスト生成
質問応答システム
数学的問題解決
真実的回答生成

使用事例

教育
数学問題解答
学生が様々な数学問題を理解し解決するのを支援
orca_math_dpoデータセットによるファインチューニングで数学的推論能力を向上
情報検索
真実性質問応答システム
より真実性が高く信頼性のある質問応答サービスを提供
truthy-dpoデータセットによるファインチューニングで虚偽情報の生成を減少
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase