S

Self Biorag 7b Olaph

dmis-labによって開発
Minbyul/selfbiorag-7b-wo-kqa_golden-iter-dpo-step3-filteredを基にファインチューニングしたバージョンで、HuggingFace MedLFQA(kqa_goldenを除く)データセットを使用して直接選好最適化(DPO)トレーニングを実施
ダウンロード数 20
リリース時間 : 5/22/2024

モデル概要

このモデルは直接選好最適化(DPO)でトレーニングされた70億パラメータの言語モデルで、医療分野のQAタスクに特化し、強化学習により回答品質を最適化

モデル特徴

直接選好最適化
DPOアルゴリズムを使用したファインチューニングにより、高品質回答への選好を最適化
医療分野特化
医療QAデータセットでトレーニングされ、専門的な医療問題の処理に適している
マルチGPUトレーニング
4つのGPUを使用した分散トレーニングにより、トレーニング効率を向上

モデル能力

医療質問応答
専門分野のテキスト生成
選好学習

使用事例

医療健康
医療知識QAシステム
専門的な医療質問に回答できるインテリジェントアシスタントの構築
MedLFQAデータセットで優れた性能を発揮
医学教育ツール
医学生の教育・訓練用QAシステム
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase