🚀 TD-HallOumi-3B: 幻覚検出/主張検証用のLlama 3.2 3B
このモデルは、meta-llama/Llama-3.2-3B-Instruct
をファインチューニングしたもので、主張検証 と 幻覚検出 に特化しています。応答で行われた主張が与えられた文書コンテキストによって支持されているかどうかを評価します。
この研究は、Oumi AIのHallOumiプロジェクト で開発されたデータセットに触発され、利用しています。このプロジェクトは、検証可能な出力を可能にすることで、AIシステムへの信頼を構築することを目指しています。この30億パラメータのモデルは、TEEN-DIFFERENT コミュニティによって提供されています。
✨ 主な機能
性能
oumi-ai/oumi-groundedness-benchmark での幻覚検出の評価(マクロF1スコア):

- TD-HallOumi-3B* は 68.00% のマクロF1を達成しています。
- 高効率:この30億パラメータのモデルは、Open AI o1、Llama 3.1 405B、Gemini 1.5 Proなどの大規模モデルを上回っています。
- 競争力あり:Claude Sonnet 3.5 (69.60%) に僅差で劣っています。
このモデルは、多くの代替モデルよりも大幅に少ないパラメータで強力な幻覚検出能力を提供します。
📚 ドキュメント
モデルの詳細
プロパティ |
詳細 |
ベースモデル |
meta-llama/Llama-3.2-3B-Instruct |
ファインチューニングタスク |
与えられた文書コンテキストと応答(1つ以上の主張を含む)に対して、各主張が文書コンテキストによって `< |
モデル出力形式 |
モデルは、構造化されたプロンプト形式で提示された主張の検証ステータスを示す特定のタグ (`< |
言語 |
英語 |
訓練データ
このモデルは、主張検証タスク用にOumi AIによって作成されたデータセットの混合物を使用して、教師付きファインチューニング(SFT)で訓練されています。
結合された訓練データは、会話型SFT用にフォーマットされた messages
列を使用しています。
訓練手順
- フレームワーク:TRL(Transformer Reinforcement Learning library)のSFT Trainerを使用しています。
- アダプター手法:ファインチューニングの過程で低ランク適応(LoRA)が使用され、以下のパラメータが設定されています。
lora_r
: 64
lora_alpha
: 128
lora_dropout
: 0.05
lora_target_modules
: q_proj
, k_proj
, v_proj
, o_proj
, gate_proj
, up_proj
, down_proj
- 最終モデル:LoRAで訓練されましたが、ここにホストされている最終的に保存されたモデルアーティファクトには、LoRAの適応をベースモデルに統合した完全にマージされた重みが含まれており、デプロイが容易になっています。
- 主要なハイパーパラメータ:
- エポック数: 1
- 学習率: 4.0e-5(100ステップのウォームアップを伴うコサインスケジュール)
- オプティマイザ: AdamW(fused)
- バッチサイズ(デバイスごと): 2
- 勾配累積ステップ数: 8(有効バッチサイズ = 16 * デバイス数)
- 重み減衰: 0.01
- 最大シーケンス長: 8192
- 精度:
bfloat16
- 勾配チェックポインティング: 有効 (
use_reentrant=False
)
- トークナイザー:ベースのLlama 3.2トークナイザーが使用され、訓練中に特殊なパッドトークン
<|finetune_right_pad_id|>
が追加されています。このリポジトリに含まれるトークナイザーファイルはこれを反映しています。
完全な訓練設定はこちらで確認できます: Github
評価
- ベンチマーク:モデルの主張検証性能は、oumi-ai/oumi-groundedness-benchmark を使用して評価できます。このベンチマークは、幻覚検出モデルを評価するためにOumi AIによって開発され、多様な文書、リクエスト、および検証ラベル付きのAI生成応答が含まれています。
- 評価指標:このタスクの標準的な評価指標には、"SUPPORTED" (0) と "UNSUPPORTED" (1) クラス間のマクロF1スコアとバランスされた正解率が含まれます。
- 参照性能:Oumi AI HallOumi-8Bモデル は、このベンチマークで77.2%のマクロF1を達成しています。この30億パラメータモデルの性能は異なる場合があります。
完全な訓練設定はこちらで確認できます: Github
想定される使用方法
このモデルは、与えられた文書コンテキストに対する主張検証を目的として設計されています。主な使用例は、LLMによって生成されたテキスト(または人が書いたテキスト)で、ソース文書と比較したときの幻覚または支持されていない記述を検出することです。
汎用的なチャットボットとして、または根拠の検証以外のタスクには使用されることを想定していません。
制限事項とバイアス
- 継承されたバイアス:meta-llama/Llama-3.2-3B-Instructをファインチューニングしたモデルであるため、訓練データに含まれるベースモデルのバイアスを引き継ぐ可能性があります。
- 合成データのバイアス:ファインチューニングデータの多くはLlama-3.1-405B-Instructを使用して生成されているため、生成モデルに特有のバイアスや制限が含まれる可能性があります。
- 特化性:モデルは訓練された主張検証タスク形式に特化しています。大幅に異なるプロンプト構造やタスクでは性能が低下する可能性があります。
- コンテキスト依存性:検証精度は、与えられた文書コンテキストの品質と関連性に完全に依存します。モデルは、文書コンテキストに含まれていない一般的な世界知識に対する主張を検証することはできません。
- 微妙さ:HallOumiプロジェクトの目標に沿って微妙さを考慮して訓練されていますが、複雑または非常にニュアンスのある主張は正しく検証するのが難しい場合があります。
📄 ライセンス
このモデルはCC-BY-NC-4.0ライセンスの下で提供されています。
引用
このモデルを使用する場合は、ベースモデル、データセット、Oumi AI HallOumiプロジェクト、およびこの特定のファインチューニングされたモデルアーティファクトを引用することを検討してください。
このファインチューニングされたモデル (TD-HallOumi-3B):
@misc{teen_d_halloumi_3b_2024,
author = {Tarun Reddi and Teen Different},
title = {TD-HallOumi-3B: Fine-tuned Llama-3.2-3B-Instruct for Claim Verification},
month = {April},
year = {2025},
url = {\url{https://huggingface.co/TEEN-D/TD-HallOumi-3B}}
}
ベースモデル:
@misc{meta2024llama32,
title = {Introducing Llama 3.2: The Next Generation of Open Weights AI Models},
author = {Meta AI},
year = {2024},
url = {https://ai.meta.com/blog/llama-3-2-ai-models/}
}
データセット:
@misc{oumiANLISubset,
author = {Jeremiah Greer},
title = {Oumi ANLI Subset},
month = {March},
year = {2025},
url = {https://huggingface.co/datasets/oumi-ai/oumi-anli-subset}
}
@misc{oumiC2DAndD2CSubset,
author = {Jeremiah Greer},
title = {Oumi C2D and D2C Subset},
month = {March},
year = {2025},
url = {https://huggingface.co/datasets/oumi-ai/oumi-c2d-d2c-subset}
}
@misc{oumiSyntheticClaims,
author = {Jeremiah Greer},
title = {Oumi Synthetic Claims},
month = {March},
year = {2025},
url = {https://huggingface.co/datasets/oumi-ai/oumi-synthetic-claims}
}
@misc{oumiSyntheticDocumentClaims,
author = {Jeremiah Greer},
title = {Oumi Synthetic Document Claims},
month = {March},
year = {2025},
url = {https://huggingface.co/datasets/oumi-ai/oumi-synthetic-document-claims}
}
@misc{oumiGroundednessBenchmark,
author = {Jeremiah Greer},
title = {Oumi Groundedness Benchmark},
month = {March},
year = {2025},
url = {https://huggingface.co/datasets/oumi-ai/oumi-groundedness-benchmark}
}
OumiプラットフォームとHallOumiプロジェクト:
@software{oumi2025,
author = {Oumi Community},
title = {Oumi: an Open, End-to-end Platform for Building Large Foundation Models},
month = {January},
year = {2025},
url = {https://github.com/oumi-ai/oumi}
}
@article{halloumi2025,
author = {Greer, Jeremiah and Koukoumidis, Manos and Aisopos, Konstantinos and Schuler, Michael},
title = {Introducing HallOumi: A State-of-the-Art Claim-Verification Model},
journal = {Oumi AI Blog},
year = {2025},
month = {April},
url = {https://oumi.ai/blog/posts/introducing-halloumi}
}