R

Rootsignals Judge Llama 70B

Developed by root-signals
Root Judgeは、信頼性が高くカスタマイズ可能なLLMシステム評価用に設計された強力な中型大規模言語モデルです。Llama-3.3-70B-Instructをベースに微調整され、ペアワイズの嗜好判断や出所引用付きの多輪指令遵守タスクに長けています。
Downloads 620
Release Time : 2/5/2025

Model Overview

Root Judgeは、大規模言語モデル評価に特化した中型モデルで、幻覚検出と指令遵守において優れた性能を発揮し、ローカルデプロイと低コストアプリケーションをサポートします。

Model Features

高性能幻覚検出
RAG設定において文脈関連の幻覚を検出し、主要な閉ソースモデルを上回る性能を発揮します。
強力な指令遵守能力
様々なベンチマークテストで優れた成績を収め、複雑なユーザ定義評価基準をサポートします。
低コストで効率的なデプロイ
FP8重みが無料で提供され、研究や商用アプリケーションに適しており、同類のモデルと比べてコストがごく一部です。
長文脈サポート
最大32kトークンの長い入力を処理でき、詳細な構造化理由を提供します。
ローカルデプロイサポート
プライバシーに敏感なシナリオに適しており、ローカル環境での実行をサポートします。

Model Capabilities

大規模言語モデル評価
幻覚検出
指令遵守評価
嗜好判断
構造化出力生成
長文脈処理

Use Cases

モデル評価
RAGシステム幻覚検出
検索強化生成システムにおける文脈関連の幻覚を検出します。
HaluBenchテストセットで86.3%の合格率を達成しました。
指令遵守評価
モデルの複雑な指令に対する遵守能力を評価します。
IFEvalなどのベンチマークテストで優れた成績を収めました。
コンテンツ審査
政治コンテンツ識別
テキスト中の政治関連のコンテンツと用語を識別します。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase