セレーネ1ミニラマ3.1－8Bオープンソース審査員言語モデル - 小型で大型モデルに匹敵し、性能はGPT

ホーム

Selene 1 Mini Llama 3.1 8B

AtlaAIによって開発

Atla Selene Miniは現在最も先進的な小型審査言語モデル(SLMJ)で、サイズが10倍大きいモデルに匹敵する性能を持ち、複数のベンチマークテストでGPT-4oを上回っています。

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #審査型言語モデル #多言語評価 #効率的な採点

ダウンロード数 2,840

リリース時間 : 1/22/2025

モデル概要

Llama-3.1-8Bをベースにした後訓練モデルで、評価タスク専用に設計されており、複数の採点基準と構造化された評価出力をサポートします。

モデル特徴

高性能評価能力

RewardBench、EvalBiasBench、AutoJベンチマークテストでGPT-4oを上回る

多タスク評価サポート

絶対評価、分類判断、ペアワイズ選好の3種類の評価タスクをサポート

多言語サポート

主に英語をサポートし、複数のヨーロッパ言語とアジア言語にも対応

長文コンテキスト処理

128Kのコンテキスト長をサポート

モデル能力

テキスト生成

回答評価

無害性評価

論理的一貫性判断

RAG幻覚検出

多言語処理

使用事例

コンテンツ評価

回答品質評価

1-5点で回答の品質を評価

構造化された採点と定性的評価を提供

無害性検出

コンテンツの安全性と無害性を評価

潜在的な有害コンテンツを識別

RAGシステム

幻覚検出

生成コンテンツ内の事実誤りを検出

RAGシステムの信頼性向上

対話システム

対話品質評価

対話システムの回答品質を評価

対話システムの性能最適化

🚀 Atla Selene Mini

Atla Selene Miniは、最先端の小型言語評価モデル（SLMJ）です。Selene Miniは、自身の10倍のサイズのモデルと同等の性能を達成し、RewardBench、EvalBiasBench、AutoJでGPT - 4oを上回っています。

🛝 Playground | 📄 Technical report | 💻 GitHub | 👀 Access for free via API

🚀 クイックスタート

from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # the device to load the model onto

model_id = "AtlaAI/Selene-1-Mini-Llama-3.1-8B"

model = AutoModelForCausalLM.from_pretrained(model_id, device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_id)

prompt = "I heard you can evaluate my responses?" # replace with your prompt / we provide prompt templates used during training at github.com/atla-ai/selene-mini/tree/main/prompt-templates
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer([text], return_tensors="pt").to(device)

generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=512, do_sample=True)
generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

✨ 主な機能

Atla Selene Miniは、最先端の小型言語評価モデル（SLMJ）です。Llama - 3.1 - 8Bを元に、幅広い評価タスクとスコアリング基準で追加学習されており、3種類のタスクをカバーする11のベンチマークで、従来の小型モデルを上回る性能を発揮します。また、RewardBenchでは8Bの生成モデルとしてトップの性能を誇ります。

Centered image

📚 ドキュメント

モデルの詳細

属性	详情
開発者	Atla
モデルタイプ	Llama - 3.1 - 8Bから追加学習
言語	主に英語。ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語もサポート
コンテキスト長	128K

モデルの使用方法

Selene Miniは汎用的な評価モデルとして使用できます。様々な入力とスコアリングスケールをサポートし、構造化された評価出力を生成し、理由付きの定性的な批判を提供します。

以下の2つの一般的な使用例のクックブックを試してみてください。

最良の結果を得るために、こちらで学習に使用したプロンプトを提供しています。

Llama 3の会話テンプレートを適用することを忘れないでください。適用しないと予期しない動作につながる可能性があります。会話クラスはこのリンクで見つけることができます。または、以下のコードを参照して適用することができます。

📄 ライセンス

このモデルは、Apache - 2.0ライセンスの下で提供されています。

🔗 コンタクト

support@atla-ai.com
また、Discordに参加することもできます！

📖 引用

モデルを使用する場合は、以下のように引用してください。

@misc{alexandru2025atlaseleneminigeneral,
      title={Atla Selene Mini: A General Purpose Evaluation Model}, 
      author={Andrei Alexandru and Antonia Calvi and Henry Broomfield and Jackson Golden and Kyle Dai and Mathias Leys and Maurice Burger and Max Bartolo and Roman Engeler and Sashank Pisupati and Toby Drane and Young Sun Park},
      year={2025},
      eprint={2501.17195},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2501.17195}, 
}