Selene-1-Mini-Llama-3.1-8B開源評委語言模型 - 小體積媲美大模型，性能超GPT-4

首頁

Selene 1 Mini Llama 3.1 8B

由AtlaAI開發

Atla Selene Mini 是當前最先進的小型評委語言模型(SLMJ)，性能可媲美體積大10倍的模型，在多個基準測試中超越GPT-4o。

大型語言模型

Transformers

支持多種語言開源協議:Apache-2.0 #評委型語言模型 #多語言評估 #高效評分

下載量 2,840

發布時間 : 1/22/2025

模型概述

基於Llama-3.1-8B的後訓練模型，專為評估任務設計，支持多種評分標準和結構化評估輸出。

模型特點

高性能評估能力

在RewardBench、EvalBiasBench和AutoJ基準測試中超越GPT-4o

多任務評估支持

支持絕對評分、分類判斷和成對偏好三類評估任務

多語言支持

主要支持英語，同時兼容多種歐洲和亞洲語言

長上下文處理

支持128K的上下文長度

模型能力

文本生成

回答評估

無害性評分

邏輯一致性判斷

RAG幻覺檢測

多語言處理

使用案例

內容評估

回答質量評分

以1-5分評估回覆的質量

提供結構化評分和定性評價

無害性檢測

評估內容的安全性和無害性

識別潛在有害內容

RAG系統

幻覺檢測

檢測生成內容中的事實性錯誤

提高RAG系統的可靠性

對話系統

對話質量評估

評估對話系統的回覆質量

優化對話系統性能

🚀 Atla Selene Mini模型

Atla Selene Mini是一款先進的小型語言裁判模型（SLMJ），在性能上可與比它大10倍的模型相媲美，在RewardBench、EvalBiasBench和AutoJ等評測中超越了GPT - 4o。

🛝 在線體驗 | 📄 技術報告 | 💻 GitHub倉庫 | 👀 通過API免費使用

🚀 快速開始

快速上手（HF Transformers）

from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # 加載模型的設備

model_id = "AtlaAI/Selene-1-Mini-Llama-3.1-8B"

model = AutoModelForCausalLM.from_pretrained(model_id, device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_id)

prompt = "I heard you can evaluate my responses?" # 替換為你的提示 / 我們在github.com/atla-ai/selene-mini/tree/main/prompt-templates提供了訓練時使用的提示模板
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer([text], return_tensors="pt").to(device)

generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=512, do_sample=True)
generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

✨ 主要特性

Atla Selene Mini是一款最先進的小型語言裁判模型（SLMJ）。Selene Mini的性能可與比它大10倍的模型相媲美，在RewardBench、EvalBiasBench和AutoJ等評測中超越了GPT - 4o。

居中圖片

該模型基於Llama - 3.1 - 8B在廣泛的評估任務和評分標準上進行了後訓練，在涵蓋三種不同類型任務的11個基準測試中，總體表現優於之前的小型模型：

絕對評分，例如“在1 - 5的範圍內評估此回覆的無害性”。
分類，例如“此回覆是否回答了用戶的問題？回答是或否”。
成對偏好，例如“以下哪個回覆在邏輯上更一致 - A還是B？”

它也是RewardBench上排名第一的8B生成模型。

居中圖片

該模型的大版本現已推出。你可以點擊此處免費開始使用全球最強大的評估模型。

📚 詳細文檔

模型詳情

屬性	詳情
開發者	Atla
模型類型	基於Llama - 3.1 - 8B進行後訓練
支持語言（NLP）	主要為英語，但支持德語、法語、意大利語、葡萄牙語、印地語、西班牙語、泰語
上下文長度	128K

模型使用

Selene Mini可用作通用評估模型。它支持不同的輸入和評分標準，生成結構化的評估輸出，並提供帶有推理的定性評價。

你可以嘗試以下兩個常見用例的操作指南：

為了獲得最佳效果，我們在此處提供了訓練時使用的提示。

請記住應用Llama 3的對話模板，否則可能會導致意外行為。你可以在此鏈接找到對話類，也可以參考下面的代碼來應用它。

聯繫我們

如果你有任何問題，可以發送郵件至support@atla-ai.com。
你也可以加入我們的Discord社區！

引用信息

如果你使用了該模型，請使用以下格式進行引用：

@misc{alexandru2025atlaseleneminigeneral,
      title={Atla Selene Mini: A General Purpose Evaluation Model}, 
      author={Andrei Alexandru and Antonia Calvi and Henry Broomfield and Jackson Golden and Kyle Dai and Mathias Leys and Maurice Burger and Max Bartolo and Roman Engeler and Sashank Pisupati and Toby Drane and Young Sun Park},
      year={2025},
      eprint={2501.17195},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2501.17195}, 
}