Daredevil-8B開源超級融合模型 - 2024年MMLU得分最高的Llama 3 8B模型

首頁

Daredevil 8B

由mlabonne開發

Daredevil-8B 是一個專為最大化 MMLU 得分而設計的超級融合模型，截至 2024 年 5 月 27 日，它是 MMLU 得分最高的 Llama 3 8B 模型。

大型語言模型

Transformers

開源協議:其他 #MMLU高分 #多模型融合 #知識推理

下載量 238

發布時間 : 5/25/2024

模型概述

Daredevil-8B 是一個基於 Llama 3 8B 架構的融合模型，通過融合多個高質量模型優化了 MMLU 性能，可作為 Meta-Llama-3-8B-Instruct 的增強版使用。

模型特點

高性能 MMLU 得分

在 MMLU 基準測試中表現最佳，達到 69.24 的準確率

多模型融合

融合了 9 個高質量的 Llama 3 8B 變體模型

內容審查

經過內容審查的版本，適合安全敏感的應用場景

模型能力

文本生成

問答系統

知識推理

對話系統

使用案例

教育

知識問答

用於教育領域的知識問答系統

在 MMLU 基準測試中表現優異

研究

基準測試

用於語言模型性能研究和基準測試

在多個基準測試中表現優異

🚀 Daredevil-8B

Daredevil-8B是一個旨在最大化MMLU（大規模多任務語言理解）分數的超融合模型。在2024年5月27日，它是Llama 3 8B模型中MMLU分數最高的模型。根據經驗，對於Llama 3模型來說，較高的MMLU分數是非常關鍵的。

image/jpeg

🚀 快速開始

Daredevil-8B可作為meta-llama/Meta-Llama-3-8B-Instruct的改進版本使用。該模型經過了審查，若需要無審查版本，請查看mlabonne/Daredevil-8B-abliterated。此模型已在LM Studio上使用“Llama 3”預設進行了測試。

✨ 主要特性

高MMLU分數：在2024年5月27日，是Llama 3 8B模型中MMLU分數最高的模型。
多模型融合：使用LazyMergekit融合了多個模型。
量化支持：提供了GGUF量化版本，鏈接為https://huggingface.co/mlabonne/Daredevil-8B-GGUF 。

📦 安裝指南

使用前需要安裝必要的庫，可運行以下命令：

!pip install -qU transformers accelerate

💻 使用示例

基礎用法

from transformers import AutoTokenizer
import transformers
import torch

model = "mlabonne/Daredevil-8B"
messages = [{"role": "user", "content": "What is a large language model?"}]

tokenizer = AutoTokenizer.from_pretrained(model)
prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
pipeline = transformers.pipeline(
    "text-generation",
    model=model,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

outputs = pipeline(prompt, max_new_tokens=256, do_sample=True, temperature=0.7, top_k=50, top_p=0.95)
print(outputs[0]["generated_text"])

📚 詳細文檔

模型融合信息

Daredevil-8B是通過LazyMergekit融合以下模型得到的：

模型配置信息

models:
  - model: NousResearch/Meta-Llama-3-8B
    # No parameters necessary for base model
  - model: nbeerbower/llama-3-stella-8B
    parameters:
      density: 0.6
      weight: 0.16
  - model: Hastagaras/llama-3-8b-okay
    parameters:
      density: 0.56
      weight: 0.1
  - model: nbeerbower/llama-3-gutenberg-8B
    parameters:
      density: 0.6
      weight: 0.18
  - model: openchat/openchat-3.6-8b-20240522
    parameters:
      density: 0.56
      weight: 0.12
  - model: Kukedlc/NeuralLLaMa-3-8b-DT-v0.1
    parameters:
      density: 0.58
      weight: 0.18
  - model: cstr/llama3-8b-spaetzle-v20
    parameters:
      density: 0.56
      weight: 0.08
  - model: mlabonne/ChimeraLlama-3-8B-v3
    parameters:
      density: 0.56
      weight: 0.08
  - model: flammenai/Mahou-1.1-llama3-8B
    parameters:
      density: 0.55
      weight: 0.05
  - model: KingNish/KingNish-Llama3-8b
    parameters:
      density: 0.55
      weight: 0.05
merge_method: dare_ties
base_model: NousResearch/Meta-Llama-3-8B
dtype: bfloat16

評估信息

Open LLM Leaderboard

Daredevil-8B在Open LLM Leaderboard的MMLU分數方面是表現最佳的8B模型（2024年5月27日）。 image/png

Nous

Daredevil-8B在Nous的基準測試套件中是表現最佳的8B模型（使用LLM AutoEval進行評估，2024年5月27日）。完整排行榜請查看此處。

模型	平均分	AGIEval	GPT4All	TruthfulQA	Bigbench
mlabonne/Daredevil-8B 📄	55.87	44.13	73.52	59.05	46.77
mlabonne/Daredevil-8B-abliterated 📄	55.06	43.29	73.33	57.47	46.17
mlabonne/Llama-3-8B-Instruct-abliterated-dpomix 📄	52.26	41.6	69.95	54.22	43.26
meta-llama/Meta-Llama-3-8B-Instruct 📄	51.34	41.22	69.86	51.65	42.64
failspy/Meta-Llama-3-8B-Instruct-abliterated-v3 📄	51.21	40.23	69.5	52.44	42.69
mlabonne/OrpoLlama-3-8B 📄	48.63	34.17	70.59	52.39	37.36
meta-llama/Meta-Llama-3-8B 📄	45.42	31.1	69.95	43.91	36.7