Llama-3.1-8B-AthenaSky-MegaMix開源大模型 - 提升推理、對話和創意生成能力

首頁

Llama 3.1 8B AthenaSky MegaMix

由ZeroXClem開發

通過MergeKit融合多個高質量模型的8B參數大語言模型，優化了推理、對話和創意生成能力

大型語言模型

Transformers

英語開源協議:Apache-2.0 #多任務推理 #深度對話優化 #角色扮演增強

下載量 105

發布時間 : 3/11/2025

模型概述

該模型融合了多個Llama-3.1變體，在文本生成、邏輯推理和角色扮演方面表現優異

模型特點

高級推理能力

融合Skywork-o1模型，增強了邏輯思維和問題解決能力

深度對話參與

集成Claude風格微調模型，提升了對話質量和響應結構

多功能角色扮演

結合多個角色扮演優化模型，支持沉浸式互動體驗

強指令遵循

基於多樣化指令數據集訓練，能準確理解並執行復雜指令

模型能力

文本生成

邏輯推理

代碼生成

創意寫作

教育輔助

問題解決

使用案例

對話與交互

智能聊天助手

用於構建自然流暢的對話系統

在IFEval基準測試中達到63.01的嚴格準確率

角色扮演應用

支持沉浸式角色扮演和故事創作

教育與研究

學術問題解答

解釋複雜學術概念和理論

在MMLU-PRO測試中達到27.82準確率

編程輔助

代碼生成與補全

提供編程建議和代碼示例

🚀 ZeroXClem-Llama-3.1-8B-AthenaSky-MegaMix

ZeroXClem-Llama-3.1-8B-AthenaSky-MegaMix 是一個強大的AI模型，它通過使用 MergeKit 進行 模型庫存合併 構建而成。該模型整合了 Hugging Face 上一些優秀的模型，確保在廣泛的自然語言處理（NLP）任務中表現出色，包括推理、編碼、角色扮演和指令遵循等。

模型融合

此模型是通過合併高質量的基礎模型和微調模型創建的，形成了一個優化的 混合架構，保留了每個貢獻模型的優勢。

🚀 快速開始

🔥 Ollama（快速推理）

你可以使用 Ollama 運行該模型進行直接測試：

ollama run hf.co/ZeroXClem/Llama-3.1-8B-AthenaSky-MegaMix

🤗 Hugging Face Transformers（Python）

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
import torch

model_name = "ZeroXClem/Llama-3.1-8B-AthenaSky-MegaMix"

# 加載分詞器和模型
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name, 
    torch_dtype=torch.bfloat16, 
    device_map="auto"
)

# 初始化文本生成管道
text_generator = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

# 示例提示
prompt = "Describe the significance of AI ethics in modern technology."

# 生成輸出
outputs = text_generator(
    prompt,
    max_new_tokens=200,
    do_sample=True,
    temperature=0.7,
    top_k=50,
    top_p=0.95
)

print(outputs[0]["generated_text"])

✨ 主要特性

🔹 高級推理與深思熟慮：由於集成了 Skywork-o1，該模型在邏輯思維和問題解決方面表現出色。 🔹 增強的對話深度：包含 Meta-Llama-3.1-8B-Claude 使響應結構更好，在對話中更具吸引力。 🔹 多功能角色扮演與創造力：利用 mega_blend_model 和 good_mix_model_Stock，該模型支持沉浸式角色扮演和講故事。 🔹 強大的指令遵循能力：在各種指令數據集上進行訓練，以提供清晰、信息豐富且有用的響應。

📦 安裝指南

文檔未提供具體安裝步驟，可參考快速開始部分的使用方法。

💻 使用示例

基礎用法

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
import torch

model_name = "ZeroXClem/Llama-3.1-8B-AthenaSky-MegaMix"

# 加載分詞器和模型
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name, 
    torch_dtype=torch.bfloat16, 
    device_map="auto"
)

# 初始化文本生成管道
text_generator = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

# 示例提示
prompt = "Describe the significance of AI ethics in modern technology."

# 生成輸出
outputs = text_generator(
    prompt,
    max_new_tokens=200,
    do_sample=True,
    temperature=0.7,
    top_k=50,
    top_p=0.95
)

print(outputs[0]["generated_text"])

高級用法

文檔未提供高級用法示例。

📚 詳細文檔

合併詳情

合併方法：model_stock
基礎模型：mergekit-community/L3.1-Athena-d-8B
數據類型：bfloat16
分詞器來源：mergekit-community/L3.1-Athena-d-8B

合併的模型

以下模型為此次融合做出了貢獻：

Pedro13543/mega_blend_model - 一個平衡良好的角色扮演和指令調優的Llama - 3.1變體混合模型。
Skywork/Skywork-o1-Open-Llama-3.1-8B - 針對推理和慢思考能力進行了優化。
Undi95/Meta-Llama-3.1-8B-Claude - 在Claude Opus/Sonnet數據上進行了微調，提高了響應深度和對話參與度。
mergekit-community/good_mix_model_Stock - 一個包含專注於角色扮演和知識密集型數據集的多樣化混合模型。

配置

name: ZeroXClem-Llama-3.1-8B-AthenaSky-MegaMix
base_model: mergekit-community/L3.1-Athena-d-8B
dtype: bfloat16
merge_method: model_stock
models:
  - model: Pedro13543/mega_blend_model
  - model: Skywork/Skywork-o1-Open-Llama-3.1-8B
  - model: Undi95/Meta-Llama-3.1-8B-Claude
  - model: mergekit-community/good_mix_model_Stock
tokenizer_source: mergekit-community/L3.1-Athena-d-8B

使用場景

聊天與角色扮演：支持自然、引人入勝且動態的對話流程。
編程與代碼生成：提供可靠的代碼補全和調試建議。
創意寫作：生成引人入勝的故事、角色對話和沉浸式文本。
教育輔助：幫助解釋複雜主題並回答學術問題。
邏輯與問題解決：可以處理基於推理和結構化的思維過程。

模型評估結果

點擊查看Open LLM Leaderboard評估結果詳細結果可在此處查看。

指標	值
平均值	26.79
IFEval（零樣本）	63.01
BBH（3樣本）	31.39
MATH Lvl 5（4樣本）	27.95
GPQA（零樣本）	3.69
MuSR（零樣本）	6.90
MMLU - PRO（5樣本）	27.82