Llama-3.1-8B-AthenaSky-MegaMix开源大模型 - 提升推理、对话和创意生成能力

首页

Llama 3.1 8B AthenaSky MegaMix

由 ZeroXClem 开发

通过MergeKit融合多个高质量模型的8B参数大语言模型，优化了推理、对话和创意生成能力

大型语言模型

Transformers

英语开源协议:Apache-2.0 #多任务推理 #深度对话优化 #角色扮演增强

下载量 105

发布时间 : 3/11/2025

模型简介

该模型融合了多个Llama-3.1变体，在文本生成、逻辑推理和角色扮演方面表现优异

模型特点

高级推理能力

融合Skywork-o1模型，增强了逻辑思维和问题解决能力

深度对话参与

集成Claude风格微调模型，提升了对话质量和响应结构

多功能角色扮演

结合多个角色扮演优化模型，支持沉浸式互动体验

强指令遵循

基于多样化指令数据集训练，能准确理解并执行复杂指令

模型能力

文本生成

逻辑推理

代码生成

创意写作

教育辅助

问题解决

使用案例

对话与交互

智能聊天助手

用于构建自然流畅的对话系统

在IFEval基准测试中达到63.01的严格准确率

角色扮演应用

支持沉浸式角色扮演和故事创作

教育与研究

学术问题解答

解释复杂学术概念和理论

在MMLU-PRO测试中达到27.82准确率

编程辅助

代码生成与补全

提供编程建议和代码示例

🚀 ZeroXClem-Llama-3.1-8B-AthenaSky-MegaMix

ZeroXClem-Llama-3.1-8B-AthenaSky-MegaMix 是一个强大的AI模型，它通过使用 MergeKit 进行 模型库存合并 构建而成。该模型整合了 Hugging Face 上一些优秀的模型，确保在广泛的自然语言处理（NLP）任务中表现出色，包括推理、编码、角色扮演和指令遵循等。

模型融合

此模型是通过合并高质量的基础模型和微调模型创建的，形成了一个优化的 混合架构，保留了每个贡献模型的优势。

🚀 快速开始

🔥 Ollama（快速推理）

你可以使用 Ollama 运行该模型进行直接测试：

ollama run hf.co/ZeroXClem/Llama-3.1-8B-AthenaSky-MegaMix

🤗 Hugging Face Transformers（Python）

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
import torch

model_name = "ZeroXClem/Llama-3.1-8B-AthenaSky-MegaMix"

# 加载分词器和模型
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name, 
    torch_dtype=torch.bfloat16, 
    device_map="auto"
)

# 初始化文本生成管道
text_generator = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

# 示例提示
prompt = "Describe the significance of AI ethics in modern technology."

# 生成输出
outputs = text_generator(
    prompt,
    max_new_tokens=200,
    do_sample=True,
    temperature=0.7,
    top_k=50,
    top_p=0.95
)

print(outputs[0]["generated_text"])

✨ 主要特性

🔹 高级推理与深思熟虑：由于集成了 Skywork-o1，该模型在逻辑思维和问题解决方面表现出色。 🔹 增强的对话深度：包含 Meta-Llama-3.1-8B-Claude 使响应结构更好，在对话中更具吸引力。 🔹 多功能角色扮演与创造力：利用 mega_blend_model 和 good_mix_model_Stock，该模型支持沉浸式角色扮演和讲故事。 🔹 强大的指令遵循能力：在各种指令数据集上进行训练，以提供清晰、信息丰富且有用的响应。

📦 安装指南

文档未提供具体安装步骤，可参考快速开始部分的使用方法。

💻 使用示例

基础用法

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
import torch

model_name = "ZeroXClem/Llama-3.1-8B-AthenaSky-MegaMix"

# 加载分词器和模型
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name, 
    torch_dtype=torch.bfloat16, 
    device_map="auto"
)

# 初始化文本生成管道
text_generator = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

# 示例提示
prompt = "Describe the significance of AI ethics in modern technology."

# 生成输出
outputs = text_generator(
    prompt,
    max_new_tokens=200,
    do_sample=True,
    temperature=0.7,
    top_k=50,
    top_p=0.95
)

print(outputs[0]["generated_text"])

高级用法

文档未提供高级用法示例。

📚 详细文档

合并详情

合并方法：model_stock
基础模型：mergekit-community/L3.1-Athena-d-8B
数据类型：bfloat16
分词器来源：mergekit-community/L3.1-Athena-d-8B

合并的模型

以下模型为此次融合做出了贡献：

Pedro13543/mega_blend_model - 一个平衡良好的角色扮演和指令调优的Llama - 3.1变体混合模型。
Skywork/Skywork-o1-Open-Llama-3.1-8B - 针对推理和慢思考能力进行了优化。
Undi95/Meta-Llama-3.1-8B-Claude - 在Claude Opus/Sonnet数据上进行了微调，提高了响应深度和对话参与度。
mergekit-community/good_mix_model_Stock - 一个包含专注于角色扮演和知识密集型数据集的多样化混合模型。

配置

name: ZeroXClem-Llama-3.1-8B-AthenaSky-MegaMix
base_model: mergekit-community/L3.1-Athena-d-8B
dtype: bfloat16
merge_method: model_stock
models:
  - model: Pedro13543/mega_blend_model
  - model: Skywork/Skywork-o1-Open-Llama-3.1-8B
  - model: Undi95/Meta-Llama-3.1-8B-Claude
  - model: mergekit-community/good_mix_model_Stock
tokenizer_source: mergekit-community/L3.1-Athena-d-8B

使用场景

聊天与角色扮演：支持自然、引人入胜且动态的对话流程。
编程与代码生成：提供可靠的代码补全和调试建议。
创意写作：生成引人入胜的故事、角色对话和沉浸式文本。
教育辅助：帮助解释复杂主题并回答学术问题。
逻辑与问题解决：可以处理基于推理和结构化的思维过程。

模型评估结果

点击查看Open LLM Leaderboard评估结果详细结果可在此处查看。

指标	值
平均值	26.79
IFEval（零样本）	63.01
BBH（3样本）	31.39
MATH Lvl 5（4样本）	27.95
GPQA（零样本）	3.69
MuSR（零样本）	6.90
MMLU - PRO（5样本）	27.82