Progenitor-V3.3-LLaMa-70B开源语言模型 - 融合多模型带来更优性能体验

首页

Progenitor V3.3 LLaMa 70B

由 Tarek07 开发

本项目通过融合多个70B规模的预训练语言模型，旨在创造出性能更优的语言模型。以Llama 3.3指令模型为基础，运用Linear DELLA融合方法进行模型融合。

大型语言模型

Transformers

#多模型线性融合 #70B参数规模 #指令微调优化

下载量 101

发布时间 : 2/9/2025

模型简介

这是一个基于Llama 3.3-70B-Instruct的模型融合项目，通过合并多个高性能70B模型，提升语言处理能力。

模型特点

多模型融合

整合了6个不同的70B规模模型，包括Negative_LLAMA_70B、Anubis-70B-v1等

先进融合方法

使用Linear DELLA融合技术，优化模型性能

高性能基础

以meta-llama/Llama-3.3-70B-Instruct为基础模型

模型能力

文本生成

指令理解

自然语言处理

使用案例

文本生成

创意写作

生成高质量的文章、故事等创意内容

对话系统

构建智能对话助手

研究应用

语言模型研究

用于模型融合技术的研究和实验

🚀 模型融合项目

本项目是一个预训练语言模型的融合项目，通过融合多个强大的70B模型，旨在创造出性能更优的语言模型。它以特定的Llama 3.3指令模型为基础，运用先进的融合方法，为语言处理任务带来新的可能性。

项目图片

在得到使用3.3 Llama指令模型作为基础的建议后，我制作了这个测试模型。我在这个过程中玩得很开心，我认为它比1.1和2.2版本更出色。

🚀 快速开始

本项目使用了transformers库，相关标签为mergekit和merge，许可证为llama3.3。

基础信息

属性	详情
基础模型	SicariusSicariiStuff/Negative_LLAMA_70B、TheDrummer/Anubis-70B-v1、meta-llama/Llama-3.3-70B-Instruct、Sao10K/70B-L3.3-Cirrus-x1、Sao10K/L3.1-70B-Hanami-x1、EVA-UNIT-01/EVA-LLaMA-3.33-70B-v0.1
库名称	transformers
标签	mergekit、merge
许可证	llama3.3

✨ 主要特性

本项目是使用 mergekit 对预训练语言模型进行融合。

📚 详细文档

融合详情

融合方法

本模型使用 Linear DELLA 融合方法，以 meta-llama/Llama-3.3-70B-Instruct 为基础进行融合。

参与融合的模型

配置信息

以下是用于生成此模型的YAML配置：

models:
  - model: Sao10K/L3.1-70B-Hanami-x1
    parameters:
      weight: 0.20
      density: 0.7
  - model: Sao10K/70B-L3.3-Cirrus-x1
    parameters:
      weight: 0.20
      density: 0.7
  - model: SicariusSicariiStuff/Negative_LLAMA_70B
    parameters:
      weight: 0.20
      density: 0.7
  - model: TheDrummer/Anubis-70B-v1
    parameters:
      weight: 0.20
      density: 0.7
  - model: EVA-UNIT-01/EVA-LLaMA-3.33-70B-v0.1
    parameters:
      weight: 0.20
      density: 0.7
merge_method: della_linear
base_model: meta-llama/Llama-3.3-70B-Instruct
parameters:
  epsilon: 0.2
  lambda: 1.1
dype: float32
out_dtype: bfloat16
tokenizer:
 source: union