Meta-Llama-3-120B-Instruct開源大語言模型 - 免費助力創意寫作任務

首頁

Meta Llama 3 120B Instruct

由mlabonne開發

通過MergeKit工具對Meta-Llama-3-70B-Instruct進行自融合創建的120B參數大語言模型，擅長創意寫作任務

大型語言模型

Transformers

開源協議:其他 #創意寫作優化 #70B自融合架構 #Llama3對話模板

下載量 17

發布時間 : 5/1/2024

模型概述

基於Llama 3架構的120B參數指令微調模型，採用7個70B模型的層融合技術構建，支持8K上下文窗口並可通過參數擴展，特別優化創意寫作能力

模型特點

創意寫作優化

模型在創意寫作任務中表現出色，具有豐富的想象力和優質文風

擴展上下文支持

默認支持8K上下文窗口，可通過rope theta參數進一步擴展

多層融合架構

採用7個70B模型的層次化融合技術，增強模型表達能力

模型能力

創意文本生成

長文本連貫性保持

指令跟隨

多輪對話

使用案例

內容創作

小說創作

生成具有連貫劇情和豐富細節的虛構故事

評測顯示能產生天馬行空且文風上乘的文學作品

詩歌生成

創作具有韻律和意境的詩歌

🚀 Meta-Llama-3-120B-Instruct

Meta-Llama-3-120B-Instruct是一個基於meta-llama/Meta-Llama-3-70B-Instruct，使用MergeKit進行自合併的模型。它受到了以下大型合併模型的啟發：

特別感謝Eric Hartford對本模型的啟發和評估，以及Charles Goddard創建了MergeKit。

image/jpeg

🚀 快速開始

本模型適合用於創意寫作。它使用Llama 3聊天模板，默認上下文窗口為8K（可通過rope theta擴展）。你可以查看評估部分的示例，瞭解其性能表現。該模型整體表現較為自由，但寫作風格不錯，不過有時會輸出拼寫錯誤，且喜歡使用大寫字母。

✨ 主要特性

基於Meta-Llama-3-70B-Instruct進行自合併，受多個大型合併模型啟發。
適用於創意寫作場景。
有多種量化模型可供選擇。

📦 安裝指南

暫未提供相關安裝步驟。

💻 使用示例

基礎用法

!pip install -qU transformers accelerate

from transformers import AutoTokenizer
import transformers
import torch

model = "mlabonne/Meta-Llama-3-120B-Instruct"
messages = [{"role": "user", "content": "What is a large language model?"}]

tokenizer = AutoTokenizer.from_pretrained(model)
prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
pipeline = transformers.pipeline(
    "text-generation",
    model=model,
    torch_dtype=torch.float16,
    device_map="auto",
)

outputs = pipeline(prompt, max_new_tokens=256, do_sample=True, temperature=0.7, top_k=50, top_p=0.95)
print(outputs[0]["generated_text"])

📚 詳細文檔

🔍 應用場景

推薦將此模型用於創意寫作。它使用Llama 3聊天模板，默認上下文窗口為8K（可通過rope theta擴展）。查看評估部分的示例，可瞭解其性能表現。該模型整體表現較為自由，但寫作風格不錯，有時會輸出拼寫錯誤，且喜歡使用大寫字母。

⚡ 量化模型

感謝Bartowski、elinas、mlx-community等提供以下量化模型：

GGUF：https://huggingface.co/lmstudio-community/Meta-Llama-3-120B-Instruct-GGUF
EXL2：https://huggingface.co/elinas/Meta-Llama-3-120B-Instruct-4.0bpw-exl2
mlx：https://huggingface.co/mlx-community/Meta-Llama-3-120B-Instruct-4bit

🏆 評估

此模型在創意寫作方面表現出色，但在其他任務中表現不佳。使用時需謹慎，不要期望它在某些特定用例之外能超越GPT - 4。

Eric Hartford的X線程（創意寫作）：https://twitter.com/erhartford/status/1787050962114207886
Daniel Kaiser的X線程（創意寫作）：https://twitter.com/spectate_or/status/1787257261309518101
Simon的X線程（推理）：https://twitter.com/NewDigitalEdu/status/1787403266894020893
r/LocalLLaMa：https://www.reddit.com/r/LocalLLaMA/comments/1cl525q/goliath_lovers_where_is_the_feedback_about/

創意寫作

感謝Sam Paech對本模型進行評估並分享輸出結果！

image/png

🧩 配置

slices:
- sources:
  - layer_range: [0, 20]
    model: meta-llama/Meta-Llama-3-70B-Instruct
- sources:
  - layer_range: [10, 30]
    model: meta-llama/Meta-Llama-3-70B-Instruct
- sources:
  - layer_range: [20, 40]
    model: meta-llama/Meta-Llama-3-70B-Instruct
- sources:
  - layer_range: [30, 50]
    model: meta-llama/Meta-Llama-3-70B-Instruct
- sources:
  - layer_range: [40, 60]
    model: meta-llama/Meta-Llama-3-70B-Instruct
- sources:
  - layer_range: [50, 70]
    model: meta-llama/Meta-Llama-3-70B-Instruct
- sources:
  - layer_range: [60, 80]
    model: meta-llama/Meta-Llama-3-70B-Instruct
merge_method: passthrough
dtype: float16