首頁

Calmerys 78B Orpo V0.1

由dfurman開發

基於MaziyarPanahi/calme-2.4-rys-78b在mlabonne/orpo-dpo-mix-40k數據集上微調的大語言模型，在Open LLM Leaderboard上排名第一

大型語言模型

Transformers

英語開源協議:MIT #78B大模型 #ORPO微調 #多輪對話

下載量 353

發布時間 : 9/24/2024

模型概述

通用語言模型，適用於多種文本生成場景，包括代理能力、角色扮演、推理、多輪對話和長上下文連貫性

模型特點

高性能

在Open LLM Leaderboard上排名第一

多功能

支持多種文本生成場景，包括推理、對話和長上下文處理

微調優化

在精選數據集上進行ORPO微調，提升模型性能

模型能力

文本生成

多輪對話

邏輯推理

長上下文處理

角色扮演

使用案例

問答系統

數學問題解答

解決數學比較和計算問題

準確比較數字大小並展示計算過程

內容創作

食譜生成

生成詳細的雞尾酒配方

提供完整材料清單和分步製作指南

商業應用

銷售數據分析

處理銷售數據並計算剩餘庫存

以表格形式清晰展示計算過程和結果

語言:

英文許可證: mit 庫名稱: transformers 標籤:
orpo
qwen2
sft
chatml 基礎模型:
MaziyarPanahi/calme-2.4-rys-78b 數據集:
mlabonne/orpo-dpo-mix-40k 管道標籤: 文本生成推理: 否模型創建者: dfurman 量化者: dfurman 模型索引:
名稱: CalmeRys-78B-Orpo-v0.1 結果:
- 任務: 類型: 文本生成名稱: 文本生成數據集: 名稱: IFEval (0-Shot) 類型: HuggingFaceH4/ifeval 參數: num_few_shot: 0 指標:
  - 類型: inst_level_strict_acc 和 prompt_level_strict_acc 值: 81.63 名稱: 嚴格準確率來源: url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=dfurman/CalmeRys-78B-Orpo-v0.1 名稱: Open LLM Leaderboard
- 任務: 類型: 文本生成名稱: 文本生成數據集: 名稱: BBH (3-Shot) 類型: BBH 參數: num_few_shot: 3 指標:
  - 類型: acc_norm 值: 61.92 名稱: 標準化準確率來源: url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=dfurman/CalmeRys-78B-Orpo-v0.1 名稱: Open LLM Leaderboard
- 任務: 類型: 文本生成名稱: 文本生成數據集: 名稱: MATH Lvl 5 (4-Shot) 類型: hendrycks/competition_math 參數: num_few_shot: 4 指標:
  - 類型: exact_match 值: 37.92 名稱: 精確匹配來源: url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=dfurman/CalmeRys-78B-Orpo-v0.1 名稱: Open LLM Leaderboard
- 任務: 類型: 文本生成名稱: 文本生成數據集: 名稱: GPQA (0-shot) 類型: Idavidrein/gpqa 參數: num_few_shot: 0 指標:
  - 類型: acc_norm 值: 20.02 名稱: acc_norm 來源: url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=dfurman/CalmeRys-78B-Orpo-v0.1 名稱: Open LLM Leaderboard
- 任務: 類型: 文本生成名稱: 文本生成數據集: 名稱: MuSR (0-shot) 類型: TAUR-Lab/MuSR 參數: num_few_shot: 0 指標:
  - 類型: acc_norm 值: 36.37 名稱: acc_norm 來源: url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=dfurman/CalmeRys-78B-Orpo-v0.1 名稱: Open LLM Leaderboard
- 任務: 類型: 文本生成名稱: 文本生成數據集: 名稱: MMLU-PRO (5-shot) 類型: TIGER-Lab/MMLU-Pro 配置: main 分割: test 參數: num_few_shot: 5 指標:
  - 類型: acc 值: 66.8 名稱: 準確率來源: url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=dfurman/CalmeRys-78B-Orpo-v0.1 名稱: Open LLM Leaderboard

dfurman/CalmeRys-78B-Orpo-v0.1

該模型是基於 MaziyarPanahi/calme-2.4-rys-78b 在 mlabonne/orpo-dpo-mix-40k 數據集的1.5k行上進行微調的。它被訓練為一個通用的語言模型，適用於多種文本生成場景，包括支持代理能力、角色扮演、推理、多輪對話、長上下文連貫性等。

截至2024年10月，這是 Open LLM Leaderboard 上排名最高的模型 🏆。

感謝 mlabonne、MaziyarPanahi 等人提供的數據集和基礎模型。

🦾 訓練

您可以在 W&B 上找到實驗記錄，鏈接在此。以下是一些可視化圖表：

image/png

💻 使用

設置

!pip install -qU transformers accelerate bitsandbytes
!huggingface-cli download dfurman/CalmeRys-78B-Orpo-v0.1

from transformers import AutoTokenizer, BitsAndBytesConfig
import transformers
import torch


if torch.cuda.get_device_capability()[0] >= 8:
    !pip install -qqq flash-attn
    attn_implementation = "flash_attention_2"
    torch_dtype = torch.bfloat16
else:
    attn_implementation = "eager"
    torch_dtype = torch.float16

# # 如果需要量化
# bnb_config = BitsAndBytesConfig(
#    load_in_4bit=True,
#    bnb_4bit_quant_type="nf4",
#    bnb_4bit_compute_dtype=torch_dtype,
#    bnb_4bit_use_double_quant=True,
# )

model = "dfurman/CalmeRys-78B-Orpo-v0.1"

tokenizer = AutoTokenizer.from_pretrained(model)
pipeline = transformers.pipeline(
    "text-generation",
    model=model,
    model_kwargs={
        "torch_dtype": torch_dtype,
        # "quantization_config": bnb_config,
        "device_map": "auto",
        "attn_implementation": attn_implementation,
    }
)

示例1

question = "數字9.11比9.9大嗎？"

messages = [
    {"role": "system", "content": "你是一個逐步思考的助手。"},
    {"role": "user", "content": question},
]
prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
# print("***提示:\n", prompt)

outputs = pipeline(
    prompt, max_new_tokens=1000, do_sample=True, temperature=0.7, top_k=50, top_p=0.95
)
print("***生成結果:")
print(outputs[0]["generated_text"][len(prompt) :])

***生成結果:
要比較這兩個數字，重要的是看它們小數點後的部分。比較十分位，9.11的十分位是'1'，而9.9的十分位是'9'。由於'9'大於'1'，所以9.9比9.11大。

示例2

question = """比佛利山莊麵包店的烘焙師週一早上烤了200條麵包。 
他們早上賣出了93條，下午賣出了39條。 
一家雜貨店隨後退回了6條未售出的麵包。 
麵包店還剩下多少條麵包？
儘可能簡潔地回答。將回答格式化為完成此表格：
|步驟|子問題|過程|結果|
|:---|:----------|:--------|:-----:|"""


messages = [
    {"role": "system", "content": "你是一個樂於助人的助手。"},
    {"role": "user", "content": question},
]
prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
# print("***提示:\n", prompt)

outputs = pipeline(prompt, max_new_tokens=1000, do_sample=True, temperature=0.7, top_k=50, top_p=0.95)
print("***生成結果:")
print(outputs[0]["generated_text"][len(prompt):])

***生成結果:
|1|計算總銷量|將早上和下午的銷量相加|132|
|2|從總數中減去銷量|200 - 132|68|
|3|調整退貨|將退回的麵包加到剩餘數量中|74|

示例3

question = "辣味瑪格麗塔的好配方是什麼？"

messages = [
    {"role": "system", "content": "你是一個樂於助人的助手。"},
    {"role": "user", "content": question},
]
prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
# print("***提示:\n", prompt)

outputs = pipeline(prompt, max_new_tokens=1000, do_sample=True, temperature=0.7, top_k=50, top_p=0.95)
print("***生成結果:")
print(outputs[0]["generated_text"][len(prompt):])

***生成結果:
製作辣味瑪格麗塔，你需要在經典瑪格麗塔配方中加入辣椒或胡椒元素。以下是一個簡單的方法：

### 材料：
- 2盎司龍舌蘭酒（白標或陳年）
- 1盎司新鮮青檸汁
- 1/2盎司三重橙酒（君度或柑曼怡）
- 1/2盎司龍舌蘭糖漿或簡單糖漿
- 1-2片墨西哥辣椒（根據個人口味調整）
- 鹽和/或辣椒粉用於杯口裝飾
- 冰塊
- 青檸片作為裝飾

### 步驟：
1. **搗碎辣椒**：在調酒器中輕輕搗碎辣椒片，釋放辣椒的油脂和辣味。
2. **加入其他材料**：加入龍舌蘭酒、青檸汁、三重橙酒和龍舌蘭糖漿或簡單糖漿。
3. **搖勻並過濾**：在調酒器中加入冰塊，用力搖晃至冷卻。過濾到杯口裝飾有鹽和/或辣椒粉的杯中，加冰。
4. **裝飾並享用**：用青檸片裝飾，即可享用。

如果你喜歡更溫和的辣味，可以考慮製作墨西哥辣椒浸泡的龍舌蘭酒：將辣椒片放入龍舌蘭酒瓶中浸泡幾小時至幾天，根據個人口味調整時間。然後使用這種浸泡過的龍舌蘭酒代替普通龍舌蘭酒。

另一種變體是使用辣味糖漿。製作方法：將等量的水和糖與幾片墨西哥辣椒放入鍋中煮沸，攪拌至糖溶解。小火煮約5分鐘。冷卻後過濾掉辣椒，密封冷藏備用。在配方中使用這種辣味糖漿代替普通糖漿。

根據個人口味調整辣椒用量或種類。請理性享用！