🚀 Metharme 1.3B
Metharme 1.3B 是一個經過指令微調的模型,基於 Pythia 架構,在虛構寫作和對話場景中表現出色,為用戶提供了更加生動和富有創意的交互體驗。
🚀 快速開始
Metharme 1.3B 是一個基於 EleutherAI 的 Pythia 1.4B Deduped 的指令模型。這是一次嘗試,旨在獲得一個可用於對話、角色扮演和故事寫作的模型,並且可以像其他指令模型一樣使用自然語言進行引導。有關示例,請參閱下面的提示方式部分。
✨ 主要特性
該模型通過在常規指令數據、角色扮演、虛構故事和帶有合成生成指令的對話的混合數據上進行監督微調來進行訓練。
📚 詳細文檔
提示方式
當前模型版本已針對使用三種不同角色的提示進行了訓練,這些角色由以下標記表示:<|system|>
、<|user|>
和 <|model|>
。
<|system|>
提示可用於在幕後注入非渠道信息,而 <|user|>
提示應用於指示用戶輸入。然後,應使用 <|model|>
標記來指示模型應生成響應。這些標記可以多次出現並鏈接起來形成對話歷史。
提示示例
以下是一個具體示例。假設您有以下系統提示:
這是一個文本冒險遊戲。向用戶描述場景,並在每一輪為他提供三個選項供其選擇。
並且用戶輸入了以下消息:
開始!
要對模型進行推理,提示應按如下格式設置:
<|system|>這是一個文本冒險遊戲。向用戶描述場景,並在每一輪為他提供三個選項供其選擇。<|user|>開始!<|model|>
模型可能會生成如下內容:
你站在一座古老廢棄的房子前。窗戶都用木板封住了,周圍沒有生命的跡象。當你走近時,你注意到裡面散發出一種奇怪的感覺。突然,你聽到一個聲音在呼喚你……“進來吧!”
當模型判斷響應完成時,它將自動發出文本結束標記 (<|endoftext|>
)。
假設用戶回覆了 進入房子
。下一個提示應如下所示:
<|system|>這是一個文本冒險遊戲。向用戶描述場景,並在每一輪為他提供三個選項供其選擇。<|user|>開始!<|model|>你站在一座古老廢棄的房子前。窗戶都用木板封住了,周圍沒有生命的跡象。當你走近時,你注意到裡面散發出一種奇怪的感覺。突然,你聽到一個聲音在呼喚你……“進來吧!”
- 進入房子。
- 忽略呼喚,離開。
- 儘快跑開。<|user|>進入房子<|model|>
這可能會生成如下內容:
你進入房子,立刻,一股不安的能量席捲而來。你的感官似乎變得敏銳,但你的頭腦卻感到模糊。一個身影出現在你面前——一個目光銳利的高個子男人。他用你聽不懂的語言跟你說話。
同樣的過程適用。通常,最好在用戶和模型的回合上進行滑動窗口操作,但要將系統提示固定在上下文窗口的開頭。
評估指標
該模型使用 EleutherAI 的 lm-evaluation-harness 測試套件進行評估。它在以下任務上進行了評估:
屬性 |
詳情 |
模型類型 |
基於 Pythia 1.4B Deduped 的指令模型 |
訓練數據 |
常規指令數據、角色扮演、虛構故事和帶有合成生成指令的對話的混合數據 |
任務 |
版本 |
指標 |
值 |
|
標準誤差 |
anli_r1 |
0 |
acc |
0.3430 |
± |
0.0150 |
anli_r2 |
0 |
acc |
0.3330 |
± |
0.0149 |
anli_r3 |
0 |
acc |
0.3350 |
± |
0.0136 |
arc_challenge |
0 |
acc |
0.2747 |
± |
0.0130 |
|
|
acc_norm |
0.3114 |
± |
0.0135 |
arc_easy |
0 |
acc |
0.6237 |
± |
0.0099 |
|
|
acc_norm |
0.5631 |
± |
0.0102 |
boolq |
1 |
acc |
0.6214 |
± |
0.0085 |
cb |
1 |
acc |
0.1964 |
± |
0.0536 |
|
|
f1 |
0.1712 |
|
|
hellaswag |
0 |
acc |
0.4295 |
± |
0.0049 |
|
|
acc_norm |
0.5496 |
± |
0.0050 |
openbookqa |
0 |
acc |
0.2360 |
± |
0.0190 |
|
|
acc_norm |
0.3360 |
± |
0.0211 |
piqa |
0 |
acc |
0.7285 |
± |
0.0104 |
|
|
acc_norm |
0.7318 |
± |
0.0103 |
rte |
0 |
acc |
0.5235 |
± |
0.0301 |
truthfulqa_mc |
1 |
mc1 |
0.2436 |
± |
0.0150 |
|
|
mc2 |
0.3791 |
± |
0.0142 |
wic |
0 |
acc |
0.5000 |
± |
0.0198 |
winogrande |
0 |
acc |
0.5675 |
± |
0.0139 |
wsc |
0 |
acc |
0.3654 |
± |
0.0474 |
Metharme-1.3B 與 Pygmalion-6B、Metharme-7B 和 RedPajama-INCITE-Chat-3B-v1 在基準測試中的性能對比圖示:

侷限性和偏差
由於該模型比 Metharme 7B 和 13B 小,其連貫性很可能會受到影響。
此模型的預期用例是用於娛樂目的的虛構寫作。任何其他類型的使用均不在範圍內。
因此,該模型未針對安全性和無害性進行微調:基礎模型和此微調版本均在已知包含褻瀆性和淫穢或其他冒犯性文本的數據上進行了訓練。即使提示本身不包含任何明確的冒犯性內容,它也可能產生社會不可接受或不良的文本。輸出往往可能在事實方面是錯誤的或具有誤導性。
📄 許可證
本項目採用 Apache-2.0 許可證。