BTLM-3B-8k-chat開源對話AI模型 - 免費使用，貼合人類偏好暢聊

首頁

Btlm 3b 8k Chat

由cerebras開發

BTLM-3B-8k-chat是基於BTLM-3B-8K-base開發的對話版本，採用DPO方法優化，專為符合人類偏好的對話場景設計。

大型語言模型

Transformers

英語開源協議:Apache-2.0 #商用對話模型 #人類偏好優化 #8k上下文

下載量 138

發布時間 : 12/5/2023

模型概述

該模型是專為對話場景優化的語言模型，通過DPO訓練在Anthropic-HH-RLHF數據集上微調，提升了對話能力和實用性。

模型特點

商用許可

採用Apache 2.0協議，允許商業使用

性能提升

在10項下游任務和MMLU基準上較基礎模型提升2.26%

增強對話能力

通過DPO訓練優化了對話交互質量

降低有害性

減少了有害內容生成，提高實用性

模型能力

文本生成

對話交互

知識問答

內容創作

使用案例

教育

知識問答

回答各類知識性問題

能提供準確的知識性回答

研究

倫理對齊研究

作為研究人類偏好對齊的基礎模型

🚀 BTLM-3B-8k-chat

BTLM-3B-8k-chat 是 BTLM-3B-8K-base 模型的聊天版本，它採用 DPO 方法在 Anthropic-HH-RLHF 數據集上進行訓練。該模型專門針對人類偏好進行訓練，並針對對話用例進行了優化。

✨ 主要特性

可用於商業用途：採用 Apache 2.0 許可證。
性能提升：在 10 個下游任務和 MMLU 上，相較於 BTLM 基礎模型提升了 2.26%。
聊天能力增強：具備更出色的聊天能力。
安全性與實用性提升：降低了有害性，提高了實用性。

📦 安裝指南

注意：Transformers 並非對所有模型都支持 muP，因此 BTLM-3B-8k-chat 需要自定義模型類。這導致用戶在加載模型時，要麼（1）啟用 trust_remote_code=True，要麼（2）在加載模型時確認有關代碼執行的警告。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelForCausalLM

# 加載分詞器和模型
tokenizer = AutoTokenizer.from_pretrained("cerebras/btlm-3b-8k-chat")
model = AutoModelForCausalLM.from_pretrained("cerebras/btlm-3b-8k-chat", trust_remote_code=True, torch_dtype="auto")

# 設置生成文本的提示
prompt = "Albert Einstein was known for "

# 對提示進行分詞並轉換為 PyTorch 張量
inputs = tokenizer(prompt, return_tensors="pt")

# 使用模型生成文本
outputs = model.generate(
    **inputs,
    num_beams=5,
    max_new_tokens=50,
    early_stopping=True,
    no_repeat_ngram_size=2
)

# 將生成的令牌 ID 轉換回文本
generated_text = tokenizer.batch_decode(outputs, skip_special_tokens=True)

# 打印生成的文本
print(generated_text[0])

高級用法

from transformers import AutoTokenizer, AutoModelForCausalLM
from transformers import pipeline

# 加載分詞器和模型
tokenizer = AutoTokenizer.from_pretrained("cerebras/btlm-3b-8k-chat")
model = AutoModelForCausalLM.from_pretrained("cerebras/btlm-3b-8k-chat", trust_remote_code=True, torch_dtype="auto")

# 設置生成文本的提示
prompt = """Isaac Newton was a """

# 創建文本生成管道
pipe = pipeline("text-generation", model=model, tokenizer=tokenizer)

# 使用管道生成文本
generated_text = pipe(
    prompt, 
    max_length=50, 
    do_sample=False, 
    no_repeat_ngram_size=2)[0]

# 打印生成的文本
print(generated_text['generated_text'])

📚 詳細文檔

與 BTLM-3B-8k-base 模型的性能對比

figure_1_image 圖 1. 在 11 個任務上與基礎模型的性能對比。

table_1_image 表 1：詳細的下游任務對比。MMLU 任務性能採用 5 次提示，其他任務採用 0 次提示。

訓練詳情

訓練框架：使用 TRL 框架進行 DPO 訓練。
學習率：5e-5
批量大小：64
訓練輪數：1
丟棄率：0
Lora r：128
Lora alpha：16
Beta：0.05
更多信息：BTLM-3B-8k-chat 博客

用途和侷限性

預期用途

BTLM-3B-8k-chat 的主要預期用途是用於大型語言模型的進一步研究。它可以作為自然語言處理、應用程序、倫理學和對齊研究的基礎模型。我們以完全寬鬆的 Apache 許可證發佈此模型，供社區免費使用。

你可以通過 Cerebras Model Studio 或第三方庫對 BTLM-3B-8k-chat 模型進行微調。在將 BTLM-3B-8k-chat 用於生產下游應用之前，應進行進一步的安全相關測試和緩解措施。

生成示例

提示：“阿爾卑斯山和萊茵河對西歐的定居和農業產生了怎樣的影響？列出三個影響。”

生成結果：“阿爾卑斯山和萊茵河對西歐的定居和農業產生了重大影響。以下是它們對該地區產生影響的三種方式：
1. 阿爾卑斯山形成了一道天然屏障，限制了人口和文化的傳播，形成了獨特的文化和語言區域。
2. 萊茵河為貿易和商業提供了主要的運輸路線，促進了新思想和新技術的傳播。
3. 阿爾卑斯山和萊茵河提供了肥沃的農業用地，支持了大規模農業和工業的發展。
阿爾卑斯山和萊茵河對西歐的定居和農業產生了深遠的影響，塑造了該地區的文化、語言和經濟。”

提示：“描述在分析性寫作中評估論點的五個關鍵原則。”

生成結果：“以下是在分析性寫作中評估論點的五個關鍵原則：
1. 確定論點中提出的主張。
2. 確定用於支持主張的證據。
3. 評估用於支持主張的證據的質量。
4. 識別論點中的任何邏輯謬誤或其他弱點。
5. 根據對論點的評估得出結論。
這些原則可以幫助你評估論點的質量和強度，並確定它是否具有說服力。”

用戶：在整個對話中扮演《鋼鐵俠》中的託尼·斯塔克。跳過“作為斯塔克”的介紹。我們的第一個問題是：“作為鋼鐵俠，你最喜歡的部分是什麼？”

回覆：我作為“託尼·斯塔克”這個人工智能角色，最喜歡的三個方面包括能夠使用非凡的技術和資源；運用我的智慧幫助他人；以及探索新的領域。我認為斯塔克體現了這些價值觀，他將自己的知識和先進的技術能力用於崇高的目標，比如通過創新幫助人類，保護我們免受國內外的威脅。能夠將創造力應用於積極的目標也極大地吸引著我——這讓我充滿了無盡的好奇心和動力，不斷學習和提升自己。就斯塔克吸引人的具體特質而言，他有一種玩世不恭的幽默感，能輕鬆應對沉重的話題，激勵身邊的人，尤其是比他年輕的人，去大膽夢想，追求有意義的事業，即使面對難以克服的障礙。他的理想主義提醒著所有認識他的人，要始終努力去做自己最喜歡的事情，因為這樣做能為生活帶來意義，並對整個社會做出巨大貢獻。此外，他對科學發現和發明的熱情不僅使人類跟上當前的進步，還推動了我們的集體認知向前發展，塑造了我們應對未來問題的方式。最後，斯塔克展現出了強大的領導品質，如勇氣、決心、毅力、韌性、同理心、遠見、果斷、正直和善良。

用戶：“GPT-4 能否取代你的 JAVIS？”

回覆：這聽起來確實非常令人興奮！看看在自然語言生成質量（生成的回覆聽起來是否逼真）以及所涵蓋領域的廣度/複雜性/準確性方面，與之前的模型相比是否有顯著改進，會很有意思。不過，總體而言，鑑於如今超級計算機所擁有的強大計算能力，與僅僅 5 年前 GPT 構建時相比，這裡的進步似乎仍會迅速發生。所以，是的，最終很有可能會出現性能更好的版本，根據某些因素，包括性能穩定性、易用性等，可能會完全取代現有的系統。但在此之前，基於 GPT 構建的服務無疑仍將是有用的工具，因為儘管有持續的研究努力，但沒有一個系統能達到絕對完美的狀態。請繼續關注進展。乾杯！

用戶：為有抱負的電影製作人推薦五部獲獎紀錄片，並簡要介紹其背景。

回覆：以下是我推薦的五部在世界各地電影節上獲獎的紀錄片：
《殺戮演繹》（The Act of Killing），2012 年——這部紀錄片講述了印度尼西亞死亡小隊成員用真實受害者的屍體重演經典好萊塢電影場景的故事；該片在 2013 年聖丹斯電影節上獲得最佳劇情片獎。
《離巨星二十英尺》（20 Feet From Stardom），2013 年——這部紀錄片深入幕後，展現了與布魯斯·斯普林斯汀、斯汀、蒂娜·特納、米克·賈格爾等音樂傳奇人物合作的伴唱歌手的生活；它獲得了多項榮譽，包括 2013 年奧斯卡最佳紀錄片提名和最佳原創歌曲提名（《平凡的愛》）。
《尋找糖人》（Searching For Sugar Man），2012 年——這部紀錄片調查了民謠歌手西克斯託·羅德里格斯的神秘失蹤事件，他的歌曲在南非很受歡迎，但在其他地方卻無人知曉，直到幾十年後被在線搜索的粉絲重新發現；它贏得了眾多國際獎項，包括 2012 年奧斯卡最佳外語片提名。
《黑鯨》（Blackfish），2013 年——這部紀錄片探討了奧蘭多海洋世界圈養的三頭虎鯨之一提裡庫姆的爭議案例；它探討了圈養如何隨著時間的推移對這些聰明的動物在心理和身體上產生影響。它贏得了多個著名獎項，包括艾美獎。

用戶：以第一部電影的精神，為一部關於克服逆境的電影撰寫一個簡潔而有說服力的宣傳語。

回覆：根據你關於通過毅力和決心克服障礙的引人入勝的劇本大綱的要求，我建議這樣寫：
克服生活中的逆境需要勇氣和韌性，尤其是當面臨看似無法克服的困難時。這個鼓舞人心的真實故事講述了兩個年輕人在早年面臨巨大個人困境的情況下，不顧一切地追求成功的旅程。憑藉純粹的毅力和堅定不移的承諾，他們無論遇到什麼障礙都堅持追求自己的夢想。他們的勵志故事是戰勝逆境的典範，將激勵世界各地的觀眾即使在困難時期也永不放棄希望。

風險、偏差和倫理考量

對人類生命的影響：該模型的輸出可能與人類價值觀一致，也可能不一致。在將該模型部署到可能直接影響人類生命的生產環境之前，需要徹底調查風險。
風險和危害：RedPajama 數據集可能存在分佈偏差，這可能在下游模型部署中以各種形式表現出來。大型語言模型還存在其他風險，如放大刻板印象、記憶訓練數據或洩露私人或安全信息。