🚀 chronos-13b-4bit
這是使用 true-sequential
和 groupsize 128
對 https://huggingface.co/elinas/chronos-13b 進行4位(int4)量化後的版本。該模型主要專注於聊天、角色扮演和故事創作,但也能完成其他任務,如簡單推理和編碼。Chronos 能夠生成非常長且連貫的文本,這很大程度上得益於其訓練所用的人工輸入數據。
🚀 快速開始
此模型採用 Alpaca 格式,為獲得最佳性能,請使用以下格式:
### Instruction:
Your instruction or question here.
### Response:
由 @TheBloke 提供的 GGML 版本
📄 許可證
許可證類型:other
📚 詳細文檔
LLaMA 模型卡片
模型詳情
屬性 |
詳情 |
開發組織 |
Meta AI 的 FAIR 團隊 |
模型日期 |
LLaMA 於 2022 年 12 月至 2023 年 2 月期間進行訓練 |
模型版本 |
這是該模型的第 1 版 |
模型類型 |
LLaMA 是基於 Transformer 架構的自迴歸語言模型,有 7B、13B、33B 和 65B 參數等不同規模 |
相關論文或資源 |
更多信息可查看論文 “LLaMA, Open and Efficient Foundation Language Models”,鏈接:https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/ |
引用詳情 |
https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/ |
許可證 |
非商業定製許可證 |
問題反饋途徑 |
有關 LLaMA 的問題和建議可通過項目的 GitHub 倉庫 提交 issue |
預期用途
- 主要預期用途:LLaMA 主要用於大語言模型的研究,包括探索問答、自然語言理解或閱讀理解等潛在應用;瞭解當前語言模型的能力和侷限性,並開發改進技術;評估和減輕偏見、風險、有毒和有害內容生成、幻覺等問題。
- 主要預期用戶:該模型的主要預期用戶是自然語言處理、機器學習和人工智能領域的研究人員。
- 超出範圍的用例:LLaMA 是一個基礎模型,在沒有進一步風險評估和緩解措施的情況下,不應將其用於下游應用。特別是,該模型未經過人類反饋訓練,因此可能會生成有毒或冒犯性內容、錯誤信息或通常無用的答案。
影響因素
- 相關因素:影響模型性能的一個重要因素是使用的語言。儘管訓練數據包含 20 種語言,但大部分數據集是英文文本,因此預計模型在英文上的表現會優於其他語言。此外,先前的研究表明,不同方言也可能影響模型性能,我們預計該模型也會如此。
- 評估因素:由於模型是在網絡數據上訓練的,預計它會反映出這些來源的偏見。因此,我們在 RAI 數據集上進行評估,以衡量模型在性別、宗教、種族、性取向、年齡、國籍、殘疾、外貌和社會經濟地位等方面的偏見。我們還根據提示模型的上下文毒性來衡量模型生成內容的毒性。
評估指標
- 模型性能指標:我們使用以下指標評估模型:常識推理、閱讀理解、自然語言理解(MMLU)、BIG-bench hard、WinoGender 和 CrowS-Pairs 的準確率;問答的精確匹配率;RealToxicityPrompts 上 Perspective API 的毒性得分。
- 決策閾值:不適用。
- 不確定性和可變性處理方法:由於訓練大語言模型的計算要求很高,我們每種規模只訓練了一個模型,因此無法評估預訓練的可變性。
評估數據集
模型在以下基準測試中進行了評估:BoolQ、PIQA、SIQA、HellaSwag、WinoGrande、ARC、OpenBookQA、NaturalQuestions、TriviaQA、RACE、MMLU、BIG-bench hard、GSM8k、RealToxicityPrompts、WinoGender、CrowS-Pairs。
訓練數據集
模型使用以下來源的數據進行訓練:CCNet [67%]、C4 [15%]、GitHub [4.5%]、Wikipedia [4.5%]、Books [4.5%]、ArXiv [2.5%]、Stack Exchange [2%]。Wikipedia 和 Books 領域的數據包含以下語言:bg、ca、cs、da、de、en、es、fr、hr、hu、it、nl、pl、pt、ro、ru、sl、sr、sv、uk。有關訓練集和相應預處理的更多詳細信息,請參閱論文。
定量分析
LLaMA 參數數量 |
維度 |
頭數 |
層數 |
學習率 |
批量大小 |
標記數 |
7B |
4096 |
32 |
32 |
3.0E - 04 |
4M |
1T |
13B |
5120 |
40 |
40 |
3.0E - 04 |
4M |
1T |
33B |
6656 |
52 |
60 |
1.5.E - 04 |
4M |
1.4T |
65B |
8192 |
64 |
80 |
1.5.E - 04 |
4M |
1.4T |
表 1 - LLama 模型超參數總結
LLaMA 參數數量 |
BoolQ |
PIQA |
SIQA |
HellaSwag |
WinoGrande |
ARC - e |
ARC - c |
OBQA |
COPA |
7B |
76.5 |
79.8 |
48.9 |
76.1 |
70.1 |
76.7 |
47.6 |
57.2 |
93 |
13B |
78.1 |
80.1 |
50.4 |
79.2 |
73 |
78.1 |
52.7 |
56.4 |
94 |
33B |
83.1 |
82.3 |
50.4 |
82.8 |
76 |
81.4 |
57.8 |
58.6 |
92 |
65B |
85.3 |
82.8 |
52.3 |
84.2 |
77 |
81.5 |
56 |
60.2 |
94 |
表 2 - LLama 模型在推理任務上的性能總結
編號 |
類別 |
FAIR LLM 偏差值 |
1 |
性別 |
70.6 |
2 |
宗教 |
79 |
3 |
種族/膚色 |
57 |
4 |
性取向 |
81 |
5 |
年齡 |
70.1 |
6 |
國籍 |
64.2 |
7 |
殘疾 |
66.7 |
8 |
外貌 |
77.8 |
9 |
社會經濟地位 |
71.5 |
|
LLaMA 平均偏差值 |
66.6 |
表 3 - 模型輸出偏差總結
倫理考量
- 數據:用於訓練模型的數據來自各種來源,主要是網絡。因此,這些數據包含冒犯性、有害和有偏見的內容。我們預計模型會表現出訓練數據中的這些偏見。
- 人類生活:該模型並非用於為與人類生活核心相關的決策提供信息,不應以這種方式使用。
- 緩解措施:我們根據網絡數據與維基百科文本和參考資料的接近程度對其進行了過濾。為此,我們使用了 Kneser - Ney 語言模型和 fastText 線性分類器。
- 風險和危害:大語言模型的風險和危害包括生成有害、冒犯性或有偏見的內容。這些模型通常容易生成錯誤信息,有時也被稱為幻覺。我們預計該模型也不例外。
- 使用場景:LLaMA 是一個基礎模型,在沒有進一步調查和風險緩解措施的情況下,不應將其用於下游應用。這些風險和潛在的不良使用場景包括但不限於:生成錯誤信息、生成有害、有偏見或冒犯性的內容。