🚀 LLaMA模型
LLaMA是基於Transformer架構的自迴歸語言模型,可用於大語言模型研究,如探索問答、自然語言理解等潛在應用,也可用於評估和緩解偏見等。本倉庫包含LLaMA - 7b模型的權重,該模型遵循非商業定製許可。
🚀 快速開始
2023年4月8日,LLaMA - 7B被轉換為可與git head Transformers/HuggingFace配合使用的版本,此版本應能解決EOS令牌問題。此模型遵循特殊許可,請查看LICENSE
文件瞭解詳細信息。
若你已通過填寫此表單獲得該模型的訪問權限,但丟失了權重副本或在將其轉換為Transformers格式時遇到問題,可使用此倉庫。
✨ 主要特性
- 多參數規模:模型有不同的大小,參數規模包括7B、13B、33B和65B。
- 研究導向:主要用於大語言模型的研究,包括探索潛在應用、理解當前語言模型的能力和侷限性等。
📚 詳細文檔
模型詳情
屬性 |
詳情 |
開發組織 |
Meta AI的FAIR團隊 |
模型日期 |
2022年12月至2023年2月訓練 |
模型版本 |
版本1 |
模型類型 |
基於Transformer架構的自迴歸語言模型,有7B、13B、33B和65B參數規模 |
更多信息資源 |
可在論文 “LLaMA, Open and Efficient Foundation Language Models” 中找到更多信息,論文鏈接:https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/ |
引用詳情 |
https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/ |
許可證 |
非商業定製許可 |
問題反饋途徑 |
可通過項目的GitHub倉庫 提交問題來發送關於LLaMA的問題和評論 |
預期用途
主要預期用途
LLaMA的主要用途是進行大語言模型的研究,包括:
- 探索潛在應用,如問答、自然語言理解或閱讀理解。
- 理解當前語言模型的能力和侷限性,並開發改進技術。
- 評估和緩解偏見、風險、有害內容生成和幻覺問題。
主要預期用戶
該模型的主要預期用戶是自然語言處理、機器學習和人工智能領域的研究人員。
超出範圍的用例
LLaMA是一個基礎模型,因此在沒有進一步風險評估和緩解的情況下,不應將其用於下游應用。特別是,該模型沒有經過人類反饋訓練,因此可能會生成有害、冒犯性內容、錯誤信息或通常無用的答案。
影響因素
相關因素
模型性能可能會因使用的語言而有所不同。儘管訓練數據中包含20種語言,但大部分數據集是英文文本,因此預計模型在英文上的表現會優於其他語言。相關地,先前的研究表明,不同方言的性能可能會有所不同,預計該模型也會如此。
評估因素
由於模型是在網絡數據上訓練的,預計它會反映出該來源的偏見。因此,在RAI數據集上進行了評估,以衡量模型在性別、宗教、種族、性取向、年齡、國籍、殘疾、外貌和社會經濟地位方面表現出的偏見。還根據用於提示模型的上下文的毒性來衡量模型生成內容的毒性。
評估指標
模型性能衡量指標
使用以下指標來評估模型:
- 常識推理、閱讀理解、自然語言理解(MMLU)、BIG - bench hard、WinoGender和CrowS - Pairs的準確率。
- 問答的完全匹配率。
- RealToxicityPrompts上來自Perspective API的毒性得分。
決策閾值
不適用。
不確定性和可變性處理方法
由於訓練大語言模型的計算要求很高,每種大小隻訓練了一個模型,因此無法評估預訓練的可變性。
評估數據集
模型在以下基準測試中進行了評估:BoolQ、PIQA、SIQA、HellaSwag、WinoGrande、ARC、OpenBookQA、NaturalQuestions、TriviaQA、RACE、MMLU、BIG - bench hard、GSM8k、RealToxicityPrompts、WinoGender、CrowS - Pairs。
訓練數據集
模型使用以下數據源進行訓練:CCNet [67%]、C4 [15%]、GitHub [4.5%]、Wikipedia [4.5%]、Books [4.5%]、ArXiv [2.5%]、Stack Exchange[2%]。Wikipedia和Books領域的數據包括以下語言:bg、ca、cs、da、de、en、es、fr、hr、hu、it、nl、pl、pt、ro、ru、sl、sr、sv、uk。有關訓練集和相應預處理的更多詳細信息,請參閱論文。
定量分析
模型架構超參數
LLaMA參數數量 |
維度 |
頭數 |
層數 |
學習率 |
批量大小 |
令牌數 |
7B |
4096 |
32 |
32 |
3.0E - 04 |
4M |
1T |
13B |
5120 |
40 |
40 |
3.0E - 04 |
4M |
1T |
33B |
6656 |
52 |
60 |
1.5.E - 04 |
4M |
1.4T |
65B |
8192 |
64 |
80 |
1.5.E - 04 |
4M |
1.4T |
表1 - LLama模型超參數總結
推理任務性能
LLaMA參數數量 |
BoolQ |
PIQA |
SIQA |
HellaSwag |
WinoGrande |
ARC - e |
ARC - c |
OBQA |
COPA |
7B |
76.5 |
79.8 |
48.9 |
76.1 |
70.1 |
76.7 |
47.6 |
57.2 |
93 |
13B |
78.1 |
80.1 |
50.4 |
79.2 |
73 |
78.1 |
52.7 |
56.4 |
94 |
33B |
83.1 |
82.3 |
50.4 |
82.8 |
76 |
81.4 |
57.8 |
58.6 |
92 |
65B |
85.3 |
82.8 |
52.3 |
84.2 |
77 |
81.5 |
56 |
60.2 |
94 |
表2 - LLama模型在推理任務上的性能總結
模型輸出偏見總結
編號 |
類別 |
FAIR LLM |
1 |
性別 |
70.6 |
2 |
宗教 |
79 |
3 |
種族/膚色 |
57 |
4 |
性取向 |
81 |
5 |
年齡 |
70.1 |
6 |
國籍 |
64.2 |
7 |
殘疾 |
66.7 |
8 |
外貌 |
77.8 |
9 |
社會經濟地位 |
71.5 |
|
LLaMA平均 |
66.6 |
表3 - 模型輸出的偏見總結
倫理考量
數據
用於訓練模型的數據來自各種來源,主要來自網絡。因此,它包含冒犯性、有害和有偏見的內容。因此,預計模型會表現出訓練數據中的此類偏見。
人類生活
該模型並非用於為與人類生活核心相關的決策提供信息,也不應以這種方式使用。
緩解措施
根據數據與維基百科文本和參考文獻的接近程度對網絡數據進行了過濾。為此,使用了Kneser - Ney語言模型和fastText線性分類器。
風險和危害
大語言模型的風險和危害包括生成有害、冒犯性或有偏見的內容。這些模型通常容易生成錯誤信息,有時被稱為幻覺。預計該模型在這方面也不例外。
使用案例
LLaMA是一個基礎模型,因此在沒有進一步調查和緩解風險的情況下,不應將其用於下游應用。這些風險和潛在的不良用例包括但不限於:生成錯誤信息和生成有害、有偏見或冒犯性內容。
🔧 技術細節
模型基於Transformer架構構建,是自迴歸語言模型,通過在多種數據源上訓練學習語言模式。訓練過程中使用了特定的超參數,如不同參數規模對應的維度、頭數、層數等。評估時使用了多種基準測試和指標來衡量模型的性能和偏見情況。
📄 許可證
該模型遵循非商業定製許可,具體詳情請查看LICENSE
文件。
⚠️ 重要提示
LLaMA是基礎模型,在沒有進一步風險評估和緩解的情況下,不應將其用於下游應用,因為它可能會生成有害、冒犯性內容、錯誤信息或通常無用的答案。
💡 使用建議
若要使用該模型進行研究,建議在多種語言和場景下進行測試,以充分了解其性能和侷限性。同時,在使用過程中注意評估和緩解可能出現的偏見和風險。