🚀 Granite-7b-base模型
Granite-7b-base是IBM發佈的一款基礎預訓練大語言模型,屬於Granite模型系列。它基於Meta的Llama-2-7B架構,在IBM精心策劃的數據上從頭開始預訓練,以開放參考實現的形式,遵循Apache-2.0許可供社區和商業使用。
✨ 主要特性
- 模型架構:復刻了Meta的Llama2 - 7B基礎變體架構,採用MHA(多頭注意力機制),在2T令牌上以100萬個批次大小進行訓練。
- 上下文長度:支持4k令牌的上下文長度。
- 分詞器:使用Llama2分詞器。
- 模型開發者:由IBM Research開發。
📦 安裝指南
文檔未提供安裝步驟,暫不展示。
📚 詳細文檔
預訓練數據
該模型在2T令牌上進行訓練,採樣比例設計為儘可能接近Llama1論文中公佈的採樣分佈。
數據集 |
描述 |
採樣比例 |
URL |
Common Crawl |
開放的網絡爬蟲數據倉庫,快照時間範圍從2021年到2023年。 |
77% |
https://data.commoncrawl.org/ |
Github_Clean |
來自CodeParrot的代碼數據,涵蓋多種編程語言。 |
5.50% |
https://huggingface.co/datasets/codeparrot/github-code-clean |
Wikipedia and Wikimedia |
八個維基媒體項目(英文維基百科、英文維基教科書、英文維基新聞等),包含從頁面和文章中提取的純文本。 |
2% |
https://dumps.wikimedia.org |
USPTO |
1975年至2023年5月授予的美國專利,不包括設計專利。 |
5% |
https://bulkdata.uspto.gov/ |
PubMed Central |
生物醫學和生命科學論文。 |
1.75% |
https://ftp.ncbi.nlm.nih.gov/pub/pmc/oa_package/ |
arXiv |
超過180萬篇發佈在arXiv上的科學論文預印本。 |
2.50% |
https://huggingface.co/datasets/togethercomputer/RedPajama-Data-1T |
StackExchange |
Stack Exchange網絡上所有用戶貢獻內容的匿名集合,這是一個圍繞用戶貢獻的問答網站集合。 |
1% |
https://archive.org/details/stackexchange_20221206 |
PG19 |
一個免費電子書倉庫,專注於美國版權已過期的舊作品。 |
0.25% |
https://github.com/google-deepmind/pg19 |
Webhose |
IBM購買的轉換為機器可讀數據饋送的非結構化網絡內容。 |
5% |
N/A |
評估結果
以下是LM - eval Harness的評估得分:
評估指標 |
Llama2 - 7B(基線) |
Granite - 7b - base |
MMLU(零樣本) |
0.41 |
0.43 |
MMLU(5 - 樣本加權平均) |
0.47 |
0.50 |
Arc挑戰 |
0.46 |
0.44 |
Arc簡單 |
0.74 |
0.71 |
Boolq |
0.78 |
0.76 |
Copa |
0.87 |
0.83 |
Hellaswag |
0.76 |
0.74 |
Openbookqa |
0.44 |
0.42 |
Piqa |
0.79 |
0.79 |
Sciq |
0.91 |
0.91 |
Winogrande |
0.69 |
0.67 |
Truthfulqa |
0.39 |
0.39 |
GSM8k(8 - 樣本) |
0.13 |
0.11 |
偏差、風險和侷限性
Granite - 7b - base是一個基礎模型,未進行任何安全對齊,因此可能會產生有問題的輸出。在缺乏足夠的保障措施和基於人類反饋的強化學習(RLHF)的情況下,存在惡意利用這些模型生成虛假信息或有害內容的風險。
⚠️ 重要提示
由於防止這些模型編造內容並非易事,因此強烈建議不要完全依賴特定的語言模型來做出關鍵決策或獲取有影響力的信息。此外,較小的模型是否會因規模和記憶能力的降低,在無根據的生成場景中更容易產生幻覺,目前尚不確定。這是一個活躍的研究領域,我們期待在該領域進行更深入的探索、理解和緩解措施。
訓練相關信息
如需瞭解有關訓練此模型的更多信息,請查看博客:https://pytorch.org/blog/maximizing-training/
📄 許可證
本模型採用Apache - 2.0許可證。