granite-7b-base開源大語言模型 - 免費部署，助力多場景智能對話應用

首頁

Granite 7b Base

由ibm-granite開發

IBM發佈的基於Apache-2.0許可證的開源大語言模型，復現了Meta的Llama2-7B架構，使用2T token數據訓練而成。

大型語言模型

Transformers

開源協議:Apache-2.0 #Llama2復現優化 #英語預訓練大模型 #科研論文分析

下載量 3,653

發布時間 : 4/19/2024

模型概述

Granite-7b-base是IBM研究院開發的基礎預訓練大模型，作為Llama2-7B的開源參考實現，主要用於文本生成和理解任務。

模型特點

開源商業友好

採用Apache-2.0許可證，允許商業使用和修改

數據透明

公開了訓練數據源和採樣比例，促進研究透明度

大規模訓練

基於2T token數據和100萬批次規模訓練

模型能力

英語文本生成

文本理解

代碼生成（有限）

問答系統

使用案例

研究開發

語言模型基準測試

作為Llama2架構的開源實現參考

在MMLU等基準測試中接近原版性能

商業應用

內容生成輔助

用於生成初版文本內容

🚀 Granite-7b-base模型

Granite-7b-base是IBM發佈的一款基礎預訓練大語言模型，屬於Granite模型系列。它基於Meta的Llama-2-7B架構，在IBM精心策劃的數據上從頭開始預訓練，以開放參考實現的形式，遵循Apache-2.0許可供社區和商業使用。

✨ 主要特性

模型架構：復刻了Meta的Llama2 - 7B基礎變體架構，採用MHA（多頭注意力機制），在2T令牌上以100萬個批次大小進行訓練。
上下文長度：支持4k令牌的上下文長度。
分詞器：使用Llama2分詞器。
模型開發者：由IBM Research開發。

📦 安裝指南

文檔未提供安裝步驟，暫不展示。

📚 詳細文檔

預訓練數據

該模型在2T令牌上進行訓練，採樣比例設計為儘可能接近Llama1論文中公佈的採樣分佈。

數據集	描述	採樣比例	URL
Common Crawl	開放的網絡爬蟲數據倉庫，快照時間範圍從2021年到2023年。	77%	https://data.commoncrawl.org/
Github_Clean	來自CodeParrot的代碼數據，涵蓋多種編程語言。	5.50%	https://huggingface.co/datasets/codeparrot/github-code-clean
Wikipedia and Wikimedia	八個維基媒體項目（英文維基百科、英文維基教科書、英文維基新聞等），包含從頁面和文章中提取的純文本。	2%	https://dumps.wikimedia.org
USPTO	1975年至2023年5月授予的美國專利，不包括設計專利。	5%	https://bulkdata.uspto.gov/
PubMed Central	生物醫學和生命科學論文。	1.75%	https://ftp.ncbi.nlm.nih.gov/pub/pmc/oa_package/
arXiv	超過180萬篇發佈在arXiv上的科學論文預印本。	2.50%	https://huggingface.co/datasets/togethercomputer/RedPajama-Data-1T
StackExchange	Stack Exchange網絡上所有用戶貢獻內容的匿名集合，這是一個圍繞用戶貢獻的問答網站集合。	1%	https://archive.org/details/stackexchange_20221206
PG19	一個免費電子書倉庫，專注於美國版權已過期的舊作品。	0.25%	https://github.com/google-deepmind/pg19
Webhose	IBM購買的轉換為機器可讀數據饋送的非結構化網絡內容。	5%	N/A

評估結果

以下是LM - eval Harness的評估得分：

評估指標	Llama2 - 7B（基線）	Granite - 7b - base
MMLU（零樣本）	0.41	0.43
MMLU（5 - 樣本加權平均）	0.47	0.50
Arc挑戰	0.46	0.44
Arc簡單	0.74	0.71
Boolq	0.78	0.76
Copa	0.87	0.83
Hellaswag	0.76	0.74
Openbookqa	0.44	0.42
Piqa	0.79	0.79
Sciq	0.91	0.91
Winogrande	0.69	0.67
Truthfulqa	0.39	0.39
GSM8k（8 - 樣本）	0.13	0.11

偏差、風險和侷限性

Granite - 7b - base是一個基礎模型，未進行任何安全對齊，因此可能會產生有問題的輸出。在缺乏足夠的保障措施和基於人類反饋的強化學習（RLHF）的情況下，存在惡意利用這些模型生成虛假信息或有害內容的風險。

⚠️ 重要提示

由於防止這些模型編造內容並非易事，因此強烈建議不要完全依賴特定的語言模型來做出關鍵決策或獲取有影響力的信息。此外，較小的模型是否會因規模和記憶能力的降低，在無根據的生成場景中更容易產生幻覺，目前尚不確定。這是一個活躍的研究領域，我們期待在該領域進行更深入的探索、理解和緩解措施。