模型概述
模型特點
模型能力
使用案例
🚀 NB-GPT-J-6B
NB-GPT-J-6B 是 GPT-J 6B 的挪威語微調版本,可用於挪威語文本生成任務,為挪威語相關的下游任務提供有力支持。
🚀 快速開始
此模型可使用 AutoModelForCausalLM
功能輕鬆加載:
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("NbAiLab/nb-gpt-j-6B")
model = AutoModelForCausalLM.from_pretrained("NbAiLab/nb-gpt-j-6B")
✨ 主要特性
- 挪威語微調:基於 GPT-J 6B 進行挪威語微調,更適配挪威語場景。
- 參數豐富:擁有 60 億可訓練參數,具備強大的語言理解和生成能力。
- 特定架構設計:採用特定的超參數設置和位置編碼方式,提升模型性能。
📚 詳細文檔
模型描述
NB-GPT-J-6B 是 GPT-J 6B 的挪威語微調版本,GPT-J 6B 是使用 Ben Wang 的 Mesh Transformer JAX 訓練的變壓器模型。“GPT-J” 指的是模型類別,“6B” 表示可訓練參數的數量(60 億參數)。
* 每層由一個前饋塊和一個自注意力塊組成。
† 儘管嵌入矩陣大小為 50400,但 GPT - 2 分詞器僅使用 50257 個條目。
該模型由 28 層組成,模型維度為 4096,前饋維度為 16384。模型維度分為 16 個頭,每個頭的維度為 256。旋轉位置嵌入 (RoPE) 應用於每個頭的 64 個維度。該模型使用 50257 的分詞詞彙表進行訓練,使用與 GPT - 2/GPT - 3 相同的 BPE 集。
訓練數據
NB-GPT-J-6B 在 NCC(挪威大型語料庫)以及其他互聯網來源(如維基百科、mC4 和 OSCAR)上進行了微調。
訓練過程
該模型在 TPU v3 - 8 VM 上對 1300 億個標記進行了 100 萬步的微調。它作為自迴歸語言模型進行訓練,使用交叉熵損失來最大化正確預測下一個標記的可能性。
使用目的和侷限性
使用目的
NB-GPT-J-6B 學習挪威語的內部表示,可用於提取對下游任務有用的特徵。然而,該模型最擅長的是根據提示生成文本。
侷限性和偏差
- 準確性問題:與原始 GPT - J 模型一樣,NB-GPT-J-6B 的核心功能是獲取一串文本並預測下一個標記。雖然語言模型廣泛用於其他任務,但這項工作存在很多未知因素。在向 NB-GPT-J-6B 提供提示時,重要的是要記住,統計上最可能的下一個標記通常不是產生最 “準確” 文本的標記。絕不要依賴 NB-GPT-J-6B 來產生事實準確的輸出。
- 不良內容問題:原始 GPT - J 在 Pile 數據集上進行訓練,該數據集已知包含褻瀆、淫穢和其他冒犯性語言。根據使用情況,GPT - J 可能會產生社會不可接受的文本。有關 Pile 中偏差的更詳細分析,請參閱 Pile 論文的第 5 節和第 6 節。對用於微調的語料庫中包含的偏差的細粒度分析仍在進行中。
- 不可預測性:與所有語言模型一樣,很難提前預測 NB-GPT-J-6B 對特定提示的響應方式,並且可能會在沒有警告的情況下出現冒犯性內容。我們建議在發佈輸出之前由人工進行策劃或過濾,以審查不良內容並提高結果質量。
評估結果
我們仍需找到合適的數據集來評估該模型,因此歡迎提供幫助!
📄 許可證
本項目採用 apache - 2.0
許可證。
🔧 技術細節
引用信息
BibTeX 條目
若要引用此模型或使用的語料庫,請使用以下 BibTeX 條目:
@inproceedings{kummervold2021operationalizing,
title={Operationalizing a National Digital Library: The Case for a Norwegian Transformer Model},
author={Kummervold, Per E and De la Rosa, Javier and Wetjen, Freddy and Brygfjeld, Svein Arne},
booktitle={Proceedings of the 23rd Nordic Conference on Computational Linguistics (NoDaLiDa)},
pages={20--29},
year={2021},
url={https://aclanthology.org/2021.nodalida-main.3/}
}
如果您使用了此模型,我們很樂意瞭解相關情況!您可以通過 Twitter、GitHub、Discord 聯繫我們,或給我們發送電子郵件。
免責聲明
本倉庫中發佈的模型旨在用於通用目的,並可供第三方使用。這些模型可能存在偏差和/或其他不良失真。當第三方使用這些模型(或基於這些模型的系統)向其他方部署或提供系統和/或服務,或成為模型的用戶時,他們應注意,減輕使用帶來的風險並遵守適用法規(包括有關人工智能使用的法規)是他們的責任。在任何情況下,模型所有者(挪威國家圖書館)均不對第三方使用這些模型產生的任何結果負責。
致謝
如果沒有 Google 通過 TPU 研究雲 慷慨提供的計算資源,以及 Cloud TPU 團隊提前提供 Cloud TPU VM Alpha 版本的使用權限,這個項目是不可能完成的。特別感謝 Stella Biderman 的開放態度,以及 Ben Wang 提供的主要代碼庫。
版本發佈信息
- 發佈 ✨v1✨ (2023 年 1 月 18 日) 全精度、分片、半精度 和 mesh - transformers - jax 權重
所有檢查點
- **發佈 v1beta5** (2022 年 12 月 18 日) *[全精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta5)、[分片](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta5-sharded) 和 [半精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta5-float16) 權重* - **發佈 v1beta4** (2022 年 10 月 28 日) *[全精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta4)、[分片](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta4-sharded) 和 [半精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta4-float16) 權重* - **發佈 v1beta3** (2022 年 8 月 8 日) *[全精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta3)、[分片](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta3-sharded) 和 [半精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta3-float16) 權重* - **發佈 v1beta2** (2022 年 6 月 18 日) *[全精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta2)、[分片](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/sharded) 和 [半精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta2-float16) 權重* - **發佈 v1beta1** (2022 年 4 月 28 日) *[半精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta1-float16) 權重*演示地址
點擊此處查看演示 (請耐心等待,它在 CPU 上運行 😅)



