nb - gpt - j - 6B開源模型 - 支持免費部署的挪威語文本處理好幫手

首頁

Nb Gpt J 6B

由NbAiLab開發

基於GPT-J 6B的挪威語微調版本，60億參數規模的Transformer模型

大型語言模型

Transformers

其他開源協議:Apache-2.0 #挪威語生成 #大參數語言模型 #自迴歸文本生成

下載量 479

發布時間 : 3/2/2022

模型概述

NB-GPT-J-6B是一個針對挪威語優化的自迴歸語言模型，主要用於文本生成任務。它基於GPT-J架構，在挪威語語料上進行了微調。

模型特點

挪威語優化

專門針對挪威語進行了微調，支持書面挪威語和新挪威語兩種變體

大規模參數

擁有60億可訓練參數，具備強大的語言理解和生成能力

長上下文支持

支持2048個token的上下文長度，適合處理較長文本

旋轉位置嵌入

採用RoPE(Rotary Position Embedding)位置編碼，提升模型性能

模型能力

挪威語文本生成

語言理解

文本補全

對話生成

使用案例

內容創作

挪威語文章生成

根據提示生成挪威語文章或段落

教育

挪威語學習輔助

幫助學習挪威語的學生生成練習材料

🚀 NB-GPT-J-6B

NB-GPT-J-6B 是 GPT-J 6B 的挪威語微調版本，可用於挪威語文本生成任務，為挪威語相關的下游任務提供有力支持。

🚀 快速開始

此模型可使用 AutoModelForCausalLM 功能輕鬆加載：

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("NbAiLab/nb-gpt-j-6B")
model = AutoModelForCausalLM.from_pretrained("NbAiLab/nb-gpt-j-6B")

✨ 主要特性

挪威語微調：基於 GPT-J 6B 進行挪威語微調，更適配挪威語場景。
參數豐富：擁有 60 億可訓練參數，具備強大的語言理解和生成能力。
特定架構設計：採用特定的超參數設置和位置編碼方式，提升模型性能。

📚 詳細文檔

模型描述

NB-GPT-J-6B 是 GPT-J 6B 的挪威語微調版本，GPT-J 6B 是使用 Ben Wang 的 Mesh Transformer JAX 訓練的變壓器模型。“GPT-J” 指的是模型類別，“6B” 表示可訓練參數的數量（60 億參數）。

| 超參數 | 值 | | ---- | ---- | | \\(n_{parameters}\\) | 6053381344 | | \\(n_{layers}\\) | 28* | | \\(d_{model}\\) | 4096 | | \\(d_{ff}\\) | 16384 | | \\(n_{heads}\\) | 16 | | \\(d_{head}\\) | 256 | | \\(n_{ctx}\\) | 2048 | | \\(n_{vocab}\\) | 50257/50400†（與 GPT - 2/3 使用相同的分詞器） | | 位置編碼 | [旋轉位置嵌入 (RoPE)](https://arxiv.org/abs/2104.09864) | | RoPE 維度 | [64](https://github.com/kingoflolz/mesh-transformer-jax/blob/f2aa66e0925de6593dcbb70e72399b97b4130482/mesh_transformer/layers.py#L223) |

* 每層由一個前饋塊和一個自注意力塊組成。

† 儘管嵌入矩陣大小為 50400，但 GPT - 2 分詞器僅使用 50257 個條目。

該模型由 28 層組成，模型維度為 4096，前饋維度為 16384。模型維度分為 16 個頭，每個頭的維度為 256。旋轉位置嵌入 (RoPE) 應用於每個頭的 64 個維度。該模型使用 50257 的分詞詞彙表進行訓練，使用與 GPT - 2/GPT - 3 相同的 BPE 集。

訓練數據

NB-GPT-J-6B 在 NCC（挪威大型語料庫）以及其他互聯網來源（如維基百科、mC4 和 OSCAR）上進行了微調。

訓練過程

該模型在 TPU v3 - 8 VM 上對 1300 億個標記進行了 100 萬步的微調。它作為自迴歸語言模型進行訓練，使用交叉熵損失來最大化正確預測下一個標記的可能性。

使用目的和侷限性

使用目的

NB-GPT-J-6B 學習挪威語的內部表示，可用於提取對下游任務有用的特徵。然而，該模型最擅長的是根據提示生成文本。

侷限性和偏差

準確性問題：與原始 GPT - J 模型一樣，NB-GPT-J-6B 的核心功能是獲取一串文本並預測下一個標記。雖然語言模型廣泛用於其他任務，但這項工作存在很多未知因素。在向 NB-GPT-J-6B 提供提示時，重要的是要記住，統計上最可能的下一個標記通常不是產生最 “準確” 文本的標記。絕不要依賴 NB-GPT-J-6B 來產生事實準確的輸出。
不良內容問題：原始 GPT - J 在 Pile 數據集上進行訓練，該數據集已知包含褻瀆、淫穢和其他冒犯性語言。根據使用情況，GPT - J 可能會產生社會不可接受的文本。有關 Pile 中偏差的更詳細分析，請參閱 Pile 論文的第 5 節和第 6 節。對用於微調的語料庫中包含的偏差的細粒度分析仍在進行中。
不可預測性：與所有語言模型一樣，很難提前預測 NB-GPT-J-6B 對特定提示的響應方式，並且可能會在沒有警告的情況下出現冒犯性內容。我們建議在發佈輸出之前由人工進行策劃或過濾，以審查不良內容並提高結果質量。

評估結果

我們仍需找到合適的數據集來評估該模型，因此歡迎提供幫助！

📄 許可證

本項目採用 apache - 2.0 許可證。

🔧 技術細節

引用信息

BibTeX 條目

若要引用此模型或使用的語料庫，請使用以下 BibTeX 條目：

@inproceedings{kummervold2021operationalizing,
  title={Operationalizing a National Digital Library: The Case for a Norwegian Transformer Model},
  author={Kummervold, Per E and De la Rosa, Javier and Wetjen, Freddy and Brygfjeld, Svein Arne},
  booktitle={Proceedings of the 23rd Nordic Conference on Computational Linguistics (NoDaLiDa)},
  pages={20--29},
  year={2021},
  url={https://aclanthology.org/2021.nodalida-main.3/}
}

如果您使用了此模型，我們很樂意瞭解相關情況！您可以通過 Twitter、GitHub、Discord 聯繫我們，或給我們發送電子郵件。

免責聲明

本倉庫中發佈的模型旨在用於通用目的，並可供第三方使用。這些模型可能存在偏差和/或其他不良失真。當第三方使用這些模型（或基於這些模型的系統）向其他方部署或提供系統和/或服務，或成為模型的用戶時，他們應注意，減輕使用帶來的風險並遵守適用法規（包括有關人工智能使用的法規）是他們的責任。在任何情況下，模型所有者（挪威國家圖書館）均不對第三方使用這些模型產生的任何結果負責。

致謝

如果沒有 Google 通過 TPU 研究雲慷慨提供的計算資源，以及 Cloud TPU 團隊提前提供 Cloud TPU VM Alpha 版本的使用權限，這個項目是不可能完成的。特別感謝 Stella Biderman 的開放態度，以及 Ben Wang 提供的主要代碼庫。

版本發佈信息

發佈 ✨v1✨ (2023 年 1 月 18 日) 全精度、分片、半精度和 mesh - transformers - jax 權重

所有檢查點

- **發佈 v1beta5** (2022 年 12 月 18 日) *[全精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta5)、[分片](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta5-sharded) 和 [半精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta5-float16) 權重* - **發佈 v1beta4** (2022 年 10 月 28 日) *[全精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta4)、[分片](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta4-sharded) 和 [半精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta4-float16) 權重* - **發佈 v1beta3** (2022 年 8 月 8 日) *[全精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta3)、[分片](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta3-sharded) 和 [半精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta3-float16) 權重* - **發佈 v1beta2** (2022 年 6 月 18 日) *[全精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta2)、[分片](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/sharded) 和 [半精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta2-float16) 權重* - **發佈 v1beta1** (2022 年 4 月 28 日) *[半精度](https://huggingface.co/NbAiLab/nb-gpt-j-6B/tree/v1beta1-float16) 權重*