PLaMo 2 8B開源語言模型 - 免費實現英語和日語文本生成

首頁

Plamo 2 8b

由pfnet開發

PLaMo 2 8B是由Preferred Elements公司開發的80億參數混合架構語言模型，支持英語和日語文本生成。

大型語言模型

Transformers

支持多種語言開源協議:其他 #日英雙語生成 #混合SSM架構 #高效推理優化

下載量 401

發布時間 : 2/7/2025

模型概述

基於英語和日語數據集預訓練的大規模語言基礎模型，採用類似Samba的混合架構（結合選擇性狀態空間模型與滑動窗口注意力機制），專注於高效文本生成。

模型特點

高效混合架構

整合Mamba2選擇性狀態空間模型與滑動窗口注意力機制，相比傳統Transformer具有更高計算效率

雙語支持

針對英語和日語優化，訓練數據包含6萬億token（英語45%/日語30%）

商業友好許可

年收入低於10億日元的組織可申請商業用途許可（需註冊）

訓練穩定性增強

新增歸一化層和改進的Mamba2內核，提升大規模訓練穩定性

模型能力

英語文本生成

日語文本生成

代碼生成（有限支持）

開放域問答

使用案例

內容創作

多語言內容生成

自動生成英語/日語營銷文案、博客文章等

企業應用

內部知識處理

文檔摘要、報告生成等組織內部非商業用途

需遵守收入限制條款

🚀 PLaMo 2 8B

PLaMo 2 8B是一款由Preferred Elements公司開發的80億參數模型，在英文和日文數據集上進行了預訓練。該模型採用了獨特的架構，在效率和性能上表現出色，為自然語言處理任務提供了新的解決方案。

🚀 快速開始

環境要求

numpy>=1.26.4
numba>=0.60.0
torch>=2.4.1
transformers>=4.44.2
mamba_ssm>=2.2.2
causal_conv1d>=1.4.0

使用pipeline進行文本生成

import transformers
pipeline = transformers.pipeline("text-generation", model="pfnet/plamo-2-8b", trust_remote_code=True)
print(pipeline("The future of artificial intelligence technology is ", max_new_tokens=32))

直接加載模型

from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("pfnet/plamo-2-8b", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("pfnet/plamo-2-8b", trust_remote_code=True)
text = "これからの人工知能技術は"
input_ids = tokenizer(text, return_tensors="pt").input_ids
generated_tokens = model.generate(
    inputs=input_ids,
    max_new_tokens=32,
    do_sample=True,
    top_k=50,
    top_p=0.95,
    temperature=1.0,
)[0]
generated_text = tokenizer.decode(generated_tokens)
print(generated_text)

✨ 主要特性

獨特架構：PLaMo 2系列模型採用了類似Samba的混合架構，而非傳統的Transformer架構。Samba將選擇性狀態空間模型（SSM）Mamba與滑動窗口注意力相結合，發揮兩者優勢，提高了效率和性能。
訓練優化：PLaMo 2在Samba的基礎上進行了改進，增加了歸一化層以提高訓練穩定性，並使用Mamba2內核提高計算效率。

📦 安裝指南

要使用PLaMo 2 8B模型，你需要安裝以下依賴庫：

numpy>=1.26.4
numba>=0.60.0
torch>=2.4.1
transformers>=4.44.2
mamba_ssm>=2.2.2
causal_conv1d>=1.4.0

你可以使用以下命令進行安裝：

pip install numpy numba torch transformers mamba_ssm causal_conv1d

💻 使用示例

基礎用法

import transformers
pipeline = transformers.pipeline("text-generation", model="pfnet/plamo-2-8b", trust_remote_code=True)
print(pipeline("The future of artificial intelligence technology is ", max_new_tokens=32))

高級用法

from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("pfnet/plamo-2-8b", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("pfnet/plamo-2-8b", trust_remote_code=True)
text = "これからの人工知能技術は"
input_ids = tokenizer(text, return_tensors="pt").input_ids
generated_tokens = model.generate(
    inputs=input_ids,
    max_new_tokens=32,
    do_sample=True,
    top_k=50,
    top_p=0.95,
    temperature=1.0,
)[0]
generated_text = tokenizer.decode(generated_tokens)
print(generated_text)

📚 詳細文檔

模型描述

PLaMo 2 8B是一款在英文和日文數據集上預訓練的80億參數模型，由Preferred Elements公司開發。該模型採用了類似Samba的混合架構，結合了Mamba和滑動窗口注意力的優勢，提高了效率和性能。

商業用戶說明

商業用戶在使用PLaMo 2 8B模型前，請仔細閱讀PLaMo社區許可證，並通過以下表單與我們聯繫：

(英文/日文) https://forms.gle/mTL8tBLrMYXKNZD56

注意事項

本模型未針對聊天對話或其他下游任務進行指令微調。

🔧 技術細節

架構

PLaMo 2模型採用了類似Samba的混合架構，該架構將選擇性狀態空間模型（SSM）Mamba與滑動窗口注意力相結合。與傳統的Transformer架構相比，Samba架構在效率和性能上有顯著提升。PLaMo 2在Samba的基礎上進行了改進，增加了歸一化層以提高訓練穩定性，並使用Mamba2內核提高計算效率。

訓練數據

PLaMo 2 8B模型的訓練分為兩個階段，第一階段使用了5250億個token，第二階段使用了750億個token。各階段數據集的佔比情況如下表所示：

語言	5250億token（第一階段）	750億token（第二階段）	token數量
英文	45%	35%	2625億
日文	30%	40%	1875億
代碼	15%	15%	900億
其他	10%	10%	600億

分詞器

PLaMo 2 8B的分詞器使用了numba進行優化，numba是一個用於數值函數的即時編譯器。該分詞器在模型預訓練數據集的一個子集上進行了訓練。

📄 許可證

PLaMo 2 8B模型採用PLaMo社區許可證發佈。在下載模型之前，請仔細閱讀以下許可證並同意相關條款：

(英文) 正在建設中，對此帶來的不便我們深表歉意
(日文) https://www.preferred.jp/ja/plamo-community-license/

PLaMo社區許可證詳情

第1條（定義）

(1) 「本契約」指PLaMo社區許可證契約。 (2) 「PFN」指Preferred Networks公司。 (3) 「本模型」指名為「PLaMo」的模型權重、模型代碼、分詞器、學習腳本及PFN隨附提供的相關內容。 (4) 「用戶」指使用本模型的個人或法人。 (5) 「派生模型」指對本模型進行修改或利用後創建的模型權重、模型代碼及其他附屬物。 (6) 「生成物」指本模型或派生模型的輸出結果。 (7) 「本模型等」指本模型、派生模型及生成物的統稱。 (8) 「本許可證」指PFN根據本契約允許用戶使用本模型等的許可。 (9) 「商業目的」指超出個人使用或學術用途範圍，用於商業運營或盈利的使用。包括用戶產品、服務或業務的開發、變更或提供（包括託管服務和通過API提供）以及用戶組織內部的使用。

第2條（用戶）

用戶必須年滿18歲或達到其居住國可單獨簽訂契約的年齡。但如果用戶的監護人或法定代理人同意用戶簽訂本契約，則不受此限制。

第3條（本許可證）

(1) PFN在用戶同意並遵守本契約的條件下，允許用戶在本契約規定的條件和範圍內使用本模型等。 (2) 本許可證為非獨佔、全球性、不可轉讓且免版稅的許可證。 (3) 用戶僅在滿足以下所有條件時，才可將本模型等用於商業目的。若用戶不再滿足其中任何一個條件，則必須立即停止將本模型等用於商業目的；若想繼續用於商業目的，需重新從PFN獲取商業許可證。 (i) 提前在PFN的官方註冊頁面https://forms.gle/mTL8tBLrMYXKNZD56進行註冊。 (ii) 用戶或其關聯公司最近一個財年的收入或銷售額不超過10億日元（按用戶當地貨幣換算）。

第4條（再分發及顯示義務）

(1) 用戶向第三方提供本模型等（包括派生模型及其生成物）時，必須滿足以下條件： (i) 提供本契約的副本，並要求第三方遵守本契約的條件。 (ii) 明確標註「Built with PLaMo」，並在相關網站、用戶界面、博客文章、產品信息頁面或產品文檔中進行說明。 (iii) 在使用本模型等創建的AI模型名稱中包含「PLaMo」。

第5條（生成物的使用）

(1) 用戶在明確說明生成物是本模型或派生模型的產物的條件下，可以公開該生成物。 (2) 使用生成物訓練模型時，該模型將作為派生模型適用本契約的條件，僅可在本契約的許可條件下使用、分發和商業化。

第6條（其他使用條件）

用戶在使用本模型等時，不得進行以下行為： (1) 違反法律法規或公序良俗的行為。 (2) 犯罪行為或預告、參與、助長犯罪行為及其他相關行為。 (3) 侵犯PFN或第三方權利或利益的行為。 (4) 損害PFN或第三方名譽或信譽的行為。 (5) 傳播可能導致誤解生成物為PFN官方意見等的信息的行為。 (6) 發佈虛假信息的行為。 (7) 其他PFN合理認為不適當的行為。

第7條（保證的否認）

(1) 本模型和生成物按「現狀」提供，PFN對其準確性、真實性、適銷性、質量、性能、特定用途的適用性、權利的非侵權性等不提供任何保證。 (2) 用戶不得將生成物作為法律、醫療、金融或人物評估等重要事項決策的唯一證據、評估或意見。 (3) 用戶對本模型等的使用及其結果承擔全部責任。

第8條（責任的限制）

(1) 無論責任類型是契約責任、侵權行為、產品責任還是其他法律責任，PFN對用戶因本契約和本模型等產生的損害賠償責任僅限於通常和直接的損害（無論是否可預見，對間接損失、特別損失、間接損害等不承擔責任），損害賠償金額上限為500日元。但如果PFN存在故意或重大過失，則不受此限制。 (2) 儘管有前款規定，若用戶將本模型等用於商業目的，PFN對用戶因本契約和本模型等產生的任何損害賠償責任和其他責任概不負責。

第9條（用戶的責任）

(1) 用戶在獲取和使用本模型等時，必須遵守適用的法律法規（包括與進出口和貿易相關的法律法規）和本契約。 (2) 若用戶因違反本契約或使用本模型等給PFN造成損害，應承擔賠償責任。 (3) 若因用戶使用本模型等導致PFN受到第三方的損害賠償請求或其他請求，用戶應使PFN免責，並避免給PFN造成損害。

第10條（權利的歸屬）

(1) 本模型的所有權利歸PFN或向PFN授予本模型許可證的第三方所有。 (2) 派生模型中，用戶對本模型進行修改部分的權利歸用戶所有，其他部分的權利歸PFN所有。 (3) 生成物的所有權利歸用戶所有。

第11條（契約期間及終止）

(1) 本契約自用戶同意本契約或訪問本模型時起生效，至本契約解除時終止。 (2) 若用戶違反本契約的任何條款，PFN有權立即解除本契約，用戶必須刪除本模型等的所有副本，並立即停止使用。

第12條（契約的變更）

PFN有權變更本契約（包括與本模型等相關的規則和規定）。PFN變更本契約時，將在變更生效前以PFN規定的方式通知用戶變更內容和生效時間。

第13條（準據法及管轄法院）

(1) 本契約適用日本法律。 (2) 因本模型等和本契約產生的糾紛，由東京地方裁判所作為專屬合意管轄法院。

⚠️ 重要提示

PLaMo 2 8B是一項新技術，使用時存在一定風險。目前的測試僅在英文和日文環境下進行，且無法涵蓋所有場景。因此，與所有大語言模型一樣，PLaMo 2 8B的潛在輸出無法提前預測，模型在某些情況下可能會產生不準確、有偏見或其他令人反感的回覆。在部署PLaMo 2 8B的任何應用之前，開發者應針對具體應用場景進行安全測試和調優。