模型概述

PLaMo-100B是一個專注於日語能力優化的原生大語言模型，支持英語和日語文本生成任務

模型特點

雙語支持

專門針對英語和日語優化，訓練數據包含1.3T英文token和0.7T日文token

兩階段訓練

分兩個階段進行訓練，第一階段1.5T token，第二階段0.5T token，採用不同的數據比例

商業許可選項

提供商業和非商業雙重許可模式，滿足不同使用場景需求

模型能力

文本生成

日語文本處理

英語文本處理

使用案例

學術研究

語言模型研究

可用於大語言模型相關學術研究

內容創作

日語內容生成

生成日語文本內容

language:

en
ja license: other license_name: plamo-100b-license license_link: https://huggingface.co/pfnet/plamo-100b/tree/main/LICENSE library_name: transformers pipeline_tag: text-generation extra_gated_prompt: >-

PLaMo非商業許可協議

本《PLaMo非商業許可協議》（以下簡稱"本協議"）由Preferred Networks公司（以下簡稱"PFN"）制定，規定了用戶在使用PFN提供的大型基礎語言模型PLaMo-100B（以下簡稱"本模型"）時必須遵守的非商業使用條款。用戶通過同意本協議或使用本模型，即表示接受本協議所有條款的法律約束力。

第一條定義

(1) "本協議"指《PLaMo非商業許可協議》；

(2) "PFN"指Preferred Networks公司；

(3) "本模型"指代號為"PLaMo-100B"的模型，包括其訓練腳本、分詞器、預訓練權重及PFN提供的所有相關組件與資源；

(4) "用戶"指使用本模型的個人或法律實體；

(5) "許可"指PFN根據本協議條款授予用戶使用本模型的權限；

(6) "衍生模型"指通過對本模型進行微調、量化壓縮、代碼修改、參數調整等方式創建的模型代碼，包括微調權重及相關組件資源；

(7) "輸出內容"指由本模型或衍生模型生成的結果；

(8) "模型及輸出內容"統指本模型、衍生模型與輸出內容。

第二條用戶資格

用戶須年滿18週歲，或達到所在國家/地區可獨立訂立協議的法定年齡。若用戶未成年，需獲得父母或法定監護人的同意方可接受本協議。

第三條許可範圍

(1) 在用戶同意並遵守所有條款的前提下，PFN授予用戶本協議範圍內的模型使用權；

(2) 本許可是非排他性、全球性、可撤銷、不可分許可、不可轉讓且免版稅的；

(3) 用戶僅可將模型及輸出內容用於個人或學術用途；

(4) 禁止將模型及輸出內容用於以下商業用途： (a) 用戶或第三方的商業活動； (b) 開發擬用於商業應用的模型或服務；

(5) 無論商業或非商業目的，用戶不得向第三方提供本模型或衍生模型，亦不得允許第三方使用。

第四條衍生模型

(1) 用戶可通過微調、量化壓縮、代碼修改等方式創建衍生模型，但嚴禁用於第三條第四款所述商業目的；

(2) 衍生模型名稱須包含"PLaMo"前綴並明確標註。

第五條輸出內容

(1) 用戶可公開輸出內容，但須註明其由本模型或衍生模型生成；

(2) 嚴禁利用輸出內容開發、訓練或改進非本模型/衍生模型的其他大語言模型。

第六條使用限制

禁止將模型及輸出內容用於以下行為： (1) 違法或違背公序良俗； (2) 侵害PFN或第三方權益； (3) 損害PFN或第三方信譽； (4) 造成PFN或第三方經濟損失； (5) 恐嚇、種族歧視或誹謗； (6) 輸入日本《個人信息保護法》定義的敏感信息； (7) 網絡暴力、騷擾、人肉搜索； (8) 開發/傳播惡意軟件； (9) 煽動自殺、自殘、暴力、吸毒； (10) 傳播虛假信息； (11) 暗示輸出內容代表PFN官方立場； (12) 在金融、教育、就業、醫療等關鍵領域使用； (13) 作為唯一信息源或專家建議替代品； (14) 用於車輛導航/自動駕駛系統； (15) 參與/協助犯罪活動； (16) 洗錢等金融違法； (17) 為反社會勢力提供利益； (18) 傳播淫穢或危害青少年內容； (19) 用於政治活動； (20) 通過非官方渠道獲取模型； (21) 其他PFN認定的不當行為。

第七條免責聲明

本模型及輸出內容按"現狀"提供，PFN不保證其準確性、適銷性、特定用途適用性或不侵權。用戶需自行評估使用風險並承擔全部責任。

第八條責任限制

(1) PFN對用戶的賠償責任以直接損失為限（不包括間接損失），最高賠償500日元，故意或重大過失除外；

(2) 商業用途導致的損失PFN概不負責。

第九條用戶責任

(1) 用戶須確保使用行為符合進出口等法律法規；

(2) 用戶違約導致PFN損失的應予以賠償；

(3) 用戶應使PFN免受第三方索賠影響。

第十條權利歸屬

(1) 本模型所有權歸PFN或其授權方；

(2) 衍生模型中用戶修改部分歸用戶，其餘權利仍屬PFN；

(3) 輸出內容權利歸用戶所有。

第十一條協議終止

PFN可隨時單方面終止本協議。

第十二條協議期限

(1) 自用戶同意或首次訪問模型時生效，至終止時失效；

(2) 終止後用戶應立即停止使用並刪除所有模型文件。

第十三條協議修改

PFN可修訂本協議，修改內容將提前公示。

第十四條法律適用

(1) 本協議適用日本法律；

(2) 爭議由東京地方法院專屬管轄。

extra_gated_heading: "同意許可協議以下載PLaMo-100B" extra_gated_description: "下載PLaMo-100B需同意許可協議。本模型提供商業與非商業兩種許可，非商業使用請查閱LICENSE，商業使用請通過此表單聯繫我們" extra_gated_button_content: "同意PLaMo-100B許可協議"

PLaMo-100B大語言模型

模型概述

PLaMo-100B是由Preferred Elements公司基於英日雙語開源數據集訓練的千億參數模型，提供商業與非商業雙重許可。非商業使用請查閱LICENSE（含日英雙語版本），商業使用請填寫申請表單（僅限日語）。

注意：本模型未針對對話場景進行指令微調。我們通過API和解決方案包提供指令微調版本，詳情請訪問官方PLaMo網站（日語）。

使用指南

環境要求

numpy
sentencepiece
torch
transformers

快速調用

import transformers
pipeline = transformers.pipeline("text-generation", model="pfnet/plamo-100b", trust_remote_code=True)
print(pipeline("人工智能技術的未來在於", max_new_tokens=32))

直接加載

from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("pfnet/plamo-100b", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("pfnet/plamo-100b", trust_remote_code=True)
text = "人工知能技術の今後は"
input_ids = tokenizer(text, return_tensors="pt").input_ids
generated_tokens = model.generate(
    inputs=input_ids,
    max_new_tokens=32,
    do_sample=True,
    top_k=50,
    top_p=0.95,
    temperature=1.0,
)[0]
generated_text = tokenizer.decode(generated_tokens)
print(generated_text)

技術細節

參數量：1000億
訓練數據：2萬億token（英文1.3T/日文0.7T）
研發機構：Preferred Elements公司
模型類型：因果解碼器架構
支持語言：英語、日語
許可類型：商業/非商業

訓練數據

分兩階段訓練：第一階段1.5T token，第二階段0.5T token，數據比例如下：

	第一階段(1.5T)	第二階段(0.5T)
RefinedWeb(英文)	42%	17%
其他英文數據	28%	33%
專有CommonCrawl-JP	18%	46%
其他日文數據	12%	4%

分詞器

採用基於預訓練數據子集訓練的sentencepiece分詞器。

技術博客

https://tech.preferred.jp/ja/blog/plamo-100b/

風險提示

PLaMo-100B作為新興技術存在使用風險。當前測試僅覆蓋英日雙語場景，輸出可能存在偏差或不準確內容。開發者應在實際應用前進行針對性安全測試。

引用格式

@article{plamo100b,
    author    = {Preferred Elements公司研發團隊},
    title     = {PLaMo-100B：面向日語能力優化的原生大語言模型},
    year      = {2024},
    url       = {https://arxiv.org/abs/2410.07563},
    journal   = {arXiv}
}