Plamo-2-1b開源語言模型 - 免費使用，基於英日數據預訓練的實用工具

首頁

Plamo 2 1b

由pfnet開發

PLaMo 2 1B是由Preferred Elements公司開發的10億參數模型，基於英文和日文數據集進行預訓練，採用混合架構結合Mamba和滑動窗口注意力機制。

大型語言模型

Transformers

支持多種語言開源協議:Apache-2.0 #日英雙語生成 #混合架構Mamba2 #萬億級預訓練

下載量 1,051

發布時間 : 2/5/2025

模型概述

PLaMo 2 1B是一個基於英文和日文預訓練的10億參數模型，採用類似Samba的混合架構，結合了選擇性狀態空間模型和滑動窗口注意力機制，適用於文本生成任務。

模型特點

混合架構設計

結合Mamba2選擇性狀態空間模型和滑動窗口注意力機制，提升效率和性能。

多語言支持

支持英文和日文文本生成，適用於雙語場景。

優化訓練穩定性

增加歸一化層以提高訓練穩定性，使用Mamba2內核提升計算效率。

模型能力

文本生成

多語言處理

使用案例

文本生成

英文文本續寫

根據給定的英文開頭生成連貫的後續文本。

日文文本生成

根據日文提示生成相關內容的文本。

🚀 PLaMo 2 1B

PLaMo 2 1B是一個在英文和日文數據集上預訓練的10億參數模型，由Preferred Elements公司開發。它採用了獨特的架構，在文本生成任務上有一定表現。

🚀 快速開始

PLaMo 2 1B模型可用於文本生成任務。不過要注意，該模型未針對聊天對話或其他下游任務進行指令微調。

✨ 主要特性

混合架構：PLaMo 2系列模型採用了類似Samba的混合架構，而非傳統的Transformer架構。Samba將選擇性狀態空間模型（SSM）Mamba與滑動窗口注意力相結合，發揮兩者優勢，提升了效率和性能。
改進優化：PLaMo 2相較於Samba，主要有兩點改進：一是添加了歸一化層以提高訓練穩定性；二是使用Mamba2內核以提高計算效率。

📦 安裝指南

使用該模型前，需要安裝以下依賴：

numpy>=1.26.4
numba>=0.60.0
torch>=2.4.1
transformers>=4.44.2
mamba_ssm>=2.2.2
causal_conv1d>=1.4.0

💻 使用示例

基礎用法

使用transformers庫的pipeline進行文本生成：

import transformers
pipeline = transformers.pipeline("text-generation", model="pfnet/plamo-2-1b", trust_remote_code=True)
print(pipeline("The future of artificial intelligence technology is ", max_new_tokens=32))

高級用法

直接加載模型進行文本生成：

from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("pfnet/plamo-2-1b", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("pfnet/plamo-2-1b", trust_remote_code=True)
text = "これからの人工知能技術は"
input_ids = tokenizer(text, return_tensors="pt").input_ids
generated_tokens = model.generate(
    inputs=input_ids,
    max_new_tokens=32,
    do_sample=True,
    top_k=50,
    top_p=0.95,
    temperature=1.0,
)[0]
generated_text = tokenizer.decode(generated_tokens)
print(generated_text)

📚 詳細文檔

模型詳情

屬性	詳情
模型類型	自迴歸解碼器模型
訓練數據	英文和日文數據集，分兩個階段訓練，第一階段使用3.5T token，第二階段使用0.5T token
模型大小	10億參數
開發者	Preferred Elements公司
許可證	Apache License 2.0

分詞器

PLaMo 2 1B的分詞器使用了numba進行優化，numba是一個用於數值函數的即時編譯器。該分詞器在模型預訓練數據集的一個子集上進行訓練。

技術博客

(日文) https://tech.preferred.jp/ja/blog/plamo-2/
(日文) https://tech.preferred.jp/ja/blog/plamo-2-tokenizer/

偏差、風險和侷限性

PLaMo 2 1B是一項新技術，使用時存在一定風險。目前的測試僅在英文和日文環境下進行，無法涵蓋所有場景。因此，與所有大語言模型一樣，PLaMo 2 1B的潛在輸出無法提前預測，在某些情況下，模型可能會對用戶的提示產生不準確、有偏差或其他令人反感的回覆。所以，在部署PLaMo 2 1B的任何應用之前，開發者應針對特定應用進行安全測試和調整。