Plamo - 2 - 1bオープンソース言語モデル - 無料で利用可能、英語と日本語のデータで事前学習された実用ツール

Plamo 2 1b

Developed by pfnet

PLaMo 2 1BはPreferred Elements社が開発した10億パラメータのモデルで、英語と日本語のデータセットで事前学習され、Mambaとスライディングウィンドウアテンション機構を組み合わせたハイブリッドアーキテクチャを採用しています。

大規模言語モデル

Transformers

Supports Multiple LanguagesOpen Source License:Apache-2.0 #日英バイリンガル生成 #ハイブリッドアーキテクチャMamba2 #兆規模の事前学習

Downloads 1,051

Release Time : 2/5/2025

Model Overview

PLaMo 2 1Bは英語と日本語で事前学習された10億パラメータのモデルで、Sambaに似たハイブリッドアーキテクチャを採用し、選択的状態空間モデルとスライディングウィンドウアテンション機構を組み合わせており、テキスト生成タスクに適しています。

Model Features

ハイブリッドアーキテクチャ設計

Mamba2の選択的状態空間モデルとスライディングウィンドウアテンション機構を組み合わせ、効率と性能を向上させています。

多言語サポート

英語と日本語のテキスト生成をサポートし、バイリンガルシナリオに適しています。

トレーニング安定性の最適化

正規化層を追加してトレーニングの安定性を向上させ、Mamba2コアを使用して計算効率を高めています。

Model Capabilities

テキスト生成

多言語処理

Use Cases

テキスト生成

英語テキストの続き作成

与えられた英語の冒頭から一貫性のある続きのテキストを生成します。

日本語テキスト生成

日本語のプロンプトに基づいて関連する内容のテキストを生成します。

🚀 PLaMo 2 1B

PLaMo 2 1Bは、Preferred Elements, Inc.によって開発された、英語と日本語のデータセットで事前学習された10億パラメータのモデルです。このモデルは、Transformerアーキテクチャではなく、Sambaのようなハイブリッドアーキテクチャを採用しており、効率と性能を向上させています。

🚀 クイックスタート

PLaMo 2 1Bを使い始めるには、まず必要なライブラリをインストールし、モデルをロードする必要があります。以下のセクションでは、具体的な手順を説明します。

✨ 主な機能

ハイブリッドアーキテクチャ：Sambaアーキテクチャを採用し、Mambaとスライディングウィンドウアテンションを組み合わせることで、効率と性能を向上させています。
多言語対応：英語と日本語のデータセットで事前学習されているため、多言語のテキスト生成に対応しています。

📦 インストール

必要なライブラリ

numpy>=1.26.4
numba>=0.60.0
torch>=2.4.1
transformers>=4.44.2
mamba_ssm>=2.2.2
causal_conv1d>=1.4.0

💻 使用例

基本的な使用法

import transformers
pipeline = transformers.pipeline("text-generation", model="pfnet/plamo-2-1b", trust_remote_code=True)
print(pipeline("The future of artificial intelligence technology is ", max_new_tokens=32))

高度な使用法

from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("pfnet/plamo-2-1b", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("pfnet/plamo-2-1b", trust_remote_code=True)
text = "これからの人工知能技術は"
input_ids = tokenizer(text, return_tensors="pt").input_ids
generated_tokens = model.generate(
    inputs=input_ids,
    max_new_tokens=32,
    do_sample=True,
    top_k=50,
    top_p=0.95,
    temperature=1.0,
)[0]
generated_text = tokenizer.decode(generated_tokens)
print(generated_text)

📚 ドキュメント

モデルの詳細

属性	详情
モデルサイズ	10億パラメータ
学習データ	4兆トークン
開発元	Preferred Elements, Inc.
モデルタイプ	因果的デコーダ専用
言語	英語、日本語
ライセンス	Apache License version 2.0

学習データセット

PLaMo 2 1Bは、2段階で学習されています。第1段階では3.5兆トークン、第2段階では0.5兆トークンを使用しています。各段階におけるデータセットの割合は以下の通りです。

	3.5T (第1段階)	0.5T (第2段階)	トークン数
英語	45 %	35 %	1.75 T
日本語	30 %	40 %	1.25 T
コーディング	15 %	15 %	0.6 T
その他	10 %	10 %	0.4 T

トークナイザー

PLaMo 2 1Bのトークナイザーは、数値関数のJITコンパイラであるnumbaによって最適化されています。トークナイザーは、モデルの事前学習に使用されるデータセットのサブセットで学習されています。

技術ブログ

(JA) https://tech.preferred.jp/ja/blog/plamo-2/
(JA) https://tech.preferred.jp/ja/blog/plamo-2-tokenizer/

バイアス、リスク、制限事項

PLaMo 2 1Bは新しい技術であり、使用に伴うリスクがあります。これまでのテストは英語と日本語で行われており、すべてのシナリオを網羅しているわけではありません。そのため、他の大規模言語モデルと同様に、PLaMo 2 1Bの出力は事前に予測することができず、場合によっては不正確、偏った、または不快な応答を生成する可能性があります。したがって、PLaMo 2 1Bを使用したアプリケーションを展開する前に、開発者は特定のアプリケーションに合わせた安全性のテストと調整を行う必要があります。