🚀 PLaMo 2 8B
PLaMo 2 8Bは、Preferred Elements, Inc.によって開発された、英語と日本語のデータセットで事前学習された80億パラメータのモデルです。このモデルは、Transformerアーキテクチャではなく、Sambaのようなハイブリッドアーキテクチャを採用しており、効率と性能を向上させています。
🚀 クイックスタート
PLaMo 2 8Bを使用する前に、PLaMoコミュニティライセンスに同意する必要があります。以下のライセンスを確認し、ダウンロード前に同意してください。
- (EN) 準備中: ご不便をおかけして申し訳ありません
- (JA) https://www.preferred.jp/ja/plamo-community-license/
商用ユーザー向け
商用目的で使用する場合は、PLaMoコミュニティライセンスを確認し、以下のフォームからお問い合わせください。
- (EN/JA) https://forms.gle/mTL8tBLrMYXKNZD56
必要条件
numpy>=1.26.4
numba>=0.60.0
torch>=2.4.1
transformers>=4.44.2
mamba_ssm>=2.2.2
causal_conv1d>=1.4.0
パイプラインを使用する
import transformers
pipeline = transformers.pipeline("text-generation", model="pfnet/plamo-2-8b", trust_remote_code=True)
print(pipeline("The future of artificial intelligence technology is ", max_new_tokens=32))
モデルを直接ロードする
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("pfnet/plamo-2-8b", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("pfnet/plamo-2-8b", trust_remote_code=True)
text = "これからの人工知能技術は"
input_ids = tokenizer(text, return_tensors="pt").input_ids
generated_tokens = model.generate(
inputs=input_ids,
max_new_tokens=32,
do_sample=True,
top_k=50,
top_p=0.95,
temperature=1.0,
)[0]
generated_text = tokenizer.decode(generated_tokens)
print(generated_text)
✨ 主な機能
PLaMo 2 8Bは、英語と日本語のデータセットで事前学習された大規模言語モデルです。このモデルは、Sambaのようなハイブリッドアーキテクチャを採用しており、Mambaという選択的な状態空間モデル(SSM)をスライディングウィンドウアテンションと統合しています。これにより、効率と性能が向上しています。
📚 ドキュメント
モデルの詳細
属性 |
详情 |
モデルタイプ |
Causal decoder-only |
学習データ |
英語、日本語、コーディング、その他のデータセット |
モデルサイズ |
8B |
学習トークン数 |
6Tトークン |
開発元 |
Preferred Elements, Inc. |
ライセンス |
PLaMoコミュニティライセンス |
学習データセット
PLaMo 2 8Bは、2段階で学習されています。第1段階では5.25Tトークン、第2段階では0.75Tトークンを使用しています。各段階でのデータセットの割合は以下の通りです。
|
5.25T (第1段階) |
0.75T (第2段階) |
トークン数 |
英語 |
45 % |
35 % |
2.625 T |
日本語 |
30 % |
40 % |
1.875 T |
コーディング |
15 % |
15 % |
0.9 T |
その他 |
10 % |
10 % |
0.6 T |
トークナイザー
PLaMo 2 8Bのトークナイザーは、数値関数用のJITコンパイラであるnumbaによって最適化されています。このトークナイザーは、モデルの事前学習用のデータセットのサブセットで学習されています。
技術ブログ
- (JA) https://tech.preferred.jp/ja/blog/plamo-2/
- (JA) https://tech.preferred.jp/ja/blog/plamo-2-8b/
- (JA) https://tech.preferred.jp/ja/blog/plamo-2-tokenizer/
バイアス、リスク、制限事項
PLaMo 2 8Bは新しい技術であり、使用に伴うリスクがあります。これまでのテストは英語と日本語で行われており、すべてのシナリオを網羅していません。そのため、他の大規模言語モデルと同様に、PLaMo 2 8Bの出力は事前に予測することができず、場合によっては不正確、バイアスがある、または不快な応答を生成する可能性があります。したがって、PLaMo 2 8Bを使用したアプリケーションを展開する前に、開発者はモデルの特定のアプリケーションに合わせた安全性テストとチューニングを行う必要があります。
謝辞
このモデルは、独立行政法人新エネルギー・産業技術総合開発機構(NEDO)の補助事業「次世代情報通信システム強化基盤技術研究開発事業」(JPNP 20017)のもとで学習されています。
Preferred Networks, Inc.グループのAIポリシー
- (EN) https://www.preferred.jp/en/company/aipolicy/
- (JA) https://www.preferred.jp/ja/company/aipolicy/
📄 ライセンス
PLaMo 2 8Bは、PLaMoコミュニティライセンスのもとで公開されています。詳細は以下をご確認ください。
- (EN) 準備中: ご不便をおかけして申し訳ありません
- (JA) https://www.preferred.jp/ja/plamo-community-license/
⚠️ 重要提示
このモデルは、チャットダイアログやその他の下流タスク用に命令調整されていません。
💡 使用建议
商用目的で使用する場合は、PLaMoコミュニティライセンスを確認し、フォームからお問い合わせください。