PowerLM-3bオープンソース小規模言語モデル - 無料で自然言語多肢選択、コード生成、数学推論をサポート

ホーム

Powerlm 3b

ibm-researchによって開発

PowerLM-3Bは30億のパラメータを持つ小型言語モデルで、Power学習率スケジューラを用いて訓練され、自然言語の多肢選択、コード生成、数学的推論などの複数のベンチマークテストで優れた性能を発揮します。

大規模言語モデル

Transformers

オープンソースライセンス:Apache-2.0 #効率的なテキスト生成 #コード生成の最適化 #数学的推論の強化

ダウンロード数 11.07k

リリース時間 : 8/14/2024

モデル概要

PowerLM-3Bは、オープンソースと独自のデータセットを混合して訓練された先進的な小型言語モデルで、テキスト生成、コード生成、数学的推論などのタスクに適しています。

モデル特徴

効率的な訓練

Power学習率スケジューラを用いて訓練し、訓練効率を最適化します。

多タスクでの優れた性能

自然言語の多肢選択、コード生成、数学的推論などの複数のベンチマークテストで、同規模のモデルよりも優れた性能を発揮します。

小型で効率的

30億のパラメータを持つコンパクトな設計で、リソースが限られた環境でのデプロイに適しています。

モデル能力

テキスト生成

コード生成

数学的推論

自然言語理解

使用事例

プログラミング支援

コード生成

自然言語の説明に基づいてコード断片を生成します。

HumanEvalベンチマークテストでpass@1が26.8%に達します。

コード補完

開発者がコードを書くのを支援します。

MBPPベンチマークテストでpass@1が33.6%に達します。

教育

数学問題の解答

数学的推論問題を解きます。

GSM8kベンチマークテストで正解率が34.9%に達します。

知識問答

様々な知識に関する質問に答えます。

MMLUベンチマークテストで正解率が49.2%に達します。

🚀 ibm/PowerLM-3b

PowerLM-3Bは、Power学習率スケジューラを用いて学習された30億パラメータの最先端の小型言語モデルです。オープンソースと独自のデータセットを組み合わせて学習されており、自然言語の多肢選択問題、コード生成、数学的推論など、様々なベンチマークで他の同規模のモデルと比較して有望な結果を示しています。

🚀 クイックスタート

PowerLM-3Bは、Power学習率スケジューラを用いて学習された小型言語モデルです。オープンソースと独自のデータセットを組み合わせて学習され、様々なベンチマークで良好な性能を発揮します。

✨ 主な機能

Power学習率スケジューラを用いた学習
オープンソースと独自のデータセットを組み合わせた学習
自然言語の多肢選択問題、コード生成、数学的推論などのタスクで良好な性能

📦 インストール

⚠️ 重要提示

ソースからHF transformersをインストールする必要があります。

💻 使用例

基本的な使用法

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # or "cpu"
model_path = "ibm/PowerLM-3b"
tokenizer = AutoTokenizer.from_pretrained(model_path)
# drop device_map if running on CPU
model = AutoModelForCausalLM.from_pretrained(model_path, device_map=device)
model.eval()
# change input text as desired
prompt = "Write a code to find the maximum value in a list of numbers."
# tokenize the text
input_tokens = tokenizer(prompt, return_tensors="pt")
# transfer tokenized inputs to the device
for i in input_tokens:
    input_tokens[i] = input_tokens[i].to(device)
# generate output tokens
output = model.generate(**input_tokens, max_new_tokens=100)
# decode output tokens into text
output = tokenizer.batch_decode(output)
# loop over the batch to print, in this example the batch size is 1
for i in output:
    print(i)