Granite-3b-code-instruct-2kオープンソースコードモデル - 無料でのデプロイでコード生成と論理推論を支援

ホーム

Granite 3b Code Instruct 2k

ibm-graniteによって開発

Granite-3B-Code-Instruct-2KはGranite-3B-Code-Base-2Kを微調整した30億パラメータのモデルで、命令追従能力が強化されており、特にコード生成と論理的推論タスクに優れています。

大規模言語モデル

Transformers

その他オープンソースライセンス:Apache-2.0 #多言語コード生成 #命令微調整最適化 #数学的推論強化

ダウンロード数 1,883

リリース時間 : 4/26/2024

モデル概要

このモデルはコーディング関連の命令に応答するように設計されており、プログラミングアシスタントの構築に使用でき、複数のプログラミング言語のコード生成、説明、修正をサポートします。

モデル特徴

多言語コードサポート

複数のプログラミング言語のコード生成、説明、修正タスクをサポート

命令微調整

高品質な命令データセットによりモデルの命令追従能力を強化

論理的推論能力

数学的データセットと組み合わせたトレーニングにより、強力な論理的推論と問題解決能力を備えています

モデル能力

コード生成

コード説明

コード修正

論理的推論

問題解決

使用事例

プログラミング支援

コード生成

自然言語の記述に基づいて複数のプログラミング言語のコードを生成

HumanEvalSynthesisテストでは、Pythonコード生成pass@1が51.2%を達成

コード説明

与えられたコードの機能と論理を説明

HumanEvalExplainテストでは、Pythonコード説明pass@1が39.6%を達成

コード修正

コード内のエラーを識別して修正

HumanEvalFixテストでは、Javaコード修正pass@1が33.5%を達成

🚀 Granite-3B-Code-Instruct-2K

Granite-3B-Code-Instruct-2K は、Granite-3B-Code-Base-2K から微調整された30億パラメータのモデルです。許容可能なライセンスの命令データを組み合わせて学習し、論理的な推論や問題解決能力を含む命令追従能力を強化しています。

image/png

🚀 クイックスタート

このモデルはコーディング関連の命令に応答するように設計されており、コーディングアシスタントを構築するために使用できます。

✨ 主な機能

コーディング関連の命令に応答し、コーディングアシスタントの構築に利用可能。
論理的な推論や問題解決能力を含む命令追従能力が強化されている。

📦 インストール

インストールに関する具体的な手順は提供されていません。

💻 使用例

基本的な使用法

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # or "cpu"
model_path = "ibm-granite/granite-3b-code-instruct-2k"
tokenizer = AutoTokenizer.from_pretrained(model_path)
# drop device_map if running on CPU
model = AutoModelForCausalLM.from_pretrained(model_path, device_map=device)
model.eval()
# change input text as desired
chat = [
    { "role": "user", "content": "Write a code to find the maximum value in a list of numbers." },
]
chat = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
# tokenize the text
input_tokens = tokenizer(chat, return_tensors="pt")
# transfer tokenized inputs to the device
for i in input_tokens:
    input_tokens[i] = input_tokens[i].to(device)
# generate output tokens
output = model.generate(**input_tokens, max_new_tokens=100)
# decode output tokens into text
output = tokenizer.batch_decode(output)
# loop over the batch to print, in this example the batch size is 1
for i in output:
    print(i)

📚 ドキュメント

モデル概要

プロパティ	詳細
モデルタイプ	30億パラメータのモデルで、Granite-3B-Code-Base-2K から微調整されたもの
開発者	IBM Research
GitHubリポジトリ	ibm-granite/granite-code-models
論文	Granite Code Models: A Family of Open Foundation Models for Code Intelligence
リリース日	2024年5月6日
ライセンス	Apache 2.0

学習データ

Granite Code Instructモデルは以下の種類のデータで学習されています。

コードコミットデータセット：CommitPackFT データセットからコードコミットデータを取得しています。これはFull CommitPackデータセットのフィルタリングされたバージョンです。CommitPackFTデータセットからは、92のプログラミング言語のデータのみを考慮しています。選択基準は、CommitPackFTとコードベースモデル (Granite-3B-Code-Base) の事前学習に使用した116の言語の両方に共通するプログラミング言語を選択することです。
数学データセット：MathInstruct と MetaMathQA という2つの高品質の数学データセットを考慮しています。ライセンスの問題から、MathInstructデータセットからGSM8K-RFTとCamel-Mathを除外しています。
コード命令データセット：Glaive-Code-Assistant-v3、Glaive-Function-Calling-v2、NL2SQL11 および合成API呼び出しデータセットの小規模なコレクションを使用しています。
言語命令データセット：HelpSteer などの高品質のデータセットと、Platypus のオープンライセンスでフィルタリングされたバージョンを含めています。また、モデルの名前や開発者に関する問い合わせに対して正しい出力を生成するために、ハードコードされたプロンプトのコレクションも含めています。

インフラストラクチャ

Granite Codeモデルは、IBMの2つのスーパーコンピューティングクラスターであるVelaとBlue Velaを使用して学習されています。どちらもそれぞれNVIDIA A100とH100 GPUを備えています。これらのクラスターは、数千のGPUでモデルを学習するための拡張可能で効率的なインフラストラクチャを提供します。

倫理的な考慮事項と制限

Graniteコード命令モデルは、主に特定のプログラミング言語の命令応答ペアを使用して微調整されています。したがって、ドメイン外のプログラミング言語では性能が制限される可能性があります。このような場合、少数の例を提供すると、モデルの出力を導くのに役立ちます。さらに、開発者は、これらのモデルを重要なアプリケーションにデプロイする前に、安全性テストとターゲット固有の調整を行う必要があります。このモデルはまた、ベースモデルからの倫理的な考慮事項と制限も引き継いでいます。詳細については、Granite-3B-Code-Base-2K モデルカードを参照してください。