CodeLlama-7B-KStackオープンソースコード生成モデル - 無料でデプロイ可能、Kotlinコード生成に特化した最適化

ホーム

Codellama 7B KStack

JetBrainsによって開発

KStackデータセットで微調整されたCodeLlama-7Bモデル、Kotlinコード生成に最適化

大規模言語モデル

Transformers

その他オープンソースライセンス:Apache-2.0 #Kotlinコード生成 #KStack微調整 #FIMサポート

ダウンロード数 41

リリース時間 : 5/13/2024

モデル概要

このモデルはCodeLlama-7Bアーキテクチャをベースに、最大規模の寛容なライセンスKotlinコードコレクションKStackで微調整されたコード生成モデルで、特にKotlinプログラミングタスクの処理に優れています。

モデル特徴

Kotlinコード最適化

KStackデータセットによる微調整で、Kotlinコード生成能力を特別に最適化

データ品質フィルタリング

厳格なデータフィルタリングルールを適用し、トレーニングデータの高品質を確保

FIMサポート

中間コードの埋め込み(FIM)機能をサポートし、コード補完を容易にする

モデル能力

Kotlinコード生成

コード補完

関数実装

コード埋め込み

使用事例

プログラミング支援

関数実装

関数シグネチャとコメントに基づいてKotlin関数を自動生成

HumanEvalテストで29.19%の通過率を達成

コード補完

IDEでインテリジェントなコード補完を提供

🚀 CodeLlama-7B-KStackモデル

このモデルは、ルールベースのフィルタリングを施したKStackデータセットでファインチューニングされたCodeLlama-7bモデルのリポジトリです。Hugging Face Transformers形式で提供されています。KStackは、許容的なライセンスのKotlinコードの最大のコレクションであり、このモデルはKotlinコードでより良く動作するようにファインチューニングされています。

🚀 クイックスタート

モデルの使用方法

from transformers import AutoModelForCausalLM, AutoTokenizer

# 事前学習済みモデルとトークナイザーをロード
model_name = 'JetBrains/CodeLlama-7B-KStack'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name).to('cuda')

# 入力を作成してエンコード
input_text = """\
This function takes an integer n and returns factorial of a number:
fun factorial(n: Int): Int {\
"""
input_ids = tokenizer.encode(
    input_text, return_tensors='pt'
).to('cuda')

# 生成
output = model.generate(
    input_ids, max_length=60, num_return_sequences=1, 
    pad_token_id=tokenizer.eos_token_id,
)

# 出力をデコード
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)

ベースモデルと同様に、FIMを使用することができます。これを行うには、以下の形式を使用する必要があります。

'<PRE> ' + prefix + ' <SUF> ' + suffix + ' <MID>'

✨ 主な機能

ルールベースのフィルタリングを施したKStackデータセットでファインチューニングされているため、Kotlinコードでの性能が向上しています。
ベースモデルと同様にFIMを使用することができます。

📦 インストール

このモデルを使用するには、transformersライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

# 上記の使用方法のコードを再掲
from transformers import AutoModelForCausalLM, AutoTokenizer

# 事前学習済みモデルとトークナイザーをロード
model_name = 'JetBrains/CodeLlama-7B-KStack'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name).to('cuda')

# 入力を作成してエンコード
input_text = """\
This function takes an integer n and returns factorial of a number:
fun factorial(n: Int): Int {\
"""
input_ids = tokenizer.encode(
    input_text, return_tensors='pt'
).to('cuda')

# 生成
output = model.generate(
    input_ids, max_length=60, num_return_sequences=1, 
    pad_token_id=tokenizer.eos_token_id,
)

# 出力をデコード
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)

高度な使用法

FIMを使用する場合の例です。

# FIMを使用するための入力形式
prefix = "This is a prefix"
suffix = "This is a suffix"
input_text = '<PRE> ' + prefix + ' <SUF> ' + suffix + ' <MID>'
input_ids = tokenizer.encode(
    input_text, return_tensors='pt'
).to('cuda')

# 生成
output = model.generate(
    input_ids, max_length=60, num_return_sequences=1, 
    pad_token_id=tokenizer.eos_token_id,
)

# 出力をデコード
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)

🔧 技術詳細

トレーニングの設定

このモデルは、1台のA100 GPUで以下のハイパーパラメータを使用してトレーニングされました。

ハイパーパラメータ	値
`warmup`	5%
`max_lr`	1e-6
`num_epochs`	1
`attention_dropout`	0.1
`scheduler`	cosine
`total_batch_size`	128 (~65Kトークン/ステップ)
`num_epochs`	1

ファインチューニングの詳細については、技術レポート（近日公開！）で確認できます。

ファインチューニングデータ

モデルのチューニングには、KStackデータセットを使用しました。これは、許容的なライセンスのKotlinコードの最大のコレクションです。データセットの品質を向上させ、宿題の課題などの外れ値を除外するために、以下のルールに従ってデータセットのエントリをフィルタリングしました。

低人気のリポジトリ（スターとフォークの合計が6未満）に属するファイルを除外します。
次に、Kotlinファイルが5つ未満のリポジトリに属するファイルを除外します。
最後に、20 SLOC未満のファイルを削除します。

残りのデータセットエントリの内容は、以下のルールに従ってクリーニングしました。

すべての非ASCIIエントリを削除します。
すべてのパッケージ行（package kotlinx.coroutines.channels など）を削除します。
インポート行の半分を削除します。

インポートの半分を削除したのは、モデルが不必要なライブラリをインポートしようとする潜在的な幻覚を回避するためです。また、パッケージを削除したのは、この情報はプロジェクトレベルでのみ有用であり、学習プロセス中に追加のノイズを引き起こす可能性があるためです。

評価

評価には、Kotlin HumanEvalデータセットを使用しました。このデータセットには、HumanEvalのすべての161のタスクが人間の専門家によってKotlinに翻訳されています。結果を得るために必要な前処理の詳細（実行コードを含む）は、データセットのページで確認できます。

以下は、評価結果です。

モデル名	Kotlin HumanEval合格率
`CodeLlama-7B`	26.09
`CodeLlama-7B-KStack`	29.19

📄 ライセンス

このモデルは、Apache-2.0ライセンスの下で提供されています。

❗ 注意事項

CodeLlama-7B-KStackは新しい技術であり、使用にはリスクが伴います。これまでに行われたテストは、すべてのシナリオをカバーしていない、またはカバーすることができない可能性があります。これらの理由から、すべてのLLMと同様に、CodeLlama-7B-KStackの潜在的な出力を事前に予測することはできず、モデルは場合によっては、ユーザーのプロンプトに対して不正確または不快な応答を生成する可能性があります。モデルは特定のデータ形式（Kotlinタスク）でファインチューニングされており、この形式からの逸脱も、ユーザーのクエリに対して不正確または望ましくない応答を引き起こす可能性があります。したがって、CodeLlama-7B-KStackのアプリケーションをデプロイする前に、開発者はモデルの特定のアプリケーションに合わせた安全テストとチューニングを行う必要があります。