deepseek-coder-1.3B-kexerオープンソーステキストモデル - 無料でデプロイ可能、Kotlinコード生成に特化

ホーム

Deepseek Coder 1.3B Kexer

JetBrainsによって開発

Deepseek-coder-1.3Bをベースに微調整されたオープンソースの生成型テキストモデルで、Kotlinコード生成タスクに特化しています。

大規模言語モデル

Transformers

その他オープンソースライセンス:Apache-2.0 #Kotlinコード生成 #微調整最適化 #関数補完

ダウンロード数 1,937

リリース時間 : 5/13/2024

モデル概要

このモデルは、Kotlin Exercicesデータセットで微調整された生成型テキストモデルで、主にKotlinコードの生成と補完タスクに使用されます。

モデル特徴

Kotlinコード最適化

Kotlinプログラミング言語に特化して最適化と微調整が行われています。

FIMサポート

中間埋め込み(FIM)タスクをサポートし、不完全なコード断片を処理できます。

性能向上

ベースモデルに比べて、Kotlin HumanEvalでの合格率が約10%向上しています。

モデル能力

Kotlinコード生成

コード補完

関数実装

コード断片の埋め込み

使用事例

ソフトウェア開発

Kotlin関数実装

関数シグネチャに基づいて自動的にKotlin関数の実装を生成します。

Kotlin HumanEvalで36.65%の合格率を達成しました。

コード補完

部分的なコードのコンテキストに基づいて自動的に完全なコードを補完します。

🚀 Kexerモデル

Kexerモデルは、一連のオープンソースの生成型テキストモデルです。これらのモデルは、Kotlin Exercicesデータセットで微調整されています。このリポジトリには、微調整後のDeepseek-coder-1.3bモデルがHugging Face Transformers形式で格納されています。

🚀 クイックスタート

Kexerモデルは、テキスト生成タスクに使用できます。以下に使用例を示します。

💻 使用例

基本的な使用法

from transformers import AutoModelForCausalLM, AutoTokenizer

# Load pre-trained model and tokenizer
model_name = 'JetBrains/deepseek-coder-1.3B-kexer'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name).to('cuda')

# Create and encode input
input_text = """\
This function takes an integer n and returns factorial of a number:
fun factorial(n: Int): Int {\
"""
input_ids = tokenizer.encode(
    input_text, return_tensors='pt'
).to('cuda')

# Generate
output = model.generate(
    input_ids, max_length=60, num_return_sequences=1, 
    early_stopping=True, pad_token_id=tokenizer.eos_token_id,
)

# Decode output
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)

高度な使用法

基本モデルと同様に、FIMを使用することができます。これを実現するには、以下の形式を使用する必要があります。

'<｜fim▁begin｜>' + prefix + '<｜fim▁hole｜>' + suffix + '<｜fim▁end｜>'

📚 ドキュメント

学習設定

このモデルは、1台のA100 GPUで学習され、以下のハイパーパラメータが使用されました。

属性	詳細
モデルタイプ	Deepseek-coder-1.3Bをベースに微調整されたモデル
学習データ	Kotlin Exercices データセット

ハイパーパラメータ	値
`warmup`	10%
`max_lr`	1e - 4
`scheduler`	linear
`total_batch_size`	256（1ステップあたり約130Kトークン）
`num_epochs`	4

微調整に関する詳細な情報は、技術レポート（近日公開予定！）で確認できます。

微調整データ

このモデルを微調整するために、合成生成されたKotlin Exercicesデータセットの15K個のサンプルが使用されました。各サンプルはHumanEval形式に従っています。このデータセットには、合計で約350万トークンが含まれています。

評価

評価には、Kotlin HumanEvalデータセットが使用されました。このデータセットには、HumanEvalのすべての161個のタスクが人間の専門家によってKotlinに翻訳されています。評価結果を得るために必要な前処理の詳細（実行コードを含む）は、データセットページで確認できます。

以下は評価結果です。

モデル名	Kotlin HumanEval合格率
`Deepseek-coder-1.3B`	26.71
`Deepseek-coder-1.3B-Kexer`	36.65

倫理的な考慮事項と制限事項

Deepseek-coder-1.3B-Kexerは新しい技術であり、使用にはリスクが伴います。これまでに行われたテストは、すべてのシナリオを網羅していないし、網羅することも不可能です。したがって、他の大規模言語モデルと同様に、Deepseek-coder-1.3B-Kexerの潜在的な出力は事前に予測できません。場合によっては、このモデルはユーザーの入力に対して不正確または不快な応答を返す可能性があります。このモデルは特定のデータ形式（Kotlinタスク）で微調整されているため、この形式から逸脱すると、ユーザーのクエリに対する応答が不正確または望ましくないものになる可能性があります。したがって、Deepseek-coder-1.3B-Kexerを使用するアプリケーションをデプロイする前に、開発者は具体的なアプリケーションに合わせてモデルの安全性をテストし、調整する必要があります。