CodeBERTa-small-v1オープンソースコード理解モデル - 多言語に対応した高効率なコードタスク処理

ホーム

Codeberta Small V1

claudiosによって開発

CodeBERTaはRoBERTaアーキテクチャに基づくコード理解モデルで、複数のプログラミング言語向けに特別に訓練されており、コード関連タスクを効率的に処理できます。

大規模言語モデル

Transformers

その他#コード補完 #多言語コード理解 #マスク言語モデリング

ダウンロード数 16

リリース時間 : 5/28/2024

モデル概要

CodeBERTaはRoBERTaに似たモデルで、GitHubのCodeSearchNetデータセットで訓練され、コード理解と生成タスクに特化しています。

モデル特徴

効率的なコードトークン化

バイトレベルBPEベースのトークナイザーで、コードコーパスに最適化されており、シーケンス長が自然言語トークナイザーより33%-50%短縮

多言語サポート

6つの主要プログラミング言語をサポート：Go、Java、JavaScript、PHP、Python、Ruby

軽量アーキテクチャ

6層Transformer構造、パラメータ規模8400万、DistilBERT相当

モデル能力

コード補完

コード理解

プログラミング言語識別

コードマスク予測

使用事例

コード補助開発

PHPメソッド補完

PHPコード内のメソッド宣言を自動補完

'function'を最も可能性の高い補完結果として正確に予測

Python型ヒント補完

Pythonコード内の型ヒントを自動補完

'framework'など文脈に合った適切な補完を予測

プログラミング教育

コード例生成

特定プログラミング言語のコード例を生成

🚀 CodeBERTa

このプロジェクトは、transformers 4.41.1を使用してSafeTensors形式でhuggingface/CodeBERTa-small-v1を非公式に再アップロードしたものです。再アップロードの目的は、HuggingFaceの変更によってまだ関連するベースラインとなる古いモデルが陳腐化するのを防ぐことです。さらに、モデルの最大長設定などの小幅な修正を含める場合があります。

メタ情報

属性	详情
サムネイル	https://cdn-media.huggingface.co/CodeBERTa/CodeBERTa.png
データセット	code_search_net

オリジナルのモデルカード

CodeBERTaは、GitHubのCodeSearchNetデータセットを使用して学習されたRoBERTaに似たモデルです。

サポートされる言語

"go"
"java"
"javascript"
"php"
"python"
"ruby"

トークナイザー

トークナイザーは、Hugging Faceのtokenizersを使用してコーパス上で学習されたByte-level BPEトークナイザーです。自然言語ではなくコードのコーパスで学習されているため、コーパスを効率的にエンコードします（gpt2/robertaでトークナイズされた同じコーパスと比較して、シーケンスは33％から50％短くなります）。

モデル

（小規模な）モデルは、6層、84MパラメータのRoBERTaに似たTransformerモデルです。これはDistilBERTと同じ層数とヘッド数で、デフォルトの初期化設定から初期化され、完全なコーパス（約200万の関数）で5エポック学習されています。

この学習のTensorboard ⤵️

🚀 クイックスタート

💻 使用例

基本的な使用法

PHP_CODE = """
public static <mask> set(string $key, $value) {
	if (!in_array($key, self::$allowedKeys)) {
		throw new \InvalidArgumentException('Invalid key given');
	}
	self::$storedValues[$key] = $value;
}
""".lstrip()

高度な使用法

# モデルが単純なPHPコードを完成させる方法を知っているか？
from transformers import pipeline

fill_mask = pipeline(
    "fill-mask",
    model="huggingface/CodeBERTa-small-v1",
    tokenizer="huggingface/CodeBERTa-small-v1"
)

fill_mask(PHP_CODE)

## 上位5つの予測:
# 
' function' # prob 0.9999827146530151
'function'  # 
' void'     # 
' def'      # 
' final'    #

PYTHON_CODE = """
def pipeline(
    task: str,
    model: Optional = None,
    framework: Optional[<mask>] = None,
    **kwargs
) -> Pipeline:
	pass
""".lstrip()

結果:

'framework', 'Framework', ' framework', 'None', 'str'

このプログラムは自分自身を自動完成できます！ 😱

# 楽しみのために、自然言語（コードではない）をマスクしてみましょう。
fill_mask("My name is <mask>.")

# {'sequence': '<s> My name is undefined.</s>', 'score': 0.2548016905784607, 'token': 3353}
# {'sequence': '<s> My name is required.</s>', 'score': 0.07290805131196976, 'token': 2371}
# {'sequence': '<s> My name is null.</s>', 'score': 0.06323737651109695, 'token': 469}
# {'sequence': '<s> My name is name.</s>', 'score': 0.021919190883636475, 'token': 652}
# {'sequence': '<s> My name is disabled.</s>', 'score': 0.019681859761476517, 'token': 7434}

これは（ある程度）機能します。なぜなら、コードには自然言語を含むコメントが含まれているからです。もちろん、コンピュータサイエンティストの最も頻繁な名前はundefinedでなければなりません 🤓。

📚 詳細ドキュメント

下流タスク: プログラミング言語識別

huggingface/CodeBERTa-language-id のモデルカードを参照してください 🤯。

CodeSearchNet引用

@article{husain_codesearchnet_2019,
	title = {{CodeSearchNet} {Challenge}: {Evaluating} the {State} of {Semantic} {Code} {Search}},
	shorttitle = {{CodeSearchNet} {Challenge}},
	url = {http://arxiv.org/abs/1909.09436},
	urldate = {2020-03-12},
	journal = {arXiv:1909.09436 [cs, stat]},
	author = {Husain, Hamel and Wu, Ho-Hsiang and Gazit, Tiferet and Allamanis, Miltiadis and Brockschmidt, Marc},
	month = sep,
	year = {2019},
	note = {arXiv: 1909.09436},
}