Codestral-22B-v0.1無料オープンソースコード生成モデル - 80種類以上の言語のコード生成、解釈、リファクタリングに対応

ホーム

Codestral 22B V0.1 Imat GGUF

qwp4w3hybによって開発

Codestral-22B-v0.1はMistral AIが開発した大規模なコード生成モデルで、80以上のプログラミング言語をサポートし、コード生成、説明、リファクタリングタスクに適しています。

大規模言語モデルその他オープンソースライセンス:その他 #多言語コード生成 #中間予測の埋め込み #プログラミングアシスタント

ダウンロード数 362

リリース時間 : 5/30/2024

モデル概要

このモデルは多様なプログラミング言語データセットでトレーニングされており、ガイドモデルまたは中間埋め込みモデルとして使用でき、特にコード生成と説明タスクに適しています。

モデル特徴

多言語コードサポート

Python、Java、C/C++、JavaScriptなどの主流言語を含む80以上のプログラミング言語をサポート

デュアルモードアプリケーション

ガイドモデル（Q&A/生成）または中間埋め込みモデル（FIM）として使用可能

最適化量子化

精度損失を減らすため重要度マトリックスを使用した量子化を採用し、Q_8_0からIQ1_Sまでの多様な量子化タイプを提供

モデル能力

コード生成

コード説明

コードリファクタリング

中間コード予測の埋め込み

多言語コードサポート

使用事例

開発支援

コード生成

自然言語の記述に基づいてコードスニペットを生成

例：Rustのフィボナッチ数列関数の生成に成功

コード補完

IDEでコードスニペットを自動補完

例：Python関数の中間部分を正確に補完

教育

コード説明

複雑なコードスニペットの機能を説明

🚀 Codestral-22B-v0.1-hf-iMat-GGUF-iMat-GGUF

Codestral-22B-v0.1-hf-iMat-GGUF-iMat-GGUFは、多様なプログラミング言語に対応したコード生成モデルです。重要度行列を用いた量子化により、高精度なコード生成が可能です。

🚀 クイックスタート

Codestral-22B-v0.1を使用するには、まずモデルをダウンロードし、必要なライブラリをインストールする必要があります。以下の手順に従って操作してください。

✨ 主な機能

80種類以上のプログラミング言語に対応
重要度行列を用いた量子化により、高精度なコード生成
InstructモードとFill in the Middle (FIM)モードのサポート

📦 インストール

mistralai/Codestral-22B-v0.1を使用するには、mistral-inferenceをインストールすることをおすすめします。

pip install mistral_inference

モデルのダウンロード

from huggingface_hub import snapshot_download
from pathlib import Path

mistral_models_path = Path.home().joinpath('mistral_models', 'Codestral-22B-v0.1')
mistral_models_path.mkdir(parents=True, exist_ok=True)

snapshot_download(repo_id="mistralai/Codestral-22B-v0.1", allow_patterns=["params.json", "consolidated.safetensors", "tokenizer.model.v3"], local_dir=mistral_models_path)

💻 使用例

基本的な使用法

Chatモード

mistral_inferenceをインストールした後、mistral-chat CLIコマンドを使用してモデルを起動できます。

mistral-chat $HOME/mistral_models/Codestral-22B-v0.1 --instruct --max_tokens 256

以下のような質問に対して回答を生成します。

Sure, here's a simple implementation of a function that computes the Fibonacci sequence in Rust. This function takes an integer `n` as an argument and returns the `n`th Fibonacci number.

fn fibonacci(n: u32) -> u32 {
    match n {
        0 => 0,
        1 => 1,
        _ => fibonacci(n - 1) + fibonacci(n - 2),
    }
}

fn main() {
    let n = 10;
    println!("The {}th Fibonacci number is: {}", n, fibonacci(n));
}

This function uses recursion to calculate the Fibonacci number. However, it's not the most efficient solution because it performs a lot of redundant calculations. A more efficient solution would use a loop to iteratively calculate the Fibonacci numbers.

Fill-in-the-middle (FIM)モード

mistral_inferenceをインストールし、pip install --upgrade mistral_commonを実行してmistral_common>=1.2をインストールします。

from mistral_inference.model import Transformer
from mistral_inference.generate import generate
from mistral_common.tokens.tokenizers.mistral import MistralTokenizer
from mistral_common.tokens.instruct.request import FIMRequest

tokenizer = MistralTokenizer.v3()
model = Transformer.from_folder("~/codestral-22B-240529")

prefix = """def add("""
suffix = """    return sum"""

request = FIMRequest(prompt=prefix, suffix=suffix)

tokens = tokenizer.encode_fim(request).tokens

out_tokens, _ = generate([tokens], model, max_tokens=256, temperature=0.0, eos_id=tokenizer.instruct_tokenizer.tokenizer.eos_id)
result = tokenizer.decode(out_tokens[0])

middle = result.split(suffix)[0].strip()
print(middle)

以下のような結果が得られます。

num1, num2):

    # Add two numbers
    sum = num1 + num2

    # return the sum

📚 ドキュメント

量子化情報

初期バージョンでバグがあったトークナイザの修正が含まれています。
量子化損失を改善するために重要度行列を使用して量子化が行われています。
"最適な"精度損失のために、bf16からggufsとimatrixが生成されています。
Q_8_0からIQ1_Sまでの様々なgguf量子化タイプが幅広くカバーされています。
llama.cpp コミット 5921b8f089d3b7bda86aac5a66825df6a6c10603 (2024-05-30時点のマスター) で量子化されています。
Imatrixは bartowski によるこの汎用データセットを使用して生成されています。
```
./imatrix -c 512 -m $model_name-bf16.gguf -f calibration_datav3.txt -o $model_name.imatrix
```

元のモデルカード

Codestral-22B-v0.1のモデルカード

Codestrall-22B-v0.1は、Python、Java、C、C++、JavaScript、Bashなどの人気のある80以上のプログラミング言語の多様なデータセットで学習されています (ブログ記事で詳細を参照)。このモデルは以下のようにクエリを投げることができます。

インストラクションとして、コードスニペットに関する質問に回答したり (ドキュメントの作成、説明、因数分解など)、特定の指示に従ってコードを生成したりすることができます。
Fill in the Middle (FIM) として、接頭辞と接尾辞の間の中間トークンを予測することができます (VS Codeなどのソフトウェア開発アドオンに非常に役立ちます)。

制限事項

Codestral-22B-v0.1にはモデレーションメカニズムがありません。モデルがガードレールをきめ細かく尊重し、モデレートされた出力が必要な環境でのデプロイを可能にする方法について、コミュニティと協力したいと考えています。

📄 ライセンス

Codestral-22B-v0.1は MNLP-0.1 ライセンスの下でリリースされています。

ミストラルAIチーム

Albert Jiang, Alexandre Sablayrolles, Alexis Tacnet, Antoine Roux, Arthur Mensch, Audrey Herblin-Stoop, Baptiste Bout, Baudouin de Monicault, Blanche Savary, Bam4d, Caroline Feldman, Devendra Singh Chaplot, Diego de las Casas, Eleonore Arcelin, Emma Bou Hanna, Etienne Metzger, Gianna Lengyel, Guillaume Bour, Guillaume Lample, Harizo Rajaona, Henri Roussez, Jean-Malo Delignon, Jia Li, Justus Murke, Kartik Khandelwal, Lawrence Stewart, Louis Martin, Louis Ternon, Lucile Saulnier, Lélio Renard Lavaud, Margaret Jennings, Marie Pellat, Marie Torelli, Marie-Anne Lachaux, Marjorie Janiewicz, Mickael Seznec, Nicolas Schuhl, Patrick von Platen, Romain Sauvestre, Pierre Stock, Sandeep Subramanian, Saurabh Garg, Sophia Yang, Szymon Antoniak, Teven Le Scao, Thibaut Lavril, Thibault Schueller, Timothée Lacroix, Théophile Gervet, Thomas Wang, Valera Nemychnikova, Wendy Shang, William El Sayed, William Marshall