Codestral-22B-v0.1-hf開源代碼處理模型 - 支持80多語言代碼生成、解釋與重構

首頁

Codestral 22B V0.1 Hf

由bullerwins開發

Codestral-22B-v0.1是由Mistral AI開發的大型語言模型，支持80多種編程語言，能夠執行代碼生成、解釋和重構等任務。

大型語言模型

Transformers

其他開源協議:其他 #多編程語言支持 #代碼填充生成 #指令式代碼解釋

下載量 252

發布時間 : 5/29/2024

模型概述

Codestral-22B-v0.1是一個多功能編程語言模型，支持指令式查詢和中間填充（FIM）功能，適用於代碼生成、文檔編寫、代碼解釋和重構等多種編程相關任務。

模型特點

多語言支持

支持80多種編程語言，涵蓋主流和新興編程語言。

指令式查詢

可以通過自然語言指令進行查詢，適用於代碼生成、解釋和重構等任務。

中間填充（FIM）

支持預測前綴和後綴之間的中間標記，適用於代碼補全和軟件開發插件。

模型能力

代碼生成

代碼解釋

代碼重構

文檔編寫

代碼補全

使用案例

軟件開發

代碼生成

根據自然語言指令生成特定功能的代碼片段。

例如生成Rust函數計算斐波那契數列。

代碼補全

在代碼編輯器中提供智能補全功能。

例如填充函數定義的中間部分。

代碼維護

代碼重構

根據指令優化或重構現有代碼。

代碼解釋

解釋複雜代碼片段的功能和邏輯。

🚀 Codestral-22B-v0.1模型卡片

Codestrall-22B-v0.1在包含80多種編程語言的多樣化數據集上進行訓練，涵蓋了Python、Java、C、C++、JavaScript和Bash等最流行的語言（更多詳細信息請參閱博客文章）。該模型可以通過以下方式進行查詢：

指令式查詢，例如回答關於代碼片段的任何問題（編寫文檔、解釋代碼、代碼重構）或根據特定指示生成代碼。
中間填充（FIM），用於預測前綴和後綴之間的中間標記（這對於VS Code等軟件開發插件非常有用）。

🚀 快速開始

2024年5月31日更新：修復了原模型更新後的分詞器問題：https://huggingface.co/mistralai/Codestral-22B-v0.1/discussions/10

使用此腳本進行轉換。

✨ 主要特性

支持80多種編程語言，能處理多種編程相關任務。
提供指令式查詢和中間填充（FIM）兩種查詢方式。

📦 安裝指南

建議將mistralai/Codestral-22B-v0.1與mistral-inference一起使用。

pip install mistral_inference

下載模型

from huggingface_hub import snapshot_download
from pathlib import Path

mistral_models_path = Path.home().joinpath('mistral_models', 'Codestral-22B-v0.1')
mistral_models_path.mkdir(parents=True, exist_ok=True)

snapshot_download(repo_id="mistralai/Codestral-22B-v0.1", allow_patterns=["params.json", "consolidated.safetensors", "tokenizer.model.v3"], local_dir=mistral_models_path)

💻 使用示例

基礎用法

聊天功能

安裝mistral_inference後，環境中會有mistral-chat命令行工具。

mistral-chat $HOME/mistral_models/Codestral-22B-v0.1 --instruct --max_tokens 256

該命令會對“用Rust編寫一個計算斐波那契數列的函數”這一問題生成答案，可能如下：

Sure, here's a simple implementation of a function that computes the Fibonacci sequence in Rust. This function takes an integer `n` as an argument and returns the `n`th Fibonacci number.

fn fibonacci(n: u32) -> u32 {
    match n {
        0 => 0,
        1 => 1,
        _ => fibonacci(n - 1) + fibonacci(n - 2),
    }
}

fn main() {
    let n = 10;
    println!("The {}th Fibonacci number is: {}", n, fibonacci(n));
}

This function uses recursion to calculate the Fibonacci number. However, it's not the most efficient solution because it performs a lot of redundant calculations. A more efficient solution would use a loop to iteratively calculate the Fibonacci numbers.

中間填充（FIM）功能

安裝mistral_inference並運行pip install --upgrade mistral_common以確保安裝了mistral_common>=1.2：

from mistral_inference.model import Transformer
from mistral_inference.generate import generate
from mistral_common.tokens.tokenizers.mistral import MistralTokenizer
from mistral_common.tokens.instruct.request import FIMRequest

tokenizer = MistralTokenizer.v3()
model = Transformer.from_folder("~/codestral-22B-240529")

prefix = """def add("""
suffix = """    return sum"""

request = FIMRequest(prompt=prefix, suffix=suffix)

tokens = tokenizer.encode_fim(request).tokens

out_tokens, _ = generate([tokens], model, max_tokens=256, temperature=0.0, eos_id=tokenizer.instruct_tokenizer.tokenizer.eos_id)
result = tokenizer.decode(out_tokens[0])

middle = result.split(suffix)[0].strip()
print(middle)

該代碼可能會輸出如下內容：

num1, num2):

    # Add two numbers
    sum = num1 + num2

    # return the sum

📚 詳細文檔

侷限性

Codestral-22B-v0.1沒有任何審核機制。我們期待與社區共同探討如何讓模型更好地遵守規則，以便在需要審核輸出的環境中進行部署。

📄 許可證

Codestral-22B-v0.1採用MNLP-0.1許可證發佈。

🔧 技術細節

該模型由Mistral AI團隊開發，團隊成員包括Albert Jiang、Alexandre Sablayrolles、Alexis Tacnet等眾多人員。模型在80多種編程語言的多樣化數據集上進行訓練，可通過指令式和中間填充（FIM）兩種方式進行查詢。

信息表格

屬性	詳情
模型類型	Codestral-22B-v0.1
訓練數據	80多種編程語言的多樣化數據集
許可證	MNLP-0.1

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫