🚀 Kodify-Nano-GGUF 🤖
Kodify-Nano-GGUF 是 MTSAIR/Kodify-Nano 模型的 GGUF 版本,針對使用 Ollama/llama.cpp 進行 CPU/GPU 推理進行了優化。這是一款輕量級的大語言模型(LLM),可在資源需求極低的情況下完成代碼開發任務。
🚀 快速開始
使用鏡像
你可以通過兩種方式在 OLLAMA 上運行 Kodify Nano:
- 使用 Docker
- 本地運行(比 Docker 響應更快)
方法一:在 Docker 中的 OLLAMA 上運行 Kodify Nano
無 NVIDIA GPU 的情況:
docker run -e OLLAMA_HOST=0.0.0.0:8985 -p 8985:8985 --name ollama -d ollama/ollama
有 NVIDIA GPU 的情況:
docker run --runtime nvidia -e OLLAMA_HOST=0.0.0.0:8985 -p 8985:8985 --name ollama -d ollama/ollama
⚠️ 重要提示
- 確保已安裝並運行 Docker。
- 如果端口 8985 已被佔用,請將其替換為任何可用端口,並更新插件配置。
加載模型:
docker exec ollama ollama pull hf.co/MTSAIR/Kodify-Nano-GGUF
重命名模型:
docker exec ollama ollama cp hf.co/MTSAIR/Kodify-Nano-GGUF kodify_nano
啟動模型:
docker exec ollama ollama run kodify_nano
方法二:在 OLLAMA 上本地運行 Kodify Nano
- 下載 OLLAMA:
https://ollama.com/download
- 設置端口:
export OLLAMA_HOST=0.0.0.0:8985
⚠️ 重要提示
如果端口 8985 已被佔用,請替換該端口並更新插件配置。
- 啟動 OLLAMA 服務器:
ollama serve &
- 下載模型:
ollama pull hf.co/MTSAIR/Kodify-Nano-GGUF
- 重命名模型:
ollama cp hf.co/MTSAIR/Kodify-Nano-GGUF kodify_nano
- 運行模型:
ollama run kodify_nano
📦 安裝指南
Visual Studio Code 插件安裝
- 下載 最新的 Kodify 插件 用於 VS Code。
- 打開左側邊欄的“擴展”面板。
- 點擊“從 VSIX 安裝...”,然後選擇下載的插件文件。
JetBrains IDEs 插件安裝
- 下載 最新的 Kodify 插件 用於 JetBrains。
- 打開 IDE,轉到“設置 > 插件”。
- 點擊齒輪圖標(⚙️),選擇“從磁盤安裝插件...”。
- 選擇下載的插件文件。
- 當提示時重啟 IDE。
在插件設置中更改端口(適用於 Visual Studio Code 和 JetBrains)
如果你將 Docker 端口從 8985
更改,請更新插件的 config.json
文件:
- 在 IDE 中打開任意文件。
- 打開 Kodify 側邊欄:
- VS Code:
Ctrl + L
(Mac 上為 Cmd + L
)。
- JetBrains:
Ctrl + J
(Mac 上為 Cmd + J
)。
- 訪問
config.json
文件:
- 方法一:點擊“打開設置”(VS Code)或“Kodify 配置”(JetBrains),然後導航到“配置 > 聊天設置 > 打開配置文件”。
- 方法二:點擊 Kodify 側邊欄中的齒輪圖標(⚙️)。
- 修改
tabAutocompleteModel
和 models
下的 apiBase
端口。
- 保存文件(
Ctrl + S
或“文件 > 保存”)。
🔧 技術細節
可用的量化變體
- Kodify_Nano_q4_k_s.gguf(平衡)
- Kodify_Nano_q8_0.gguf(高質量)
- Kodify_Nano.gguf(最佳質量,未量化)
使用 huggingface_hub 下載:
pip install huggingface-hub
python -c "from huggingface_hub import hf_hub_download; hf_hub_download(repo_id='MTSAIR/Kodify-Nano-GGUF', filename='Kodify_Nano_q4_k_s.gguf', local_dir='./models')"
💻 使用示例
基礎用法
import ollama
response = ollama.generate(
model="kodify-nano",
prompt="Write a Python function to calculate factorial",
options={
"temperature": 0.4,
"top_p": 0.8,
"num_ctx": 8192
}
)
print(response['response'])
高級用法
response = ollama.generate(
model="kodify-nano",
prompt="""<s>[INST]
Write a Python function that:
1. Accepts a list of numbers
2. Returns the median value
[/INST]""",
options={"max_tokens": 512}
)
response = ollama.generate(
model="kodify-nano",
prompt="""<s>[INST]
Refactor this Python code:
def calc(a,b):
s = a + b
d = a - b
p = a * b
return s, d, p
[/INST]""",
options={"temperature": 0.3}
)
📄 許可證
本項目採用 Apache-2.0 許可證。