Cotype-Nanoオープンソース軽量級LLM - 小さなリソース要件で効率的なユーザー対話を実現

ホーム

Cotype Nano

MTSAIRによって開発

Cotype-Nanoは軽量LLMで、最小限のリソースでタスクを実行するように設計されています。リソースが制限された条件下でも高性能を発揮し、ユーザーとの迅速で効率的なインタラクションを実現するために最適化されています。

大規模言語モデル

Transformers

オープンソースライセンス:その他 #軽量LLM #低リソース最適化 #多言語サポート

ダウンロード数 4,075

リリース時間 : 11/22/2024

モデル概要

Cotype-Nanoはリソースが制限された環境での効率的なテキスト生成タスクに適した軽量言語モデルで、ロシア語と英語をサポートしています。

モデル特徴

軽量で効率的

リソースが制限された環境向けに設計されており、最小限のリソースで効率的に動作します

多言語サポート

ロシア語と英語の2言語のテキスト生成をサポートします

迅速なインタラクション

最適化されたモデルにより、ユーザーとの迅速で効率的なインタラクションが可能です

モデル能力

テキスト生成

指示の追従

コード生成

質問応答システム

使用事例

開発支援

コード例の生成

ユーザーの要求に基づいてプログラミングコードの例を生成します

FastAPIサーバーコードの生成など

インテリジェントアシスタント

知識質問応答

ユーザーが提出する様々な質問に答えます

詳細かつ包括的な回答を提供します

🚀 Cotype-Nanoü§ñ

Cotype-Nanoは、限られたリソースでタスクを実行するように設計された軽量の大規模言語モデル（LLM）です。リソースが制限された条件下でも高性能を発揮し、ユーザーとの高速かつ効率的な対話が可能です。

🚀 クイックスタート

💻 使用例

基本的な使用法

vLLMを使用した推論

python3 -m vllm.entrypoints.openai.api_server --model MTSAIR/Cotype-Nano --port 8000

推奨生成パラメータとシステムプロンプト

import openai
import pandas as pd
from tqdm import tqdm

openai.api_key = 'xxx'

endpoint = 'http://localhost:8000/v1'
model = 'MTSAIR/Cotype-Nano'
openai.api_base = endpoint

# Possible system prompt:
# {"role": "system", "content": "–¢—ã ‚Äî –ò–ò-–ø–æ–º–æ—â–Ω–∏–∫. –¢–µ–±–µ –¥–∞–Ω–æ –∑–∞–¥–∞–Ω–∏–µ: –Ω–µ–æ–±—Ö–æ–¥–∏–º–æ —Å–≥–µ–Ω–µ—Ä–∏—Ä–æ–≤–∞—Ç—å –ø–æ–¥—Ä–æ–±–Ω—ã–π –∏ —Ä–∞–∑–≤–µ—Ä–Ω—É—Ç—ã–π –æ—Ç–≤–µ—Ç."},

response = openai.ChatCompletion.create(
    model=model,
    temperature=0.4, # 0.0 is also allowed
    frequency_penalty=0.0,
    max_tokens=2048,
    top_p=0.8, # 0.1 is also allowed
    messages=[
          {"role": "user", "content": "–ö–∞–∫ –º–Ω–µ –æ–±—É—á–∏—Ç—å –º–æ–¥–µ–ª—å meta-llama/Llama-3.2-1B —Å –ø–æ–º–æ—â—å—é –±–∏–±–ª–∏–æ—Ç–µ–∫–∏ transformers?"}
        ]
    )

answer = response["choices"][0]["message"]["content"]
print(answer)

Huggingfaceを使用した推論

from transformers import pipeline

pipe = pipeline("text-generation", model="MTSAIR/Cotype-Nano", device="cuda")

messages = [
  {"role": "system", "content": "–¢—ã ‚Äî –ò–ò-–ø–æ–º–æ—â–Ω–∏–∫. –¢–µ–±–µ –¥–∞–Ω–æ –∑–∞–¥–∞–Ω–∏–µ: –Ω–µ–æ–±—Ö–æ–¥–∏–º–æ —Å–≥–µ–Ω–µ—Ä–∏—Ä–æ–≤–∞—Ç—å –ø–æ–¥—Ä–æ–±–Ω—ã–π –∏ —Ä–∞–∑–≤–µ—Ä–Ω—É—Ç—ã–π –æ—Ç–≤–µ—Ç."},
  {"role": "user", "content": "–†–∞—Å—Å–∫–∞–∂–∏ –º–Ω–µ –ø—Ä–æ –ò–ò"},
]

res = pipe(messages, max_length=1024)
print(res[0]['generated_text'][-1]['content'])

リクエスト例

リクエスト: –ù–∞–ø–∏—à–∏ –ø—Ä–æ—Å—Ç–æ–π —Å–µ—Ä–≤–µ—Ä –Ω–∞ —Ñ–∞—Å—Ç–∞–ø–∏

Cotype-Nanoの応答:

–§–∞—Å—Ç–∞–ø–∏ (FastAPI) は、Pythonで書かれた高速なWebフレームワークです。これは、APIの開発に最適化されており、高いパフォーマンスと使いやすさを兼ね備えています。以下は、FastAPIを使用してAPIを作成する手順です。

手順1: FastAPIとUvicornのインストール

pip install fastapi uvicorn

手順2: FastAPIアプリケーションの作成

from fastapi import FastAPI

app = FastAPI()

手順3: エンドポイントの定義

@app.get("/")
async def read_root():
    return {"message": "Hello, FastAPI!"}

手順4: アプリケーションの起動

uvicorn main:app --reload

ここで、main はPythonファイルの名前で、app はFastAPIアプリケーションのインスタンスです。--reload オプションを使用すると、コードの変更が自動的に反映されます。

アプリケーションが起動すると、http://127.0.0.1:8000 にアクセスすることで、APIにアクセスできます。以下は、APIに対するGETリクエストの例です。

{
    "message": "Hello, FastAPI!"
}

🔧 技術詳細

学習プロセス

このモデルは2段階で学習されました。最初の段階では、MLP層が数学とコードに関するデータで学習されました。2段階目では、モデル全体が内部およびオープンな合成命令データセットで学習されました。

ru-llm-arena: 30.2 (ローカル測定)

モデル	スコア	95%信頼区間	平均トークン数
Cotype-Nano	30.2	+2.2 / -1.3	542
vikhr-it-5.3-fp16-32k	27.8	+1.5 / -2.1	519.71
vikhr-it-5.3-fp16	22.73	+1.8 / -1.7	523.45
Cotype-Nano-4bit	22.5	+2.1 / -1.4	582
kolibri-vikhr-mistral-0427	22.41	+1.6 / -1.9	489.89
snorkel-mistral-pairrm-dpo	22.41	+1.7 / -1.6	773.8
storm-7b	20.62	+1.4 / -1.6	419.32
neural-chat-7b-v3-3	19.04	+1.8 / -1.5	927.21
Vikhrmodels-Vikhr-Llama-3.2-1B-instruct	19.04	+1.2 / -1.5	958.63
gigachat_lite	17.2	+1.5 / -1.5	276.81
Vikhrmodels-Vikhr-Qwen-2.5-0.5b-Instruct	16.5	+1.5 / -1.7	583.5
Qwen-Qwen2.5-1.5B-Instruct	16.46	+1.3 / -1.3	483.67
Vikhrmodels-vikhr-qwen-1.5b-it	13.19	+1.3 / -1.1	2495.38
meta-llama-Llama-3.2-1B-Instruct	4.04	+0.6 / -0.8	1240.53
Qwen-Qwen2.5-0.5B-Instruct	4.02	+0.7 / -0.8	829.87