チューリッヒ-14B-GCv2-10kオープンソースAIモデル - ガンマコーパスに基づく微調整、同規模のモデルを上回る性能を発揮！

ホーム

Zurich 14B GCv2 10k

rubenroyによって開発

ガンマコーパスでファインチューニングされたQwen 2.5モデルで、同規模の他のモデルを凌駕することを目指しています

大規模言語モデル

Transformers

英語オープンソースライセンス:Apache-2.0 #マルチターン対話最適化 #高パラメータ数14B #ガンマコーパスファインチューニング

ダウンロード数 47

リリース時間 : 1/29/2025

モデル概要

チューリッヒ14Bガンマコーパスv2-10kは、アリババのQwen 2.5 14B Instructモデルのファインチューン版で、ガンマコーパスv2-10kの可能性を示しています。

モデル特徴

効率的なファインチューニング

Unslothフレームワークを使用し、A100 GPU1枚で約10分間のトレーニングで60エポックを完了

先進的なアーキテクチャ

RoPE、SwiGLU、RMSNorm、および注意QKVバイアスを採用したトランスフォーマーアーキテクチャ

マルチターン対話サポート

ガンマコーパスでトレーニングされ、構造化されたマルチターン対話の処理に優れている

モデル能力

テキスト生成

マルチターン対話

質問応答システム

使用事例

対話システム

AIアシスタント

ユーザークエリを処理するインテリジェントアシスタントとして機能可能

一貫性があり役立つ応答を生成できる

質問応答システム

事実検索

事実情報に関する質問に回答

正確な事実回答を提供できる

🚀 チューリッヒ14B GammaCorpus v2-10k

GammaCorpusデータセットでファインチューニングされたQwen 2.5モデル

🚀 クイックスタート

チューリッヒ14B GammaCorpus v2-10kは、アリババのQwen 2.5 14B Instructモデルをファインチューニングしたものです。チューリッヒは、同程度のサイズの他のモデルを上回る性能を発揮し、GammaCorpus v2-10kを展示するように設計されています。

✨ 主な機能

このモデルは、テキスト生成に特化しており、多様な会話形式のテキストを生成することができます。GammaCorpusデータセットを用いて訓練されているため、構造化された多ターン会話に対応しています。

📦 インストール

必要条件

transformersパッケージの最新バージョンの使用を強くおすすめします。以下のコマンドでpipを使ってインストールできます。

pip install transformers

💻 使用例

基本的な使用法

以下は、apply_chat_templateを使用してトークナイザーとモデルをロードし、内容を生成するコードスニペットです。

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "rubenroy/Zurich-14B-GCv2-10k"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "How tall is the Eiffel tower?"
messages = [
    {"role": "system", "content": "You are Zurich, an AI assistant built on the Qwen 2.5 14B model developed by Alibaba Cloud, and fine-tuned by Ruben Roy. You are a helpful assistant."},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=512
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

📚 ドキュメント

モデルの詳細

ベースモデル: Qwen/Qwen2.5-14B-Instruct
タイプ: 因果言語モデル
アーキテクチャ: RoPE、SwiGLU、RMSNorm、およびAttention QKVバイアスを備えたTransformers
パラメータ数: 147億
パラメータ数 (非埋め込み): 131億
レイヤー数: 48
Attentionヘッド数 (GQA): Qは40、KVは8

トレーニングの詳細

Zurich-14B-GCv2-10kは、1台のA100 GPUを使って約10分間ファインチューニングされ、Unslothフレームワークでトレーニングされました。Zurich-14B-GCv2-10kは60エポックトレーニングされました。

GammaCorpusについて

このモデルとすべてのチューリッヒモデルは、GammaCorpusでトレーニングされています。GammaCorpusは、構造化されたフィルタリング済みの多ターン会話が含まれるHuggingFaceのデータセットです。GammaCorpusには、それぞれ異なるサイズの4つのバージョンがあります。以下はそのバージョンとサイズです。