Virtuoso - Medium - v2オープンソース言語モデル - 優れたアーキテクチャに基づき、ベンチマークテストで卓越した性能を発揮！

ホーム

Virtuoso Medium V2

arcee-aiによって開発

Qwen-2.5-32Bアーキテクチャに基づく320億パラメータ言語モデル。Deepseek-v3蒸留トレーニングにより、複数のベンチマークテストで優れた性能を発揮。

大規模言語モデル

Transformers

オープンソースライセンス:Apache-2.0 #320億パラメータ大規模モデル #Deepseek-v3蒸留 #STEM分野専門家

ダウンロード数 412

リリース時間 : 1/27/2025

モデル概要

次世代320億パラメータ言語モデル。Deepseek-v3からlogitレベル蒸留で知識を取得し、高度な自然言語処理タスクに適応。

モデル特徴

深度蒸留技術

logitレベル蒸留でDeepseek-v3から数十億トークンの知識を抽出し、高忠実度な知識伝達を保証

クロスアーキテクチャトークナイザ互換

専用の'トークナイザ手術'によりDeepseek-v3とQwenトークナイザのシームレスな整合を実現

拡張推論能力

科学技術クエリ、コード生成、数学問題解決などの専門分野における推論能力を特別強化

融合統合手法

独自技術でlogitレベル蒸留を実施し、教師モデルの専門性を最大限保持

モデル能力

高度なテキスト生成

複雑な論理推論

マルチターン対話処理

科学技術文献理解

プログラミングコード生成

数学問題解決

多言語処理

使用事例

インテリジェントアシスタント

企業向け仮想アシスタント

複雑なワークフロー照会やデータ分析タスクを処理

内部テストで前世代モデルを30%上回るタスク達成率

教育テクノロジー

STEM教育支援

複雑な科学概念の説明や数学問題解決

MMLU-PROベンチマークでトップレベルを達成

研究支援

文献分析とシミュレーション

研究論文の迅速理解とシミュレーション仮説生成

🚀 Virtuoso-Medium-v2 (32B)

Virtuoso-Medium-v2 (32B) は、元のVirtuoso-Mediumアーキテクチャをベースに構築された次世代の320億パラメータの言語モデルです。このバージョンはDeepseek-v3から蒸留され、50億トークン以上のロジットを含む拡張データセットを活用しています。前回のリリースよりも高いベンチマークスコアを達成しており（一部のタスクではArcee-Nova 2024を上回っています）。

🚀 クイックスタート

以下は transformers を使用したサンプルコードです。

from transformers import AutoTokenizer, AutoModelForCausalLM

model_name = "arcee-ai/Virtuoso-Medium-v2"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

prompt = "Provide a concise summary of quantum entanglement."
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=150)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

✨ 主な機能

高度なチャットボットやバーチャルアシスタント：高度な会話やタスクをサポートします。
企業データ分析とワークフロー自動化：企業のデータを分析し、ワークフローを自動化するのに役立ちます。
研究シミュレーションと自然言語理解：研究や自然言語処理の分野で活用できます。
STEM分野の教育ツール：科学、技術、工学、数学の教育に利用できます。

📦 インストール

Quantizationsはこちらで利用可能です。

📚 ドキュメント

モデルの詳細

プロパティ	詳細
モデルタイプ	Qwen-2.5-32B
パラメータ数	32B
トークナイザー	最初はDeepseek-v3のトークナイザーを使用してロジットを抽出し、最終的なアライメントではQwenトークナイザーを使用し、特殊な「トークナイザーサージェリー」を用いてアーキテクチャ間の互換性を確保します。
蒸留データ	Deepseek-v3の学習データから約11億トークン/ロジットを使用し、独自の「融合マージ」アプローチを用いてロジットレベルの蒸留を行い、最大限の忠実度を実現します。
ライセンス	Apache-2.0

Deepseek蒸留の背景

Deepseek-v3を教師モデルとして使用し、数十億トークンにわたるロジットを取得します。標準的な教師あり微調整ではなく、完全なロジットレベルの複製を適用します。これにより、以下の分野での高度な推論を含む知識のより正確な転送が保証されます。

技術的および科学的なクエリ
複雑なコード生成
数学的な問題解決

評価

トレーニングと微調整

初期トレーニング：Qwen-32Bから始まり、大規模なテキスト取り込みに合わせて調整されました。
蒸留とマージ：Deepseek-v3の約11億トークン分のロジットでトレーニングし、独自の「融合マージ」アプローチを用いて教師モデルの知識を最大限に保持します。最後にDPOを適用してアライメントを改善し、モデルの幻想を減らします。
継続的な開発：さらなる性能向上と特化のために、追加のR1蒸留が進行中です。