Virtuoso Medium V2
Qwen-2.5-32Bアーキテクチャに基づく320億パラメータ言語モデル。Deepseek-v3蒸留トレーニングにより、複数のベンチマークテストで優れた性能を発揮。
ダウンロード数 412
リリース時間 : 1/27/2025
モデル概要
次世代320億パラメータ言語モデル。Deepseek-v3からlogitレベル蒸留で知識を取得し、高度な自然言語処理タスクに適応。
モデル特徴
深度蒸留技術
logitレベル蒸留でDeepseek-v3から数十億トークンの知識を抽出し、高忠実度な知識伝達を保証
クロスアーキテクチャトークナイザ互換
専用の'トークナイザ手術'によりDeepseek-v3とQwenトークナイザのシームレスな整合を実現
拡張推論能力
科学技術クエリ、コード生成、数学問題解決などの専門分野における推論能力を特別強化
融合統合手法
独自技術でlogitレベル蒸留を実施し、教師モデルの専門性を最大限保持
モデル能力
高度なテキスト生成
複雑な論理推論
マルチターン対話処理
科学技術文献理解
プログラミングコード生成
数学問題解決
多言語処理
使用事例
インテリジェントアシスタント
企業向け仮想アシスタント
複雑なワークフロー照会やデータ分析タスクを処理
内部テストで前世代モデルを30%上回るタスク達成率
教育テクノロジー
STEM教育支援
複雑な科学概念の説明や数学問題解決
MMLU-PROベンチマークでトップレベルを達成
研究支援
文献分析とシミュレーション
研究論文の迅速理解とシミュレーション仮説生成
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98