Quasar-3.0-Instract-v2開源模型 - 展示架構潛力，助力多樣應用場景

首頁

Quasar 3.0 Instract V2

由silx-ai開發

Quasar-3.0-7B是即將發佈的400B Quasar 3.0模型的蒸餾版本，展示了Quasar架構的早期實力和潛力。

大型語言模型

Transformers

#強化學習優化 #詞元溫度機制 #高效推理

下載量 314

發布時間 : 4/6/2025

模型概述

基於《推理中的黃金公式》論文技術構建，採用TTM（詞元溫度機制）訓練流程和強化學習最佳公式，優化推理和上下文聚焦。

模型特點

TTM訓練機制

創新的詞元溫度機制，優化訓練過程中的推理和上下文聚焦能力

強化學習優化

應用了作者認為迄今為止最佳的強化學習訓練公式

架構潛力展示

7B版本已展示出Quasar架構的競爭力，預示著400B完整模型的強大能力

模型能力

文本生成

複雜推理

上下文理解

使用案例

AI研究與開發

模型架構研究

研究新型TTM訓練機制和強化學習公式的效果

可作為新型訓練方法的參考實現

商業應用

智能助手

構建需要複雜推理能力的對話系統

推斷：可能提供更精準的上下文理解和回答

🚀 類星體（Quasar）系列模型

類星體（Quasar）系列模型由SILX INC提供，旨在藉助創新的訓練機制和強化學習方法，提升模型的推理能力和上下文聚焦能力，為人工智能領域的推理技術帶來新的突破。

🚀 快速開始

模型信息

屬性	詳情
基礎模型	Quasar-400B-X
庫名稱	transformers
模型名稱	Quasar-3.0-Max
標籤	rl、silx、trl、sft
許可證	license

模型圖片

Quasar Model Image

✨ 主要特性

🌟 類星體3.0（Quasar-3.0）介紹

類星體3.0-7B（Quasar-3.0-7B）是即將推出的400B類星體3.0模型的蒸餾版本。它基於《推理中的黃金公式》（Golden Formula in Reasoning）論文中的創新成果構建，採用了一種名為TTM（令牌溫度機制，Token Temperature Mechanism） 的全新訓練管道，這是一種在訓練過程中優化推理和上下文聚焦的新方法。此外，還應用了目前認為是最佳的強化學習（RL）訓練公式。