🚀 Theta-35
Theta-35は、SVECTORによるThetaシリーズの高度な推論モデルです。従来の命令微調整モデルと比較して、Theta-35は複雑な思考と推論に特化しており、下流タスク、特に深い論理分析と多段階推論を必要とする難しい問題で、大幅に向上したパフォーマンスを達成します。
🚀 クイックスタート
ここでは、トークナイザーとモデルをロードし、コンテンツを生成する方法を示すコードスニペットを紹介します。
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "SVECTOR-CORPORATION/Theta-35"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "How many planets are in our solar system? Explain your reasoning."
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=32768,
temperature=0.6,
top_p=0.95,
top_k=30
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
✨ 主な機能
このリポジトリにはTheta-35モデルが含まれており、以下の特徴があります。
属性 |
详情 |
モデルタイプ |
事前学習と事後学習(教師付き微調整と強化学習) |
アーキテクチャ |
RoPE、SwiGLU、RMSNorm、およびAttention QKVバイアスを備えたTransformers |
パラメータ数 |
33B |
パラメータ数(非埋め込み) |
33B |
レイヤー数 |
64 |
アテンションヘッド数(GQA) |
Qに40、KVに8 |
コンテキスト長 |
最大131,072トークン |
スライディングウィンドウ |
32,768トークン |
📦 インストール
Theta-35は、最新バージョンのHugging Face transformers
が必要です。バージョン4.43.1以上を使用することをお勧めします。
古いバージョンのtransformersを使用すると、以下のエラーが発生する場合があります。
KeyError: 'theta'
💻 使用例
基本的な使用法
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "SVECTOR-CORPORATION/Theta-35"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "How many planets are in our solar system? Explain your reasoning."
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=32768,
temperature=0.6,
top_p=0.95,
top_k=30
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
使用ガイドライン
Theta-35で最適なパフォーマンスを達成するために、以下の設定を推奨します。
-
慎重な出力を強制する:モデルが"<reasoning>\n"で始まるようにして、段階的な思考を促し、出力品質を向上させます。apply_chat_template
を使用し、add_generation_prompt=True
に設定すると、これは自動的に実装されます。
-
サンプリングパラメータ:
- 繰り返しを避けるために、Greedyデコーディングの代わりにTemperature=0.6とTopP=0.95を使用します。
- 多様性を維持しながらまれなトークンの出現をフィルタリングするために、TopKを20から40の間で使用します。
-
出力形式を標準化する:ベンチマーク時には、プロンプトを使用してモデルの出力を標準化することをお勧めします。
- 数学問題:プロンプトに「Please reason step by step, and put your final answer within \boxed{}」を含めます。
- 選択問題:プロンプトに「Please show your choice in the
answer
field with only the choice letter, e.g.,\"answer\": \"C\"
」を追加します。
-
長い入力を処理する:32,768トークンを超える入力の場合、スライディングウィンドウアテンションを有効にして、モデルが長いシーケンスを効率的に処理できるようにします。
サポートされているフレームワークでは、拡張コンテキスト処理を有効にするために、config.json
に以下を追加できます。
{
...,
"use_sliding_window": true,
"sliding_window": 32768
}
📚 ドキュメント
Theta-35は、数学的推論、論理的推論、多段階問題解決、コード理解と生成、科学的推論など、さまざまな推論タスクで卓越したパフォーマンスを発揮します。
詳細な評価結果は、ドキュメントで報告されています。
🔧 技術詳細
Theta-35は、SVECTORによるThetaシリーズの高度な推論モデルです。従来の命令微調整モデルと比較して、Theta-35は複雑な思考と推論に特化しており、下流タスク、特に深い論理分析と多段階推論を必要とする難しい問題で、大幅に向上したパフォーマンスを達成します。
📄 ライセンス
このプロジェクトは、Apache-2.0ライセンスの下でライセンスされています。
引用
もし私たちの成果が役に立った場合は、ぜひ引用してください。
@misc{theta35,
title = {Theta-35: Advanced Reasoning in Large Language Models},
url = {https://www.svector.co.in/models/theta-35},
author = {SVECTOR Team},
month = {March},
year = {2025}
}
@article{theta,
title={Theta Technical Report},
author={SVECTOR Research Team},
year={2025}
}
⚠️ 重要提示
Thetaモデルをデプロイする前に、使用ガイドラインを確認してください。
💡 使用建议
Theta-35で最適なパフォーマンスを達成するために、上記の使用ガイドラインに従ってください。