🚀 Condor-Opus-14B-Exp
Condor-Opus-14B-Exp 基於 Qwen 2.5 14B 模態架構,旨在增強 14B 參數模型的推理能力。該模型針對通用推理和回答進行了優化,在上下文理解、邏輯演繹和多步驟問題解決方面表現出色。它使用長思維鏈推理模型和專門的數據集進行了微調,以提高理解能力、結構化響應和對話智能。
🚀 快速開始
以下是使用 apply_chat_template
加載分詞器和模型並生成內容的代碼片段:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "prithivMLmods/Condor-Opus-14B-Exp"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "What are the key principles of general-purpose AI?"
messages = [
{"role": "system", "content": "You are a helpful assistant capable of answering a wide range of questions."},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=512
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
✨ 主要特性
- 增強的常識知識:該模型提供跨多個領域的廣泛知識,提高了準確回答問題和生成連貫響應的能力。
- 改進的指令遵循能力:在理解和遵循複雜指令、生成結構化響應以及在長時間交互中保持連貫性方面取得了顯著進展。
- 多功能適應性:對各種提示更具彈性,增強了處理廣泛主題和對話風格的能力,包括開放式和結構化查詢。
- 長上下文支持:支持最多 128K 個輸入上下文標記,並可以在一次輸出中生成最多 8K 個標記,非常適合詳細響應。
- 多語言能力:支持超過 29 種語言,包括英語、中文、法語、西班牙語、葡萄牙語、德語、意大利語、俄語、日語、韓語、越南語、泰語、阿拉伯語等。
💻 使用示例
基礎用法
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "prithivMLmods/Condor-Opus-14B-Exp"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "What are the key principles of general-purpose AI?"
messages = [
{"role": "system", "content": "You are a helpful assistant capable of answering a wide range of questions."},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=512
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
📚 詳細文檔
預期用途
- 通用推理:設計用於廣泛的應用場景,輔助邏輯推理、回答各種問題和解決常識性問題。
- 教育和信息輔助:適用於為學生、教育工作者和普通用戶提供解釋、總結和基於研究的響應。
- 對話式 AI 和聊天機器人:非常適合構建需要上下文理解和動態響應生成的智能對話代理。
- 多語言應用:支持全球通信、翻譯和多語言內容生成。
- 結構化數據處理:能夠分析和生成結構化輸出,如表格和 JSON,對數據科學和自動化很有用。
- 長內容生成:可以生成擴展響應,包括文章、報告和指南,在大文本輸出中保持連貫性。
侷限性
- 硬件要求:由於其大參數規模和長上下文支持,需要高內存的 GPU 或 TPU。
- 響應中可能存在偏差:雖然設計為中立,但輸出仍可能反映訓練數據中存在的偏差。
- 創造性任務中的輸出不一致:在講故事和高度主觀的主題上可能產生不同的結果。
- 對現實世界的認知有限:無法訪問其訓練截止日期之後的即時事件。
- 長輸出中的錯誤傳播:早期響應中的小錯誤可能會影響長格式輸出的整體連貫性。
- 提示敏感性:響應的有效性可能取決於輸入提示的結構好壞。
📄 許可證
本模型採用 Apache-2.0 許可證。
📊 評估結果
詳細結果可查看 此處!
總結結果可查看 此處!
屬性 |
詳情 |
模型類型 |
文本生成 |
基礎模型 |
prithivMLmods/Pegasus-Opus-14B-Exp |
庫名稱 |
transformers |
指標 |
值 (%) |
平均準確率 |
37.62 |
IFEval (0-Shot) |
40.43 |
BBH (3-Shot) |
44.08 |
MATH Lvl 5 (4-Shot) |
52.27 |
GPQA (0-shot) |
18.90 |
MuSR (0-shot) |
25.42 |
MMLU-PRO (5-shot) |
44.60 |
