🚀 模型ID的模型卡片
這是一個🤗 Transformers模型的模型卡片,該模型已被推送到Hugging Face Hub上。此模型卡片是自動生成的。它可用於極低資源消耗下的通用網絡文本補全任務。
🚀 快速開始
使用以下代碼開始使用該模型:
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("crumb/nano-mistral")
tokenizer = AutoTokenizer.from_pretrained("crumb/nano-mistral")
inputs = tokenizer(["Once upon a time,"], return_tensors="pt")
inputs = {k:v.to(model.device) for k,v in dict(inputs).items()}
outputs = model.generate(inputs, max_new_tokens=128, temperature=0.7, top_k=20, do_sample=True)
outputs = tokenizer.batch_decode(outputs)
for i in outputs:
print(i)
✨ 主要特性
- 能夠在極低資源消耗下進行通用網絡文本補全。
- 非指令模型,不適合用於指令類任務。
📦 安裝指南
文檔未提及安裝步驟,可參考🤗 Transformers庫的官方安裝文檔進行安裝。
📚 詳細文檔
模型詳情
模型描述
這是一個被推送到Hugging Face Hub的🤗 Transformers模型的模型卡片。
- 開發者: me
- 模型類型: Mistral
- 語言(NLP): 英語
- 許可證: Apache
使用場景
適用場景
可用於極低資源消耗下的通用網絡文本補全。
不適用場景
該模型不是指令模型,不適合用於指令類任務。
偏差、風險和侷限性
該模型在網絡文本上進行訓練,儘管經過過濾,但不能保證不包含有害內容。
訓練詳情
訓練數據
crumb/askmistral-pile-2-15
訓練過程
參數 |
值 |
上下文長度 |
2048 |
批量大小 |
128 |
學習率 |
6e - 4 |
調度器 |
One - Cycle |
Adam eps |
1e - 8 |
Adam beta1 |
0.9 |
Adam beta2 |
0.95 |
權重衰減 |
0.1 |
最大梯度範數 |
1.0 |
優化器 |
adamw_torch |
令牌數 |
3,401,640,960 |
訓練超參數
評估
測試數據、因素和指標
測試數據
crumb/askmistral-pile-2-15的保留集
指標
OpenLLM排行榜評估數據集和設置
結果
OpenLLM排行榜平均得分 + 標準誤差:(29.30, 0.42)
任務 |
版本 |
過濾 |
n - shot |
指標 |
值 |
|
標準誤差 |
arc_challenge |
1 |
none |
25 |
acc |
0.1843 |
± |
0.0113 |
|
|
none |
25 |
acc_norm |
0.2167 |
± |
0.0120 |
truthfulqa_mc2 |
2 |
none |
0 |
acc |
0.4719 |
± |
0.0156 |
winogrande |
1 |
none |
5 |
acc |
0.517 |
± |
0.014 |
hellaswag |
1 |
none |
10 |
acc |
0.2803 |
± |
0.0045 |
|
|
none |
10 |
acc_norm |
0.2886 |
± |
0.0045 |
gsm8k |
3 |
strict - match |
5 |
exact_match |
0.0008 |
± |
0.0008 |
|
|
flexible - extract |
5 |
exact_match |
0.0099 |
± |
0.0027 |
MMLU
值,標準誤差 = (0.253980701754386, 0.004428598058450528)
任務 |
版本 |
過濾 |
n - shot |
指標 |
值 |
|
標準誤差 |
world_religions |
0 |
none |
5 |
acc |
0.2222 |
± |
0.0319 |
virology |
0 |
none |
5 |
acc |
0.2711 |
± |
0.0346 |
...(此處省略其他任務,可根據原文檔完整列出) |
... |
... |
... |
... |
... |
... |
... |
模型檢查
模型表現尚可。
環境影響
可以使用Lacoste等人(2019)中提出的機器學習影響計算器來估算碳排放。
- 硬件類型: A6000
- 使用時長: 34.74小時
- 雲服務提供商: 無
- 計算區域: 愛荷華州
- 碳排放: 4.5千克CO2eq
技術規格
模型架構和目標
Mistral,因果語言建模
計算基礎設施
硬件
lambda vector 2xA6000
軟件
Hugging Face Transformers / PyTorch / 自定義訓練器
🔧 技術細節
模型架構和目標
採用Mistral架構,用於因果語言建模。
計算基礎設施
- 硬件: lambda vector 2xA6000
- 軟件: Hugging Face Transformers / PyTorch / 自定義訓練器
📄 許可證
Apache 2.0