Nano Mistral
N
Nano Mistral
crumbによって開発
Mistralアーキテクチャに基づく大規模言語モデルで、Pileデータセットで訓練され、英語テキスト処理をサポート
ダウンロード数 1,855
リリース時間 : 3/8/2024
モデル概要
このモデルはMistralアーキテクチャに基づく大規模言語モデルで、英語テキスト処理タスクに特化しており、様々な自然言語処理シナリオに適用可能
モデル特徴
Mistralアーキテクチャ採用
効率的なMistralアーキテクチャ設計を採用し、優れたテキスト処理能力を提供
英語特化最適化
英語テキストに特化して訓練と最適化を実施
Apache 2.0ライセンス
寛容なApache 2.0ライセンスを採用し、商用利用を許可
モデル能力
テキスト生成
質問応答システム
テキスト理解
言語モデリング
使用事例
コンテンツ作成
自動記事生成
プロンプトに基づいて一貫性のある英語記事を生成
インテリジェントQA
知識質問応答システム
ユーザーが提出する様々な知識質問に回答
テキスト分析
文書要約
長文書の簡潔な要約を自動生成
🚀 モデルIDのモデルカード
このモデルは🤗 transformersライブラリを用いて開発された言語モデルで、極めて少ないリソースで一般的なウェブテキストの生成が可能です。
🚀 クイックスタート
以下のコードを使用して、モデルをすぐに使い始めることができます。
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("crumb/nano-mistral")
tokenizer = AutoTokenizer.from_pretrained("crumb/nano-mistral")
inputs = tokenizer(["Once upon a time,"], return_tensors="pt")
inputs = {k:v.to(model.device) for k,v in dict(inputs).items()}
outputs = model.generate(inputs, max_new_tokens=128, temperature=0.7, top_k=20, do_sample=True)
outputs = tokenizer.batch_decode(outputs)
for i in outputs:
print(i)
✨ 主な機能
- 極めて少ないリソースで一般的なウェブテキストの生成が可能。
- Mistralアーキテクチャを採用した因果言語モデル。
📦 インストール
このモデルはtransformers
ライブラリを使用しています。ライブラリがインストールされていない場合は、以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("crumb/nano-mistral")
tokenizer = AutoTokenizer.from_pretrained("crumb/nano-mistral")
inputs = tokenizer(["Once upon a time,"], return_tensors="pt")
inputs = {k:v.to(model.device) for k,v in dict(inputs).items()}
outputs = model.generate(inputs, max_new_tokens=128, temperature=0.7, top_k=20, do_sample=True)
outputs = tokenizer.batch_decode(outputs)
for i in outputs:
print(i)
📚 ドキュメント
モデル詳細
モデル概要
これは🤗 transformersモデルのモデルカードで、自動生成されています。
属性 | 详情 |
---|---|
開発者 | me |
モデルタイプ | Mistral |
言語 | en |
ライセンス | apache |
用途
一般的なウェブテキストの生成に使用できます。
適用範囲外の用途
インストラクションモデルではないため、特定の指示に基づく応答生成には適していません。
バイアス、リスク、制限事項
ウェブテキストを学習データとして使用しているため、有害な内容が含まれる可能性があります。
🔧 技術詳細
学習データ
学習手順
パラメータ | 値 |
---|---|
コンテキスト長 | 2048 |
バッチサイズ | 128 |
学習率 | 6e-4 |
スケジューラ | One-Cycle |
Adam eps | 1e-8 |
Adam beta1 | 0.9 |
Adam beta2 | 0.95 |
重み減衰 | 0.1 |
最大勾配ノルム | 1.0 |
オプティマイザ | adamw_torch |
トークン数 | 3,401,640,960 |
前処理
[詳細情報が必要]
学習ハイパーパラメータ
- 学習方式: bf16 non-mixed precision
速度、サイズ、時間
- train_runtime: 62541.9424
- train_samples_per_second: 26.557
[詳細情報が必要]
評価
テストデータ、要因、メトリクス
テストデータ
crumb/askmistral-pile-2-15のホールドアウトセット
要因
[詳細情報が必要]
メトリクス
OpenLLM Leaderboardの評価データセットと設定を使用しています。
結果
OpenLLM Leaderboardの平均スコア + 標準誤差: (29.30, 0.42)
タスク | バージョン | フィルタ | n-shot | メトリクス | 値 | 標準誤差 | |
---|---|---|---|---|---|---|---|
arc_challenge | 1 | none | 25 | acc | 0.1843 | ± | 0.0113 |
none | 25 | acc_norm | 0.2167 | ± | 0.0120 | ||
truthfulqa_mc2 | 2 | none | 0 | acc | 0.4719 | ± | 0.0156 |
winogrande | 1 | none | 5 | acc | 0.517 | ± | 0.014 |
hellaswag | 1 | none | 10 | acc | 0.2803 | ± | 0.0045 |
none | 10 | acc_norm | 0.2886 | ± | 0.0045 | ||
gsm8k | 3 | strict-match | 5 | exact_match | 0.0008 | ± | 0.0008 |
flexible-extract | 5 | exact_match | 0.0099 | ± | 0.0027 |
MMLU
値, 標準誤差 = (0.253980701754386, 0.004428598058450528)
タスク | バージョン | フィルタ | n-shot | メトリクス | 値 | 標準誤差 | |
---|---|---|---|---|---|---|---|
world_religions | 0 | none | 5 | acc | 0.2222 | ± | 0.0319 |
virology | 0 | none | 5 | acc | 0.2711 | ± | 0.0346 |
us_foreign_policy | 0 | none | 5 | acc | 0.3300 | ± | 0.0473 |
sociology | 0 | none | 5 | acc | 0.2388 | ± | 0.0301 |
security_studies | 0 | none | 5 | acc | 0.2367 | ± | 0.0272 |
public_relations | 0 | none | 5 | acc | 0.2273 | ± | 0.0401 |
professional_psychology | 0 | none | 5 | acc | 0.2484 | ± | 0.0175 |
professional_medicine | 0 | none | 5 | acc | 0.4596 | ± | 0.0303 |
professional_law | 0 | none | 5 | acc | 0.2464 | ± | 0.0110 |
professional_accounting | 0 | none | 5 | acc | 0.2021 | ± | 0.0240 |
prehistory | 0 | none | 5 | acc | 0.2130 | ± | 0.0228 |
philosophy | 0 | none | 5 | acc | 0.2219 | ± | 0.0236 |
nutrition | 0 | none | 5 | acc | 0.2157 | ± | 0.0236 |
moral_scenarios | 0 | none | 5 | acc | 0.2380 | ± | 0.0142 |
moral_disputes | 0 | none | 5 | acc | 0.2486 | ± | 0.0233 |
miscellaneous | 0 | none | 5 | acc | 0.2516 | ± | 0.0155 |
medical_genetics | 0 | none | 5 | acc | 0.3000 | ± | 0.0461 |
marketing | 0 | none | 5 | acc | 0.2265 | ± | 0.0274 |
management | 0 | none | 5 | acc | 0.1748 | ± | 0.0376 |
machine_learning | 0 | none | 5 | acc | 0.3125 | ± | 0.0440 |
logical_fallacies | 0 | none | 5 | acc | 0.2393 | ± | 0.0335 |
jurisprudence | 0 | none | 5 | acc | 0.2315 | ± | 0.0408 |
international_law | 0 | none | 5 | acc | 0.3140 | ± | 0.0424 |
human_sexuality | 0 | none | 5 | acc | 0.2519 | ± | 0.0381 |
human_aging | 0 | none | 5 | acc | 0.3049 | ± | 0.0309 |
high_school_world_history | 0 | none | 5 | acc | 0.2658 | ± | 0.0288 |
high_school_us_history | 0 | none | 5 | acc | 0.2451 | ± | 0.0302 |
high_school_statistics | 0 | none | 5 | acc | 0.4722 | ± | 0.0340 |
high_school_psychology | 0 | none | 5 | acc | 0.1963 | ± | 0.0170 |
high_school_physics | 0 | none | 5 | acc | 0.3046 | ± | 0.0376 |
high_school_microeconomics | 0 | none | 5 | acc | 0.2773 | ± | 0.0291 |
high_school_mathematics | 0 | none | 5 | acc | 0.2667 | ± | 0.0270 |
high_school_macroeconomics | 0 | none | 5 | acc | 0.2667 | ± | 0.0224 |
high_school_government_and_politics | 0 | none | 5 | acc | 0.2591 | ± | 0.0316 |
high_school_geography | 0 | none | 5 | acc | 0.2424 | ± | 0.0305 |
high_school_european_history | 0 | none | 5 | acc | 0.2242 | ± | 0.0326 |
high_school_computer_science | 0 | none | 5 | acc | 0.2800 | ± | 0.0451 |
high_school_chemistry | 0 | none | 5 | acc | 0.2857 | ± | 0.0318 |
high_school_biology | 0 | none | 5 | acc | 0.3129 | ± | 0.0264 |
global_facts | 0 | none | 5 | acc | 0.1500 | ± | 0.0359 |
formal_logic | 0 | none | 5 | acc | 0.1905 | ± | 0.0351 |
elementary_mathematics | 0 | none | 5 | acc | 0.2513 | ± | 0.0223 |
electrical_engineering | 0 | none | 5 | acc | 0.2759 | ± | 0.0372 |
econometrics | 0 | none | 5 | acc | 0.2456 | ± | 0.0405 |
conceptual_physics | 0 | none | 5 | acc | 0.2638 | ± | 0.0288 |
computer_security | 0 | none | 5 | acc | 0.1800 | ± | 0.0386 |
college_physics | 0 | none | 5 | acc | 0.2549 | ± | 0.0434 |
college_medicine | 0 | none | 5 | acc | 0.2023 | ± | 0.0306 |
college_mathematics | 0 | none | 5 | acc | 0.2900 | ± | 0.0456 |
college_computer_science | 0 | none | 5 | acc | 0.2700 | ± | 0.0446 |
college_chemistry | 0 | none | 5 | acc | 0.2500 | ± | 0.0435 |
college_biology | 0 | none | 5 | acc | 0.2222 | ± | 0.0348 |
clinical_knowledge | 0 | none | 5 | acc | 0.2377 | ± | 0.0262 |
business_ethics | 0 | none | 5 | acc | 0.2100 | ± | 0.0409 |
astronomy | 0 | none | 5 | acc | 0.1776 | ± | 0.0311 |
anatomy | 0 | none | 5 | acc | 0.2593 | ± | 0.0379 |
abstract_algebra | 0 | none | 5 | acc | 0.2200 | ± | 0.0416 |
概要
[詳細情報が必要]
モデル検証
[詳細情報が必要]
環境への影響
炭素排出量はLacoste et al. (2019)で提示されたMachine Learning Impact calculatorを使用して推定できます。
- ハードウェアタイプ: A6000
- 使用時間: 34.74時間
- クラウドプロバイダー: n/a
- コンピュートリージョン: iowa
- 排出された炭素量: 4.5kg CO2eq.
技術仕様
モデルアーキテクチャと目的
Mistralアーキテクチャを用いた因果言語モデル
コンピュートインフラストラクチャ
ハードウェア
lambda vector 2xA6000
ソフトウェア
huggingface transformers / pytorch / カスタムトレーナー
📄 ライセンス
このモデルはApache 2.0ライセンスの下で提供されています。
Phi 2 GGUF
その他
Phi-2はマイクロソフトが開発した小型ながら強力な言語モデルで、27億のパラメータを持ち、効率的な推論と高品質なテキスト生成に特化しています。
大規模言語モデル 複数言語対応
P
TheBloke
41.5M
205
Roberta Large
MIT
マスク言語モデリングの目標で事前学習された大型英語言語モデルで、改良されたBERTの学習方法を採用しています。
大規模言語モデル 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERTはBERT基礎モデルの蒸留バージョンで、同等の性能を維持しながら、より軽量で高効率です。シーケンス分類、タグ分類などの自然言語処理タスクに適しています。
大規模言語モデル 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instructは多言語大規模言語モデルで、多言語対話ユースケースに最適化されており、一般的な業界ベンチマークで優れた性能を発揮します。
大規模言語モデル 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM - RoBERTaは、100言語の2.5TBのフィルタリングされたCommonCrawlデータを使って事前学習された多言語モデルで、マスク言語モデリングの目標で学習されています。
大規模言語モデル 複数言語対応
X
FacebookAI
9.6M
664
Roberta Base
MIT
Transformerアーキテクチャに基づく英語の事前学習モデルで、マスク言語モデリングの目標を通じて大量のテキストでトレーニングされ、テキスト特徴抽出と下流タスクの微調整をサポートします。
大規模言語モデル 英語
R
FacebookAI
9.3M
488
Opt 125m
その他
OPTはMeta AIが公開したオープンプリトレーニングトランスフォーマー言語モデルスイートで、パラメータ数は1.25億から1750億まであり、GPT-3シリーズの性能に対抗することを目指しつつ、大規模言語モデルのオープンな研究を促進するものです。
大規模言語モデル 英語
O
facebook
6.3M
198
1
transformersライブラリに基づく事前学習モデルで、様々なNLPタスクに適用可能
大規模言語モデル
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1はMetaが発表した多言語大規模言語モデルシリーズで、8B、70B、405Bのパラメータ規模を持ち、8種類の言語とコード生成をサポートし、多言語対話シーンを最適化しています。
大規模言語モデル
Transformers 複数言語対応

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5ベーシック版はGoogleによって開発されたテキスト-to-テキスト変換Transformerモデルで、パラメータ規模は2.2億で、多言語NLPタスクをサポートしています。
大規模言語モデル 複数言語対応
T
google-t5
5.4M
702
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98