MIDI Transformer Mistral 10k Vocab 100k Steps
M
MIDI Transformer Mistral 10k Vocab 100k Steps
sunsetsobserverによって開発
このモデルは未知のデータセットでファインチューニングされたバージョンであり、具体的なタスクやアーキテクチャの情報は不明です。
ダウンロード数 44
リリース時間 : 2/21/2024
モデル概要
このモデルは未知のデータセットでファインチューニングされたバージョンで、評価セットでの精度は0.0013、損失は24.0950です。具体的な機能や用途はまだ明確ではありません。
モデル特徴
低精度
このモデルの評価セットでの精度はわずか0.0013で、性能が良くありません。
高損失
このモデルの評価セットでの損失は24.0950で、モデルの性能が低いことを示しています。
モデル能力
使用事例
🚀 runs
このモデルは、不明なデータセットで をファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。
- 損失: 24.0950
- 正解率: 0.0013
🚀 クイックスタート
このモデルは、特定のタスクに対してファインチューニングされたバージョンです。以下に評価セットでの結果を示します。
📚 ドキュメント
モデルの説明
このモデルは、不明なデータセットで をファインチューニングしたものです。
想定される用途と制限
詳細情報は後日提供予定です。
学習と評価データ
詳細情報は後日提供予定です。
学習手順
学習ハイパーパラメータ
学習中に以下のハイパーパラメータが使用されました。
- 学習率: 0.0001
- 学習バッチサイズ: 16
- 評価バッチサイズ: 48
- シード: 444
- 勾配蓄積ステップ: 3
- 総学習バッチサイズ: 48
- オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
- 学習率スケジューラの種類: cosine_with_restarts
- 学習率スケジューラのウォームアップ比率: 0.3
- 学習ステップ: 100000
- 混合精度学習: Native AMP
学習結果
学習損失 | エポック | ステップ | 検証損失 | 正解率 |
---|---|---|---|---|
8.2359 | 6.04 | 1000 | 8.2170 | 0.0070 |
7.7137 | 12.07 | 2000 | 7.7007 | 0.0064 |
6.5277 | 18.11 | 3000 | 6.5254 | 0.0000 |
6.0375 | 24.14 | 4000 | 6.0532 | 0.0000 |
5.6908 | 30.18 | 5000 | 5.7100 | 0.0001 |
5.4294 | 36.22 | 6000 | 5.4758 | 0.0002 |
5.2161 | 42.25 | 7000 | 5.2891 | 0.0006 |
5.0151 | 48.29 | 8000 | 5.1152 | 0.0021 |
4.8349 | 54.33 | 9000 | 4.9847 | 0.0020 |
4.6358 | 60.36 | 10000 | 4.8754 | 0.0022 |
4.4326 | 66.4 | 11000 | 4.7809 | 0.0021 |
4.2632 | 72.43 | 12000 | 4.7416 | 0.0017 |
4.0415 | 78.47 | 13000 | 4.7503 | 0.0016 |
3.8196 | 84.51 | 14000 | 4.8472 | 0.0014 |
3.6207 | 90.54 | 15000 | 5.0215 | 0.0014 |
3.3163 | 96.58 | 16000 | 5.2939 | 0.0014 |
3.0377 | 102.62 | 17000 | 5.6685 | 0.0014 |
2.7272 | 108.65 | 18000 | 6.1649 | 0.0013 |
2.4319 | 114.69 | 19000 | 6.7556 | 0.0013 |
2.1647 | 120.72 | 20000 | 7.3951 | 0.0013 |
1.9001 | 126.76 | 21000 | 8.0823 | 0.0013 |
1.6708 | 132.8 | 22000 | 8.8230 | 0.0013 |
1.4762 | 138.83 | 23000 | 9.5335 | 0.0013 |
1.2833 | 144.87 | 24000 | 10.1973 | 0.0013 |
1.1451 | 150.91 | 25000 | 10.8213 | 0.0013 |
1.0251 | 156.94 | 26000 | 11.4402 | 0.0013 |
0.9164 | 162.98 | 27000 | 11.9995 | 0.0013 |
0.8174 | 169.01 | 28000 | 12.5680 | 0.0013 |
0.6862 | 175.05 | 29000 | 13.0050 | 0.0013 |
0.5738 | 181.09 | 30000 | 13.4692 | 0.0013 |
0.4524 | 187.12 | 31000 | 13.9220 | 0.0013 |
0.4252 | 193.16 | 32000 | 14.3340 | 0.0013 |
0.3952 | 199.2 | 33000 | 14.7961 | 0.0013 |
0.3684 | 205.23 | 34000 | 15.2421 | 0.0013 |
0.3338 | 211.27 | 35000 | 15.6433 | 0.0013 |
0.307 | 217.3 | 36000 | 16.0182 | 0.0013 |
0.2951 | 223.34 | 37000 | 16.3087 | 0.0013 |
0.28 | 229.38 | 38000 | 16.6556 | 0.0013 |
0.2688 | 235.41 | 39000 | 16.9303 | 0.0013 |
0.2582 | 241.45 | 40000 | 17.2209 | 0.0013 |
0.238 | 247.48 | 41000 | 17.5311 | 0.0013 |
0.2261 | 253.52 | 42000 | 17.7731 | 0.0013 |
0.21 | 259.56 | 43000 | 18.0205 | 0.0013 |
0.2073 | 265.59 | 44000 | 18.2693 | 0.0013 |
0.1976 | 271.63 | 45000 | 18.4634 | 0.0013 |
0.1865 | 277.67 | 46000 | 18.7215 | 0.0012 |
0.1769 | 283.7 | 47000 | 18.9467 | 0.0013 |
0.1649 | 289.74 | 48000 | 19.1423 | 0.0013 |
0.1517 | 295.77 | 49000 | 19.3638 | 0.0013 |
0.1491 | 301.81 | 50000 | 19.5879 | 0.0013 |
0.1387 | 307.85 | 51000 | 19.7823 | 0.0013 |
0.1332 | 313.88 | 52000 | 19.9663 | 0.0013 |
0.1256 | 319.92 | 53000 | 20.1907 | 0.0013 |
0.1154 | 325.96 | 54000 | 20.3939 | 0.0013 |
0.1091 | 331.99 | 55000 | 20.5926 | 0.0013 |
0.0928 | 338.03 | 56000 | 20.8044 | 0.0013 |
0.0812 | 344.06 | 57000 | 20.9873 | 0.0013 |
0.0677 | 350.1 | 58000 | 21.1931 | 0.0013 |
0.0609 | 356.14 | 59000 | 21.3650 | 0.0013 |
0.058 | 362.17 | 60000 | 21.5868 | 0.0013 |
0.0532 | 368.21 | 61000 | 21.7740 | 0.0013 |
0.0481 | 374.25 | 62000 | 21.9339 | 0.0013 |
0.0358 | 380.28 | 63000 | 22.1660 | 0.0012 |
0.0117 | 386.32 | 64000 | 22.4226 | 0.0013 |
0.0768 | 392.35 | 65000 | 22.2193 | 0.0013 |
0.0339 | 398.39 | 66000 | 22.3833 | 0.0013 |
0.0191 | 404.43 | 67000 | 22.5927 | 0.0013 |
0.0493 | 410.46 | 68000 | 22.6069 | 0.0013 |
0.0115 | 416.5 | 69000 | 22.8652 | 0.0012 |
0.0111 | 422.54 | 70000 | 22.9982 | 0.0012 |
0.1182 | 428.57 | 71000 | 22.6628 | 0.0013 |
0.0118 | 434.61 | 72000 | 22.9036 | 0.0013 |
0.0111 | 440.64 | 73000 | 23.0692 | 0.0013 |
0.01 | 446.68 | 74000 | 23.1857 | 0.0013 |
0.0386 | 452.72 | 75000 | 22.9263 | 0.0013 |
0.0109 | 458.75 | 76000 | 23.1548 | 0.0013 |
0.0109 | 464.79 | 77000 | 23.2761 | 0.0012 |
0.0108 | 470.82 | 78000 | 23.3763 | 0.0013 |
0.0131 | 476.86 | 79000 | 23.2048 | 0.0013 |
0.0108 | 482.9 | 80000 | 23.3772 | 0.0013 |
0.0106 | 488.93 | 81000 | 23.4733 | 0.0013 |
0.0106 | 494.97 | 82000 | 23.5654 | 0.0013 |
0.0242 | 501.01 | 83000 | 23.5459 | 0.0013 |
0.0104 | 507.04 | 84000 | 23.5695 | 0.0013 |
0.01 | 513.08 | 85000 | 23.6659 | 0.0013 |
0.0098 | 519.11 | 86000 | 23.7337 | 0.0013 |
0.0097 | 525.15 | 87000 | 23.7961 | 0.0013 |
0.0097 | 531.19 | 88000 | 23.8573 | 0.0013 |
0.0097 | 537.22 | 89000 | 23.9052 | 0.0013 |
0.0097 | 543.26 | 90000 | 23.9524 | 0.0013 |
0.0096 | 549.3 | 91000 | 23.9823 | 0.0013 |
0.0096 | 555.33 | 92000 | 24.0084 | 0.0013 |
0.0095 | 561.37 | 93000 | 24.0364 | 0.0013 |
0.0095 | 567.4 | 94000 | 24.0545 | 0.0013 |
0.0094 | 573.44 | 95000 | 24.0701 | 0.0013 |
0.0094 | 579.48 | 96000 | 24.0826 | 0.0013 |
0.0093 | 585.51 | 97000 | 24.0898 | 0.0013 |
0.0093 | 591.55 | 98000 | 24.0935 | 0.0013 |
0.0093 | 597.59 | 99000 | 24.0944 | 0.0013 |
0.0092 | 603.62 | 100000 | 24.0950 | 0.0013 |
フレームワークのバージョン
- Transformers 4.37.2
- Pytorch 2.2.0+cu121
- Datasets 2.17.0
- Tokenizers 0.15.1
Phi 2 GGUF
その他
Phi-2はマイクロソフトが開発した小型ながら強力な言語モデルで、27億のパラメータを持ち、効率的な推論と高品質なテキスト生成に特化しています。
大規模言語モデル 複数言語対応
P
TheBloke
41.5M
205
Roberta Large
MIT
マスク言語モデリングの目標で事前学習された大型英語言語モデルで、改良されたBERTの学習方法を採用しています。
大規模言語モデル 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERTはBERT基礎モデルの蒸留バージョンで、同等の性能を維持しながら、より軽量で高効率です。シーケンス分類、タグ分類などの自然言語処理タスクに適しています。
大規模言語モデル 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instructは多言語大規模言語モデルで、多言語対話ユースケースに最適化されており、一般的な業界ベンチマークで優れた性能を発揮します。
大規模言語モデル 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM - RoBERTaは、100言語の2.5TBのフィルタリングされたCommonCrawlデータを使って事前学習された多言語モデルで、マスク言語モデリングの目標で学習されています。
大規模言語モデル 複数言語対応
X
FacebookAI
9.6M
664
Roberta Base
MIT
Transformerアーキテクチャに基づく英語の事前学習モデルで、マスク言語モデリングの目標を通じて大量のテキストでトレーニングされ、テキスト特徴抽出と下流タスクの微調整をサポートします。
大規模言語モデル 英語
R
FacebookAI
9.3M
488
Opt 125m
その他
OPTはMeta AIが公開したオープンプリトレーニングトランスフォーマー言語モデルスイートで、パラメータ数は1.25億から1750億まであり、GPT-3シリーズの性能に対抗することを目指しつつ、大規模言語モデルのオープンな研究を促進するものです。
大規模言語モデル 英語
O
facebook
6.3M
198
1
transformersライブラリに基づく事前学習モデルで、様々なNLPタスクに適用可能
大規模言語モデル
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1はMetaが発表した多言語大規模言語モデルシリーズで、8B、70B、405Bのパラメータ規模を持ち、8種類の言語とコード生成をサポートし、多言語対話シーンを最適化しています。
大規模言語モデル
Transformers 複数言語対応

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5ベーシック版はGoogleによって開発されたテキスト-to-テキスト変換Transformerモデルで、パラメータ規模は2.2億で、多言語NLPタスクをサポートしています。
大規模言語モデル 複数言語対応
T
google-t5
5.4M
702
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98