🚀 Open-Solar-Ko
Solar-Koは、upstage/SOLAR-10.7B-v1.0モデルの高度なバージョンで、語彙を拡張し、韓国語コーパスを追加して事前学習を強化しています。Open-Solar-Koは、AI Hub、Modu Corpus, 모두의 말뭉치、Korean Wikipediaなどの公開されている韓国語コーパスのみを利用しています。このモデルは、公開されているコーパスのみで学習されているため、Apache2.0オープンソースライセンスに基づき、誰でも無制限に使用できます。
🚀 クイックスタート
このセクションでは、Open-Solar-Koモデルの概要と基本的な使い方を説明します。
✨ 主な機能
- 拡張された韓国語語彙を持つ事前学習済み言語モデル。
- Llama-2から派生した最適化されたトランスフォーマーアーキテクチャを利用。
- 公開されている韓国語コーパスのみを使用して学習され、誰でも自由に利用できる。
📦 インストール
READMEに具体的なインストール手順が記載されていないため、このセクションは省略されます。
💻 使用例
READMEに具体的なコード例が記載されていないため、このセクションは省略されます。
📚 ドキュメント
モデルの詳細
- モデル開発者: Junbum Lee (Beomi)
- バリエーション: Solar-Koは、1つのパラメータサイズ(10Bの継続的事前学習バージョン)で利用可能です。
- 入力: このモデルはテキスト入力のみを受け付けます。
- 出力: このモデルはテキスト出力のみを生成します。
- モデルアーキテクチャ: SOLAR-KO-10.7Bは、Llama-2から派生した最適化されたトランスフォーマーアーキテクチャを利用した自己回帰型言語モデルです。
Property |
Details |
モデルタイプ |
SOLAR-KO-10.7Bは、Llama-2から派生した最適化されたトランスフォーマーアーキテクチャを利用した自己回帰型言語モデル |
学習データ |
公開されている韓国語コーパスの選択されたデータセット |
パラメータ |
10.7B |
コンテンツ長 |
4k |
GQA |
O |
トークン |
>15B* |
学習率 |
5e-5 |
学習コーパス
このモデルは、AIHubとModu Corpusから選択されたデータセットを使用して学習されました。学習データセットの詳細情報は以下の通りです。
このモデルの学習に使用された最終的なJSONLデータセットのサイズは約61GBです。総トークン数は約150億トークン(*拡張トークナイザを使用。元のSOLARトークナイザでは、>600億トークン)です。
語彙拡張
モデル名 |
語彙サイズ |
説明 |
元のSolar |
32000 |
Sentencepiece BPE |
拡張されたSOLAR-KO-10.7B |
46592 |
Sentencepiece BPE。韓国語語彙とマージを追加 |
トークン化の例
"안녕하세요, 오늘은 날씨가 좋네요."のトークン化
モデル |
トークン数 |
トークン |
SOLAR-10.7B |
26 |
['▁', '안', '<0xEB>', '<0x85>', '<0x95>', '하', '세', '요', ',', '▁', '오', '<0xEB>', '<0x8A>', '<0x98>', '은', '▁', '날', '<0xEC>', '<0x94>', '<0xA8>', '가', '▁', '좋', '네', '요', '.'] |
SOLAR-KO-10.7B |
8 |
['▁안녕', '하세요', ',', '▁오늘은', '▁날', '씨가', '▁좋네요', '.'] |
"Meet 10.7B Solar: Elevating Performance with Upstage Depth UP Scaling!"のトークン化
モデル |
トークン数 |
トークン |
SOLAR-10.7B |
22 |
['▁Meet', '▁', '1', '0', '.', '7', 'B', '▁Solar', ':', '▁E', 'lev', 'ating', '▁Performance', '▁with', '▁Up', 'stage', '▁Dep', 'th', '▁UP', '▁Scal', 'ing', '!'] |
SOLAR-KO-10.7B |
22 |
['▁Meet', '▁', '1', '0', '.', '7', 'B', '▁Solar', ':', '▁E', 'lev', 'ating', '▁Performance', '▁with', '▁Up', 'stage', '▁Dep', 'th', '▁UP', '▁Scal', 'ing', '!'] |
モデルベンチマーク
LM Eval Harness - Korean (polyglot branch)
ベンチマーク |
0 |
5 |
10 |
50 |
kobest_boolq (macro_f1) |
0.853949 |
0.88098 |
0.898139 |
0.902354 |
kobest_copa (macro_f1) |
0.804531 |
0.826736 |
0.837656 |
0.860899 |
kobest_hellaswag (macro_f1) |
0.507174 |
0.500983 |
0.487287 |
0.512182 |
kobest_sentineg (macro_f1) |
0.3517 |
0.972291 |
0.977321 |
0.984884 |
kohatespeech (macro_f1) |
0.258111 |
0.403957 |
0.386808 |
0.462393 |
kohatespeech_apeach (macro_f1) |
0.337667 |
0.651697 |
0.705337 |
0.827757 |
kohatespeech_gen_bias (macro_f1) |
0.124535 |
0.503464 |
0.498501 |
0.443218 |
korunsmile (f1) |
0.3814 |
0.356939 |
0.369989 |
0.296193 |
nsmc (acc) |
0.5356 |
0.87162 |
0.88654 |
0.89632 |
pawsx_ko (acc) |
0.5435 |
0.5245 |
0.5315 |
0.5385 |
引用
@misc {solar_ko_junbum_2023,
author = { {L. Junbum} },
title = { Solar-Ko-10.7b },
year = 2024,
url = { https://huggingface.co/beomi/SOLAR-KO-10.7B },
publisher = { Hugging Face }
}
謝辞
🔧 技術詳細
SOLAR-KO-10.7Bは、Llama-2から派生した最適化されたトランスフォーマーアーキテクチャを利用した自己回帰型言語モデルです。このアーキテクチャは、韓国語の言語特性に合わせて最適化されており、拡張された韓国語語彙を持つ事前学習済み言語モデルを実現しています。
📄 ライセンス
このモデルは、Apache 2.0ライセンスの下で公開されています。