🚀 開源Solar-Ko模型
Solar-Ko是upstage/SOLAR-10.7B-v1.0模型的高級迭代版本,它擴展了詞彙表,並加入了韓語語料庫進行增強預訓練。Open-Solar-Ko僅使用公開可用的韓語語料庫,如AI Hub、Modu Corpus, 모두의 말뭉치和Korean Wikipedia。由於該模型僅使用公開語料庫進行訓練,因此遵循Apache2.0開源許可證,可供所有人自由使用。
🚀 快速開始
此部分文檔未提供快速開始的相關內容,若有需要可參考模型使用的相關代碼庫或官方文檔進行操作。
✨ 主要特性
- 詞彙擴展:在原始Solar模型基礎上,擴展了韓語詞彙,提升了對韓語的處理能力。
- 公開語料訓練:僅使用公開可用的韓語語料庫進行訓練,遵循開源協議,可自由使用。
- 優化架構:基於Llama - 2的優化Transformer架構,性能更優。
📚 詳細文檔
模型詳情
- 模型開發者:Junbum Lee (Beomi)
- 模型變體:Solar-Ko有一個參數規模版本,即10B持續預訓練版本。
- 輸入輸出:模型僅接受文本輸入,並輸出文本。
- 模型架構:SOLAR-KO-10.7B是一個自迴歸語言模型,採用了源自Llama - 2的優化Transformer架構。
屬性 |
詳情 |
模型類型 |
自迴歸語言模型,基於Llama - 2的優化Transformer架構 |
訓練數據 |
精選自AI Hub和Modu Corpus的公開韓語語料庫 |
參數數量 |
10.7B |
內容長度 |
4k |
GQA |
支持 |
總詞元數 |
約150億詞元(使用擴展分詞器;使用原始SOLAR分詞器,>600億詞元) |
學習率 |
5e-5 |
訓練語料
模型使用了從AI Hub和Modu Corpus中精選的數據集進行訓練。訓練數據集的詳細信息如下:
用於訓練該模型的最終JSONL數據集大小約為61GB,總詞元數約為150億(使用擴展分詞器;使用原始SOLAR分詞器,>600億詞元)。
詞彙擴展
模型名稱 |
詞彙表大小 |
描述 |
原始Solar |
32000 |
Sentencepiece BPE |
擴展後的SOLAR-KO-10.7B |
46592 |
Sentencepiece BPE,增加了韓語詞彙和合並規則 |
詞元化示例
對“안녕하세요, 오늘은 날씨가 좋네요.”進行詞元化
- SOLAR-10.7B:26個詞元
- SOLAR-KO-10.7b:8個詞元
模型 |
詞元 |
SOLAR-10.7B |
['▁', '안', '<0xEB>', '<0x85>', '<0x95>', '하', '세', '요', ',', '▁', '오', '<0xEB>', '<0x8A>', '<0x98>', '은', '▁', '날', '<0xEC>', '<0x94>', '<0xA8>', '가', '▁', '좋', '네', '요', '.'] |
SOLAR-KO-10.7B |
['▁안녕', '하세요', ',', '▁오늘은', '▁날', '씨가', '▁좋네요', '.'] |
對“Meet 10.7B Solar: Elevating Performance with Upstage Depth UP Scaling!”進行詞元化
- SOLAR-10.7B:22個詞元
- SOLAR-KO-10.7b:22個詞元
模型 |
詞元 |
SOLAR-10.7B |
['▁Meet', '▁', '1', '0', '.', '7', 'B', '▁Solar', ':', '▁E', 'lev', 'ating', '▁Performance', '▁with', '▁Up', 'stage', '▁Dep', 'th', '▁UP', '▁Scal', 'ing', '!'] |
SOLAR-KO-10.7B |
['▁Meet', '▁', '1', '0', '.', '7', 'B', '▁Solar', ':', '▁E', 'lev', 'ating', '▁Performance', '▁with', '▁Up', 'stage', '▁Dep', 'th', '▁UP', '▁Scal', 'ing', '!'] |
模型基準測試
LM Eval Harness - 韓語 (polyglot分支)
使用了EleutherAI的lm - evaluation - harness:https://github.com/EleutherAI/lm-evaluation-harness/tree/polyglot
測試指標 |
0 |
5 |
10 |
50 |
kobest_boolq (macro_f1) |
0.853949 |
0.88098 |
0.898139 |
0.902354 |
kobest_copa (macro_f1) |
0.804531 |
0.826736 |
0.837656 |
0.860899 |
kobest_hellaswag (macro_f1) |
0.507174 |
0.500983 |
0.487287 |
0.512182 |
kobest_sentineg (macro_f1) |
0.3517 |
0.972291 |
0.977321 |
0.984884 |
kohatespeech (macro_f1) |
0.258111 |
0.403957 |
0.386808 |
0.462393 |
kohatespeech_apeach (macro_f1) |
0.337667 |
0.651697 |
0.705337 |
0.827757 |
kohatespeech_gen_bias (macro_f1) |
0.124535 |
0.503464 |
0.498501 |
0.443218 |
korunsmile (f1) |
0.3814 |
0.356939 |
0.369989 |
0.296193 |
nsmc (acc) |
0.5356 |
0.87162 |
0.88654 |
0.89632 |
pawsx_ko (acc) |
0.5435 |
0.5245 |
0.5315 |
0.5385 |
引用信息
@misc {solar_ko_junbum_2023,
author = { {L. Junbum} },
title = { Solar-Ko-10.7b },
year = 2024,
url = { https://huggingface.co/beomi/SOLAR-KO-10.7B },
publisher = { Hugging Face }
}
致謝
📄 許可證
本模型遵循Apache 2.0開源許可證。