🚀 Qra大語言模型
Qra是一系列適配波蘭語的大語言模型,由國家信息處理研究所(OPI)和格但斯克工業大學(PG)合作開發。這些模型在PG TASK計算中心的基礎設施上,使用21張英偉達A100顯卡進行訓練。發佈的Qra模型版本以英文Llama 2檢查點的權重為初始值,然後在經過精心清理、過濾和去重的波蘭語文本語料庫上進一步訓練,語料庫總計約900億個標記。原始語料庫主要由網絡數據組成,包括CommonCrawl轉儲數據和MADLAD - 400語料庫。
⚠️ 重要提示:
Qra是基於因果語言建模目標在大型文本語料庫上訓練的基礎語言模型。因此,它們並非用於對話或遵循指令的目的,若要用於此類任務,需要進一步微調。
✨ 主要特性
- 適配波蘭語:專門針對波蘭語進行訓練,能更好地處理波蘭語相關任務。
- 先進訓練優化:訓練過程中使用了多種現代優化技術,如
torch.compile
、adamw_apex_fused
優化器、Flash Attention 2
等。
- 多步驟預處理:對訓練語料進行了全面的預處理,包括文本歸一化、去除短文檔、基於質量分類器過濾等。
📚 詳細文檔
預處理流程
預處理流程包含以下步驟:
- 文本歸一化,去除URL。
- 去除長度小於500個字符的文檔。
- 使用一組啟發式規則清理文檔中的句子。例如,去除主要由非字母字符組成的句子,以及非波蘭語和英語的句子。
- 使用基於數千個手動標記為高質量或低質量的文檔集訓練的質量分類器過濾文檔。分類器的輸入是一組統計信息(“質量信號”),如波蘭語單詞的百分比、平均單詞和句子長度、單詞和字符重複次數、文本中不同字符類別的比例。
- 根據輕量級KenLM語言模型計算的困惑度值過濾文檔。
- 使用訓練好的分類器將文檔分配到18個主題領域之一。
- 在每個主題領域內使用MinHash算法進行模糊去重。
文檔按主題的最終分佈如下所示:
模型細節
這些模型在4096個標記的序列上訓練了一個週期。訓練期間,使用了許多現代優化技術,例如:
以下是Qra - 1B模型的概要信息:
屬性 |
詳情 |
改編自 |
TinyLlama - 1.1B |
許可證 |
Apache 2.0 |
批量大小 |
1344 |
上下文長度 |
4096 |
學習率 |
2e - 5 |
學習率衰減 |
餘弦 |
預熱步驟 |
0 |
訓練時間 |
2天 |
評估
在本節中,我們將Qra模型在波蘭語文本上的困惑度與其他波蘭語和英語大語言模型進行比較。
請注意,不同文本分割之間的困惑度值不可直接比較。因此,我們只能基於使用相同分詞器的模型之間的比較得出結論,例如Qra和原始的Llama / TinyLLama。
PolEval - 2018
2018年,PolEval競賽包含一個語言建模任務,為此提供了總計超過2000萬條波蘭語句子的訓練集和測試集。我們使用測試集中的前10000條句子來評估現代神經語言模型。為了計算困惑度,我們使用了HuggingFace Evaluate庫中的腳本。
模型 |
困惑度 |
英文模型 |
|
meta - llama/Llama - 2 - 7b - hf |
24.3 |
meta - llama/Llama - 2 - 13b - hf |
21.4 |
mistralai/Mistral - 7B - v0.1 |
21.4 |
TinyLlama/TinyLlama - 1.1B |
40.4 |
波蘭語模型 |
|
sdadas/polish - gpt2 - small |
134.4 |
sdadas/polish - gpt2 - medium |
100.8 |
sdadas/polish - gpt2 - large |
93.2 |
sdadas/polish - gpt2 - xl |
94.1 |
Azurro/APT3 - 275M - Base |
129.8 |
Azurro/APT3 - 500M - Base |
153.1 |
Azurro/APT3 - 1B - Base |
106.8 |
eryk - mazus/polka - 1.1b |
18.1 |
szymonrucinski/Curie - 7B - v1 |
13.5 |
Qra模型 |
|
OPI - PG/Qra - 1b |
14.7 |
OPI - PG/Qra - 7b |
11.3 |
OPI - PG/Qra - 13b |
10.5 |
長文檔(2024)
目前,大語言模型支持數千個標記的上下文。其實際應用通常也涉及處理長文檔。因此,在基於句子的數據集(如PolEval - 2018)上評估困惑度可能沒有意義。此外,PolEval語料庫在過去幾年中已在互聯網上公開,這可能導致某些模型的訓練集受到該數據的汙染。因此,我們準備了一個新的語料庫,由2024年獨家發表的長論文組成,這將使我們能夠更可靠地測試模型對訓練時無法獲取的新知識的困惑度。該語料庫由5000篇文檔組成,長度從幾百個標記到約20000個標記不等。其中一半是2024年2月波蘭新聞門戶網站的新聞文本,另一半是自2024年1月以來發表的科學文章。大多數文檔超過了評估模型的上下文大小。為了計算這些文檔的困惑度,我們按照此示例將它們分割成大小等於模型上下文長度的塊,步長為512個標記。
模型 |
上下文 |
困惑度 |
英文模型 |
|
|
meta - llama/Llama - 2 - 7b - hf |
4096 |
5.9 |
meta - llama/Llama - 2 - 13b - hf |
4096 |
5.3 |
mistralai/Mistral - 7B - v0.1 |
4096 |
4.9 |
TinyLlama/TinyLlama - 1.1B |
2048 |
9.6 |
波蘭語模型 |
|
|
sdadas/polish - gpt2 - small |
2048 |
27.3 |
sdadas/polish - gpt2 - medium |
2048 |
20.3 |
sdadas/polish - gpt2 - large |
1536 |
18.0 |
sdadas/polish - gpt2 - xl |
1536 |
16.6 |
Azurro/APT3 - 275M - Base |
2048 |
77.0 |
Azurro/APT3 - 500M - Base |
2048 |
50.5 |
Azurro/APT3 - 1B - Base |
2048 |
19.1 |
eryk - mazus/polka - 1.1b |
2048 |
6.9 |
szymonrucinski/Curie - 7B - v1 |
4096 |
4.8 |
Qra模型 |
|
|
OPI - PG/Qra - 1b |
4096 |
6.1 |
OPI - PG/Qra - 7b |
4096 |
4.5 |
OPI - PG/Qra - 13b |
4096 |
4.2 |
📄 許可證
本項目採用Apache 2.0許可證。