Qra-1b開源波蘭語大語言模型 - 免費部署助力波蘭語內容生成

首頁

Qra 1b

由OPI-PG開發

Qra是由波蘭國家信息處理研究所與格但斯克理工大學聯合開發的波蘭語優化大語言模型系列，基於TinyLlama-1.1B初始化並在900億波蘭語token上訓練

大型語言模型

Transformers

開源協議:Apache-2.0 #波蘭語優化 #長文本處理 #低資源高效

下載量 246

發布時間 : 2/26/2024

模型概述

專為波蘭語優化的基礎語言模型，需微調後用於對話或指令任務

模型特點

波蘭語優化

基於900億精選波蘭語token訓練，專為波蘭語文本處理優化

高效訓練技術

採用Flash Attention 2、混合精度訓練、FSDP並行等現代優化技術

嚴格數據清洗

通過多階段過濾流程確保訓練數據質量，包括語言分類、主題劃分和去重處理

模型能力

波蘭語文本生成

長文本處理（4096 token上下文）

語言建模

使用案例

文本處理

波蘭語內容生成

生成符合波蘭語習慣的文本內容

語言模型微調基礎

作為下游任務（如對話系統）的基礎模型

🚀 Qra大語言模型

Qra是一系列適配波蘭語的大語言模型，由國家信息處理研究所（OPI）和格但斯克工業大學（PG）合作開發。這些模型在PG TASK計算中心的基礎設施上，使用21張英偉達A100顯卡進行訓練。發佈的Qra模型版本以英文Llama 2檢查點的權重為初始值，然後在經過精心清理、過濾和去重的波蘭語文本語料庫上進一步訓練，語料庫總計約900億個標記。原始語料庫主要由網絡數據組成，包括CommonCrawl轉儲數據和MADLAD - 400語料庫。

⚠️ 重要提示： Qra是基於因果語言建模目標在大型文本語料庫上訓練的基礎語言模型。因此，它們並非用於對話或遵循指令的目的，若要用於此類任務，需要進一步微調。

✨ 主要特性

適配波蘭語：專門針對波蘭語進行訓練，能更好地處理波蘭語相關任務。
先進訓練優化：訓練過程中使用了多種現代優化技術，如torch.compile、adamw_apex_fused優化器、Flash Attention 2等。
多步驟預處理：對訓練語料進行了全面的預處理，包括文本歸一化、去除短文檔、基於質量分類器過濾等。

📚 詳細文檔

預處理流程

預處理流程包含以下步驟：

文本歸一化，去除URL。
去除長度小於500個字符的文檔。
使用一組啟發式規則清理文檔中的句子。例如，去除主要由非字母字符組成的句子，以及非波蘭語和英語的句子。
使用基於數千個手動標記為高質量或低質量的文檔集訓練的質量分類器過濾文檔。分類器的輸入是一組統計信息（“質量信號”），如波蘭語單詞的百分比、平均單詞和句子長度、單詞和字符重複次數、文本中不同字符類別的比例。
根據輕量級KenLM語言模型計算的困惑度值過濾文檔。
使用訓練好的分類器將文檔分配到18個主題領域之一。
在每個主題領域內使用MinHash算法進行模糊去重。

文檔按主題的最終分佈如下所示：

模型細節

這些模型在4096個標記的序列上訓練了一個週期。訓練期間，使用了許多現代優化技術，例如：

torch.compile
adamw_apex_fused優化器
Flash Attention 2
混合精度 (--bf16 和 --tf32 選項)
梯度累積
全分片數據並行（FSDP），採用SHARD_GRAD_OP模式
梯度檢查點（僅適用於13B模型）

以下是Qra - 1B模型的概要信息：

屬性	詳情
改編自	TinyLlama - 1.1B
許可證	Apache 2.0
批量大小	1344
上下文長度	4096
學習率	2e - 5
學習率衰減	餘弦
預熱步驟	0
訓練時間	2天

評估

在本節中，我們將Qra模型在波蘭語文本上的困惑度與其他波蘭語和英語大語言模型進行比較。

請注意，不同文本分割之間的困惑度值不可直接比較。因此，我們只能基於使用相同分詞器的模型之間的比較得出結論，例如Qra和原始的Llama / TinyLLama。

PolEval - 2018

2018年，PolEval競賽包含一個語言建模任務，為此提供了總計超過2000萬條波蘭語句子的訓練集和測試集。我們使用測試集中的前10000條句子來評估現代神經語言模型。為了計算困惑度，我們使用了HuggingFace Evaluate庫中的腳本。

模型	困惑度
英文模型
meta - llama/Llama - 2 - 7b - hf	24.3
meta - llama/Llama - 2 - 13b - hf	21.4
mistralai/Mistral - 7B - v0.1	21.4
TinyLlama/TinyLlama - 1.1B	40.4
波蘭語模型
sdadas/polish - gpt2 - small	134.4
sdadas/polish - gpt2 - medium	100.8
sdadas/polish - gpt2 - large	93.2
sdadas/polish - gpt2 - xl	94.1
Azurro/APT3 - 275M - Base	129.8
Azurro/APT3 - 500M - Base	153.1
Azurro/APT3 - 1B - Base	106.8
eryk - mazus/polka - 1.1b	18.1
szymonrucinski/Curie - 7B - v1	13.5
Qra模型
OPI - PG/Qra - 1b	14.7
OPI - PG/Qra - 7b	11.3
OPI - PG/Qra - 13b	10.5

長文檔（2024）

目前，大語言模型支持數千個標記的上下文。其實際應用通常也涉及處理長文檔。因此，在基於句子的數據集（如PolEval - 2018）上評估困惑度可能沒有意義。此外，PolEval語料庫在過去幾年中已在互聯網上公開，這可能導致某些模型的訓練集受到該數據的汙染。因此，我們準備了一個新的語料庫，由2024年獨家發表的長論文組成，這將使我們能夠更可靠地測試模型對訓練時無法獲取的新知識的困惑度。該語料庫由5000篇文檔組成，長度從幾百個標記到約20000個標記不等。其中一半是2024年2月波蘭新聞門戶網站的新聞文本，另一半是自2024年1月以來發表的科學文章。大多數文檔超過了評估模型的上下文大小。為了計算這些文檔的困惑度，我們按照此示例將它們分割成大小等於模型上下文長度的塊，步長為512個標記。

模型	上下文	困惑度
英文模型
meta - llama/Llama - 2 - 7b - hf	4096	5.9
meta - llama/Llama - 2 - 13b - hf	4096	5.3
mistralai/Mistral - 7B - v0.1	4096	4.9
TinyLlama/TinyLlama - 1.1B	2048	9.6
波蘭語模型
sdadas/polish - gpt2 - small	2048	27.3
sdadas/polish - gpt2 - medium	2048	20.3
sdadas/polish - gpt2 - large	1536	18.0
sdadas/polish - gpt2 - xl	1536	16.6
Azurro/APT3 - 275M - Base	2048	77.0
Azurro/APT3 - 500M - Base	2048	50.5
Azurro/APT3 - 1B - Base	2048	19.1
eryk - mazus/polka - 1.1b	2048	6.9
szymonrucinski/Curie - 7B - v1	4096	4.8
Qra模型
OPI - PG/Qra - 1b	4096	6.1
OPI - PG/Qra - 7b	4096	4.5
OPI - PG/Qra - 13b	4096	4.2