GEITje-7B-chat開源荷蘭語對話模型 - 額外訓練提升荷蘭語交流能力

首頁

Geitje 7B Chat

由Rijgersberg開發

基於Mistral 7B的大型開源荷蘭語對話模型，通過額外訓練100億荷蘭語文本標記顯著提升荷蘭語能力

大型語言模型

Transformers

其他開源協議:Apache-2.0 #荷蘭語對話優化 #Mistral微調 #長上下文支持

下載量 38

發布時間 : 12/10/2023

模型概述

GEITje-7B-chat是專為荷蘭語對話優化的70億參數大語言模型，支持指令執行、問題解答和多主題對話

模型特點

荷蘭語專項優化

通過100億荷蘭語標記訓練，顯著提升本土語言理解和生成能力

長上下文支持

繼承Mistral的8,192標記上下文窗口，適合處理長文本對話

全參數微調

採用全參數微調（非PEFT/LoRA），確保模型性能最大化

模型能力

荷蘭語文本生成

多輪對話處理

指令理解與執行

知識問答

使用案例

對話系統

客服機器人

用於荷蘭語客戶服務的自動化對話系統

教育輔助

幫助荷蘭語學習者進行語言練習和知識問答

🚀 GEITje-7B-chat

GEITje-7B-chat 是一個基於 Mistral 7B 開發的大型荷蘭語對話模型，擁有 70 億參數，經過大量荷蘭語文本訓練，提升了荷蘭語能力和相關知識。不過，由於 Stichting BREIN 的要求，該模型已停止服務。

⚠️ 重要提示

應荷蘭反盜版組織 Stichting BREIN 的緊急要求，GEITje 從即刻起停止服務。

所有模型文件（權重）和檢查點已從該倉庫中刪除。更多詳情請查看我的博客文章（荷蘭語，英語）。

🐐 查看 GEITje-7b-chat-v2 🐐

✨ 主要特性

基於強大的基礎模型

GEITje 基於 Mistral 7B 構建，這是一個由 Mistral AI 訓練的擁有 70 億參數的大型開源語言模型。據 Mistral AI 稱，7B 模型在所有（英語）基準測試中的表現優於 Llama 2 13B。Mistral 7B 已根據 Apache 2.0 開源許可證發佈。

針對荷蘭語文本進一步訓練

GEITje 通過在來自荷蘭語巨型語料庫和 MADLAD-400 網絡爬蟲語料庫的不少於 100 億荷蘭語標記上對 Mistral 7B 進行進一步訓練而創建。這是一種所謂的“全參數微調”，即對所有參數進行微調，而非 PEFT 或 LoRA 微調。與 Mistral 一樣，GEITje 的上下文長度為 8192 個標記。

針對對話進行微調

作為 GEITje 在聊天應用中能力的展示，還對 GEITje 的兩個初始聊天變體進行了微調：GEITje-chat 和 GEITje-chat-v2。它們可以遵循指令、回答問題並就各種主題進行對話。

📚 詳細文檔

在 GitHub 上的 📄 README 中瞭解更多關於 GEITje-chat 的信息。

🔧 技術細節

檢查點

中間檢查點可在 checkpoints 分支中獲取。

訓練過程

訓練超參數

訓練期間使用了以下超參數：

學習率：1e-05
訓練批次大小：2
評估批次大小：8
隨機種子：42
梯度累積步數：8
總訓練批次大小：16
優化器：Adam，β=(0.9, 0.999)，ε=1e-08
學習率調度器類型：餘弦
學習率調度器預熱比例：0.1
訓練輪數：3

訓練結果

訓練損失	輪數	步數	驗證損失
1.0263	0.2	236	0.9482
1.0368	0.4	472	0.9574
0.9503	0.6	708	0.9492
1.1419	0.8	944	0.9406
1.2161	1.0	1180	0.9317
0.6695	1.2	1416	0.9407
0.7379	1.4	1652	0.9350
0.7695	1.6	1888	0.9282
0.6795	1.8	2124	0.9218
0.6217	2.0	2360	0.9174
0.438	2.2	2596	0.9546
0.3719	2.39	2832	0.9546
0.4853	2.59	3068	0.9548
0.3852	2.79	3304	0.9548
0.48	2.99	3540	0.9548