VBART-Medium-Base開源序列到序列大模型 - 基於土耳其語料助力應用開發

首頁

VBART Medium Base

由vngrs-ai開發

VBART是首個基於土耳其語語料庫從頭開始大規模預訓練的序列到序列大型語言模型，由VNGRS開發。

大型語言模型

Transformers

其他#土耳其語文本生成 #序列到序列模型 #預訓練基礎模型

下載量 61

發布時間 : 3/22/2024

模型概述

VBART是基於mBART架構的Transformer編碼器-解碼器模型，專門針對土耳其語進行預訓練。經過微調後，該模型能夠執行條件文本生成任務，如文本摘要、改寫和標題生成。

模型特點

土耳其語專用模型

首個基於土耳其語語料庫從頭開始大規模預訓練的序列到序列模型

高效性能

儘管規模較小，但其性能優於多語言同類模型

大規模預訓練

預訓練總token量達630億，使用高質量過濾的土耳其語數據集

模型能力

文本摘要

文本改寫

標題生成

條件文本生成

使用案例

文本處理

新聞摘要

將長篇新聞文章自動生成簡潔摘要

內容改寫

對現有文本進行改寫以生成不同表達方式的版本

🚀 VBART模型卡片

VBART是首個在土耳其語語料庫上大規模從頭開始預訓練的序列到序列大語言模型。它由VNGRS於2023年2月完成預訓練。該模型在微調後能夠執行條件文本生成任務，如文本摘要、釋義和標題生成。儘管它比其他實現小得多，但性能卻優於多語言同類模型。

本倉庫包含VBART-Medium-Base的預訓練TensorFlow和Safetensors權重。

🚀 快速開始

本模型卡片詳細介紹了VBART模型的相關信息，包括模型描述、訓練細節和引用方式等，幫助你快速瞭解該模型。

✨ 主要特性

首個在土耳其語語料庫上大規模從頭預訓練的序列到序列大語言模型。
微調後可執行文本摘要、釋義和標題生成等條件文本生成任務。
儘管模型規模較小，但性能優於多語言同類模型。

📚 詳細文檔

模型描述

開發者：VNGRS-AI
模型類型：基於mBART架構的Transformer編碼器 - 解碼器
語言（NLP）：土耳其語
許可證：CC BY - NC - SA 4.0
論文：arXiv

訓練詳情

訓練數據

基礎模型在vngrs - web - corpus上進行預訓練。該語料庫是通過清理和過濾OSCAR - 2201和mC4數據集中的土耳其語部分而整理得到的。這些數據集包含非結構化網絡爬取數據的文檔。有關數據集的更多信息可在其各自的頁面上找到。數據使用一組啟發式方法和特定規則進行過濾，具體內容在我們的論文附錄中有詳細說明。

侷限性

此模型是預訓練的基礎模型，能夠進行掩碼語言建模。其目的是作為基礎模型，用於下游任務的微調。

訓練過程

總共預訓練了630億個標記。

硬件：
- GPU：8 x Nvidia A100 - 80 GB
軟件：
- TensorFlow
超參數：
- 預訓練：
  - 訓練機制：fp16混合精度
  - 訓練目標：跨度掩碼（使用從泊松分佈λ = 3.5採樣的掩碼長度，掩碼30%的標記）
  - 優化器：Adam優化器（β1 = 0.9，β2 = 0.98，Ɛ = 1e - 6）
  - 調度器：來自原始Transformers論文的自定義調度器（20,000個熱身步驟）
  - 丟棄率：0.1
  - 初始學習率：5e - 6
  - 訓練標記：630億

引用

@article{turker2024vbart,
  title={VBART: The Turkish LLM},
  author={Turker, Meliksah and Ari, Erdi and Han, Aydin},
  journal={arXiv preprint arXiv:2403.01308},
  year={2024}
}