distilgpt2-base-pretrained-he開源希伯來文本生成模型

首頁

Distilgpt2 Base Pretrained He

由Norod78開發

基於GPT2架構的微型希伯來文本生成模型，通過TPU和GPU訓練完成

大型語言模型其他開源協議:MIT #希伯來語生成 #微型GPT2 #多源數據訓練

下載量 1,632

發布時間 : 3/2/2022

模型概述

這是一個專門針對希伯來語優化的文本生成模型，基於GPT2架構進行蒸餾和微調，適用於希伯來語相關的自然語言處理任務

模型特點

希伯來語優化

專門針對希伯來語進行訓練和優化，能夠生成流暢的希伯來語文本

蒸餾架構

基於GPT2架構進行蒸餾，保持性能的同時減小模型規模

多數據源訓練

使用OSCAR語料庫、CC-100、推特和維基百科等多種希伯來語數據源進行訓練

模型能力

希伯來語文本生成

上下文理解

語言模型微調

使用案例

內容創作

故事續寫

根據給定的希伯來語開頭續寫故事

示例中展示了'地球上最後一個人獨自坐在房間裡，突然傳來敲門聲'的生成結果

對話系統

對話生成

生成希伯來語的對話響應

示例中展示了'你好，我叫'的對話開頭生成

🚀 distilgpt2-base-pretrained-he

這是一個基於微小GPT2架構的希伯來語文本生成模型。該模型最初在TPUv3 - 8上進行訓練，TPU資源由TPU研究雲計劃提供。隨後，在GPU上進行了進一步的微調。

🚀 快速開始

本模型可用於希伯來語文本生成任務。以下是使用示例代碼，你可以按照代碼中的步驟加載模型並生成文本。

✨ 主要特性

基於微小GPT2架構，適合希伯來語文本生成。
經過TPU和GPU的訓練與微調，性能更優。

📚 詳細文檔

📦 數據集

oscar (unshuffled deduplicated he) - 主頁 | 數據集永久鏈接
- 開放超大爬取ALMAnaCH語料庫（Open Super - large Crawled ALMAnaCH coRpus）是一個龐大的多語言語料庫。它通過使用goclassy架構對Common Crawl語料庫進行語言分類和過濾而獲得。
CC - 100 (he) - 主頁
- 該語料庫包含100多種語言的單語數據，還包括羅馬化語言的數據。它是通過處理2018年1月至12月的Commoncrawl快照，利用CC - Net倉庫提供的URL和段落索引構建而成。每個文件包含由雙換行符分隔的文檔，同一文檔內的段落由換行符分隔。數據使用開源的CC - Net倉庫生成。
其他
- 希伯來語推特數據
- 維基百科數據
- 其他各種來源的數據

🔧 訓練過程

使用[Huggingface的clm - flax示例腳本](https://github.com/huggingface/transformers/blob/master/examples/flax/language - modeling/run_clm_flax.py)在TPUv3 - 8虛擬機上完成訓練。
整理了一份可能有助於他人使用此腳本的注意事項列表，併發布到了[此討論論壇](https://discuss.huggingface.co/t/ideas - for - beginner - friendlier - tpu - vm - clm - training/8351)。
在GPU上進行了進一步的訓練。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline

def main():
    model_name="Norod78/distilgpt2-base-pretrained-he"

    prompt_text = "שלום, קוראים לי"
    generated_max_length = 192

    print("Loading model...")
    model =  AutoModelForCausalLM.from_pretrained(model_name)
    print('Loading Tokenizer...')
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    text_generator = pipeline(task="text-generation", model=model, tokenizer=tokenizer)

    print("Generating text...")
    result = text_generator(prompt_text, num_return_sequences=1, batch_size=1, do_sample=True, top_k=40, top_p=0.92, temperature = 1, repetition_penalty=5.0, max_length = generated_max_length)

    print("result = " + str(result))

if __name__ == '__main__':
    main()