🚀 distilgpt2-base-pretrained-he
這是一個基於微小GPT2架構的希伯來語文本生成模型。該模型最初在TPUv3 - 8上進行訓練,TPU資源由TPU研究雲計劃提供。隨後,在GPU上進行了進一步的微調。
🚀 快速開始
本模型可用於希伯來語文本生成任務。以下是使用示例代碼,你可以按照代碼中的步驟加載模型並生成文本。
✨ 主要特性
- 基於微小GPT2架構,適合希伯來語文本生成。
- 經過TPU和GPU的訓練與微調,性能更優。
📚 詳細文檔
📦 數據集
- oscar (unshuffled deduplicated he) - 主頁 | 數據集永久鏈接
- 開放超大爬取ALMAnaCH語料庫(Open Super - large Crawled ALMAnaCH coRpus)是一個龐大的多語言語料庫。它通過使用goclassy架構對Common Crawl語料庫進行語言分類和過濾而獲得。
- CC - 100 (he) - 主頁
- 該語料庫包含100多種語言的單語數據,還包括羅馬化語言的數據。它是通過處理2018年1月至12月的Commoncrawl快照,利用CC - Net倉庫提供的URL和段落索引構建而成。每個文件包含由雙換行符分隔的文檔,同一文檔內的段落由換行符分隔。數據使用開源的CC - Net倉庫生成。
- 其他
- 希伯來語推特數據
- 維基百科數據
- 其他各種來源的數據
🔧 訓練過程
- 使用[Huggingface的clm - flax示例腳本](https://github.com/huggingface/transformers/blob/master/examples/flax/language - modeling/run_clm_flax.py)在TPUv3 - 8虛擬機上完成訓練。
- 整理了一份可能有助於他人使用此腳本的注意事項列表,併發布到了[此討論論壇](https://discuss.huggingface.co/t/ideas - for - beginner - friendlier - tpu - vm - clm - training/8351)。
- 在GPU上進行了進一步的訓練。
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
def main():
model_name="Norod78/distilgpt2-base-pretrained-he"
prompt_text = "שלום, קוראים לי"
generated_max_length = 192
print("Loading model...")
model = AutoModelForCausalLM.from_pretrained(model_name)
print('Loading Tokenizer...')
tokenizer = AutoTokenizer.from_pretrained(model_name)
text_generator = pipeline(task="text-generation", model=model, tokenizer=tokenizer)
print("Generating text...")
result = text_generator(prompt_text, num_return_sequences=1, batch_size=1, do_sample=True, top_k=40, top_p=0.92, temperature = 1, repetition_penalty=5.0, max_length = generated_max_length)
print("result = " + str(result))
if __name__ == '__main__':
main()
📄 許可證
本項目採用MIT許可證。