🚀 t5-small-standard-bahasa-cased
這是一個為馬來語預訓練的小型標準T5語言模型,能夠處理多種自然語言處理任務,為馬來語的相關應用提供強大支持。
🚀 快速開始
你可以通過安裝 torch
或 tensorflow
以及Huggingface庫 transformers
來使用這個模型。以下是初始化並使用它的示例代碼:
from transformers import T5Tokenizer, T5Model
model = T5Model.from_pretrained('malay-huggingface/t5-small-bahasa-cased')
tokenizer = T5Tokenizer.from_pretrained('malay-huggingface/t5-small-bahasa-cased')
✨ 主要特性
- 該模型在多個任務上進行了預訓練,包括語言掩碼任務、新聞標題預測、下一句預測、翻譯問答、文本相似度任務、英馬翻譯、馬英翻譯、摘要生成、知識圖譜三元組生成和釋義等。
- 支持多種前綴,可用於不同類型的任務,如問答、摘要、標題生成、釋義、翻譯等。
📦 安裝指南
要使用此模型,你需要安裝 torch
或 tensorflow
以及Huggingface庫 transformers
。
💻 使用示例
基礎用法
from transformers import T5Tokenizer, T5Model
model = T5Model.from_pretrained('malay-huggingface/t5-small-bahasa-cased')
tokenizer = T5Tokenizer.from_pretrained('malay-huggingface/t5-small-bahasa-cased')
高級用法
from transformers import T5Tokenizer, T5ForConditionalGeneration
tokenizer = T5Tokenizer.from_pretrained('malay-huggingface/t5-small-bahasa-cased')
model = T5ForConditionalGeneration.from_pretrained('malay-huggingface/t5-small-bahasa-cased')
input_ids = tokenizer.encode('soalan: siapakah perdana menteri malaysia?', return_tensors = 'pt')
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
輸出結果為:
'Mahathir Mohamad'
📚 詳細文檔
預訓練語料庫
t5-small-standard-bahasa-cased
模型在多個任務上進行了預訓練,以下是訓練任務列表:
- 對馬來語新聞、馬來語維基百科、馬來語Academia.edu、馬來語議會記錄和翻譯後的The Pile進行語言掩碼任務。
- 對馬來語新聞進行新聞標題預測。
- 對馬來語新聞、馬來語維基百科、馬來語Academia.edu、馬來語議會記錄和翻譯後的The Pile進行下一句預測。
- 翻譯自然問答。
- 對翻譯後的SNLI和翻譯後的MNLI進行文本相似度任務。
- 英馬翻譯。
- 馬英翻譯。
- 摘要生成。
- 知識圖譜三元組生成。
- 釋義。
準備步驟可在 https://github.com/huseinzol05/malaya/tree/master/pretrained-model/t5/prepare 重現。
支持的前綴
soalan: {string}
,使用自然問答進行訓練。
ringkasan: {string}
,用於摘要生成。
tajuk: {string}
,用於生成摘要標題。
parafrasa: {string}
,用於摘要釋義。
terjemah Inggeris ke Melayu: {string}
,用於英馬翻譯。
terjemah Melayu ke Inggeris: {string}
,用於馬英翻譯。
grafik pengetahuan: {string}
,用於將馬來語文本轉換為英文知識圖譜三元組格式。
ayat1: {string1} ayat2: {string2}
,用於語義相似度任務。
🔧 技術細節
- 該模型使用Google T5倉庫(https://github.com/google-research/text-to-text-transfer-transformer)在v3 - 8 TPU上進行訓練。
- 所有步驟可從這裡重現:https://github.com/huseinzol05/Malaya/tree/master/pretrained-model/t5 。
屬性 |
詳情 |
模型類型 |
預訓練的T5小型標準馬來語模型 |
訓練數據 |
馬來語新聞、馬來語維基百科、馬來語Academia.edu、馬來語議會記錄、翻譯後的The Pile、翻譯後的SNLI、翻譯後的MNLI等 |