🚀 t5-tiny-standard-bahasa-cased
這是一個為馬來語預訓練的T5微型標準語言模型,能夠處理多種與馬來語相關的自然語言處理任務,為馬來語的文本處理提供強大支持。
🚀 快速開始
你可以通過安裝 torch
或 tensorflow
以及Huggingface庫 transformers
來使用這個模型。並按如下方式初始化使用:
from transformers import T5Tokenizer, T5Model
model = T5Model.from_pretrained('malay-huggingface/t5-tiny-bahasa-cased')
tokenizer = T5Tokenizer.from_pretrained('malay-huggingface/t5-tiny-bahasa-cased')
✨ 主要特性
t5-tiny-standard-bahasa-cased
模型在多個任務上進行了預訓練,具體任務如下:
- 對馬來語新聞、馬來語維基百科、馬來語 Academia.edu 內容、馬來語議會內容以及翻譯後的 The Pile 進行語言掩碼任務。
- 對馬來語新聞進行新聞標題預測。
- 對馬來語新聞、馬來語維基百科、馬來語 Academia.edu 內容、馬來語議會內容以及翻譯後的 The Pile 進行下一句預測。
- 翻譯後的自然問答任務。
- 對翻譯後的 SNLI 和翻譯後的 MNLI 進行文本相似度任務。
- 英語 - 馬來語翻譯。
- 馬來語 - 英語翻譯。
- 抽象摘要生成。
- 知識圖譜三元組生成。
- 釋義生成。
準備步驟可在 https://github.com/huseinzol05/malaya/tree/master/pretrained-model/t5/prepare 復現。
📚 詳細文檔
預訓練細節
- 該模型使用Google T5倉庫(https://github.com/google-research/text-to-text-transfer-transformer )在v3 - 8 TPU上進行訓練。
- 所有步驟可從這裡復現:https://github.com/huseinzol05/Malaya/tree/master/pretrained-model/t5
支持的前綴
soalan: {string}
,使用自然問答進行訓練。
ringkasan: {string}
,用於抽象摘要生成。
tajuk: {string}
,用於抽象標題生成。
parafrasa: {string}
,用於抽象釋義生成。
terjemah Inggeris ke Melayu: {string}
,用於英語 - 馬來語翻譯。
terjemah Melayu ke Inggeris: {string}
,用於馬來語 - 英語翻譯。
grafik pengetahuan: {string}
,用於將馬來語文本轉換為英語知識圖譜三元組格式。
ayat1: {string1} ayat2: {string2}
,用於語義相似度判斷。
💻 使用示例
基礎用法
from transformers import T5Tokenizer, T5Model
model = T5Model.from_pretrained('malay-huggingface/t5-tiny-bahasa-cased')
tokenizer = T5Tokenizer.from_pretrained('malay-huggingface/t5-tiny-bahasa-cased')
高級用法
from transformers import T5Tokenizer, T5ForConditionalGeneration
tokenizer = T5Tokenizer.from_pretrained('malay-huggingface/t5-tiny-bahasa-cased')
model = T5ForConditionalGeneration.from_pretrained('malay-huggingface/t5-tiny-bahasa-cased')
input_ids = tokenizer.encode('soalan: siapakah perdana menteri malaysia?', return_tensors = 'pt')
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
輸出結果為:
'Mahathir Mohamad'