🚀 t5-tiny-standard-bahasa-cased
这是一个为马来语预训练的T5微型标准语言模型,能够处理多种与马来语相关的自然语言处理任务,为马来语的文本处理提供强大支持。
🚀 快速开始
你可以通过安装 torch
或 tensorflow
以及Huggingface库 transformers
来使用这个模型。并按如下方式初始化使用:
from transformers import T5Tokenizer, T5Model
model = T5Model.from_pretrained('malay-huggingface/t5-tiny-bahasa-cased')
tokenizer = T5Tokenizer.from_pretrained('malay-huggingface/t5-tiny-bahasa-cased')
✨ 主要特性
t5-tiny-standard-bahasa-cased
模型在多个任务上进行了预训练,具体任务如下:
- 对马来语新闻、马来语维基百科、马来语 Academia.edu 内容、马来语议会内容以及翻译后的 The Pile 进行语言掩码任务。
- 对马来语新闻进行新闻标题预测。
- 对马来语新闻、马来语维基百科、马来语 Academia.edu 内容、马来语议会内容以及翻译后的 The Pile 进行下一句预测。
- 翻译后的自然问答任务。
- 对翻译后的 SNLI 和翻译后的 MNLI 进行文本相似度任务。
- 英语 - 马来语翻译。
- 马来语 - 英语翻译。
- 抽象摘要生成。
- 知识图谱三元组生成。
- 释义生成。
准备步骤可在 https://github.com/huseinzol05/malaya/tree/master/pretrained-model/t5/prepare 复现。
📚 详细文档
预训练细节
- 该模型使用Google T5仓库(https://github.com/google-research/text-to-text-transfer-transformer )在v3 - 8 TPU上进行训练。
- 所有步骤可从这里复现:https://github.com/huseinzol05/Malaya/tree/master/pretrained-model/t5
支持的前缀
soalan: {string}
,使用自然问答进行训练。
ringkasan: {string}
,用于抽象摘要生成。
tajuk: {string}
,用于抽象标题生成。
parafrasa: {string}
,用于抽象释义生成。
terjemah Inggeris ke Melayu: {string}
,用于英语 - 马来语翻译。
terjemah Melayu ke Inggeris: {string}
,用于马来语 - 英语翻译。
grafik pengetahuan: {string}
,用于将马来语文本转换为英语知识图谱三元组格式。
ayat1: {string1} ayat2: {string2}
,用于语义相似度判断。
💻 使用示例
基础用法
from transformers import T5Tokenizer, T5Model
model = T5Model.from_pretrained('malay-huggingface/t5-tiny-bahasa-cased')
tokenizer = T5Tokenizer.from_pretrained('malay-huggingface/t5-tiny-bahasa-cased')
高级用法
from transformers import T5Tokenizer, T5ForConditionalGeneration
tokenizer = T5Tokenizer.from_pretrained('malay-huggingface/t5-tiny-bahasa-cased')
model = T5ForConditionalGeneration.from_pretrained('malay-huggingface/t5-tiny-bahasa-cased')
input_ids = tokenizer.encode('soalan: siapakah perdana menteri malaysia?', return_tensors = 'pt')
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
输出结果为:
'Mahathir Mohamad'