🚀 t5-small-standard-bahasa-cased
这是一个为马来语预训练的小型标准T5语言模型,能够处理多种自然语言处理任务,为马来语的相关应用提供强大支持。
🚀 快速开始
你可以通过安装 torch
或 tensorflow
以及Huggingface库 transformers
来使用这个模型。以下是初始化并使用它的示例代码:
from transformers import T5Tokenizer, T5Model
model = T5Model.from_pretrained('malay-huggingface/t5-small-bahasa-cased')
tokenizer = T5Tokenizer.from_pretrained('malay-huggingface/t5-small-bahasa-cased')
✨ 主要特性
- 该模型在多个任务上进行了预训练,包括语言掩码任务、新闻标题预测、下一句预测、翻译问答、文本相似度任务、英马翻译、马英翻译、摘要生成、知识图谱三元组生成和释义等。
- 支持多种前缀,可用于不同类型的任务,如问答、摘要、标题生成、释义、翻译等。
📦 安装指南
要使用此模型,你需要安装 torch
或 tensorflow
以及Huggingface库 transformers
。
💻 使用示例
基础用法
from transformers import T5Tokenizer, T5Model
model = T5Model.from_pretrained('malay-huggingface/t5-small-bahasa-cased')
tokenizer = T5Tokenizer.from_pretrained('malay-huggingface/t5-small-bahasa-cased')
高级用法
from transformers import T5Tokenizer, T5ForConditionalGeneration
tokenizer = T5Tokenizer.from_pretrained('malay-huggingface/t5-small-bahasa-cased')
model = T5ForConditionalGeneration.from_pretrained('malay-huggingface/t5-small-bahasa-cased')
input_ids = tokenizer.encode('soalan: siapakah perdana menteri malaysia?', return_tensors = 'pt')
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
输出结果为:
'Mahathir Mohamad'
📚 详细文档
预训练语料库
t5-small-standard-bahasa-cased
模型在多个任务上进行了预训练,以下是训练任务列表:
- 对马来语新闻、马来语维基百科、马来语Academia.edu、马来语议会记录和翻译后的The Pile进行语言掩码任务。
- 对马来语新闻进行新闻标题预测。
- 对马来语新闻、马来语维基百科、马来语Academia.edu、马来语议会记录和翻译后的The Pile进行下一句预测。
- 翻译自然问答。
- 对翻译后的SNLI和翻译后的MNLI进行文本相似度任务。
- 英马翻译。
- 马英翻译。
- 摘要生成。
- 知识图谱三元组生成。
- 释义。
准备步骤可在 https://github.com/huseinzol05/malaya/tree/master/pretrained-model/t5/prepare 重现。
支持的前缀
soalan: {string}
,使用自然问答进行训练。
ringkasan: {string}
,用于摘要生成。
tajuk: {string}
,用于生成摘要标题。
parafrasa: {string}
,用于摘要释义。
terjemah Inggeris ke Melayu: {string}
,用于英马翻译。
terjemah Melayu ke Inggeris: {string}
,用于马英翻译。
grafik pengetahuan: {string}
,用于将马来语文本转换为英文知识图谱三元组格式。
ayat1: {string1} ayat2: {string2}
,用于语义相似度任务。
🔧 技术细节
- 该模型使用Google T5仓库(https://github.com/google-research/text-to-text-transfer-transformer)在v3 - 8 TPU上进行训练。
- 所有步骤可从这里重现:https://github.com/huseinzol05/Malaya/tree/master/pretrained-model/t5 。
属性 |
详情 |
模型类型 |
预训练的T5小型标准马来语模型 |
训练数据 |
马来语新闻、马来语维基百科、马来语Academia.edu、马来语议会记录、翻译后的The Pile、翻译后的SNLI、翻译后的MNLI等 |