t5-tiny-standard-bahasa-cased开源马来语模型 - 支持多类自然语言处理任务

首页

T5 Tiny Standard Bahasa Cased

由 mesolitica 开发

预训练的T5微型标准马来语语言模型，支持多种自然语言处理任务。

大型语言模型

Transformers

其他#马来语多任务处理 #微型T5模型 #知识图谱生成

下载量 13

发布时间 : 3/2/2022

模型简介

该模型是基于T5架构的微型马来语语言模型，经过多任务预训练，支持问答、翻译、摘要生成等多种功能。

模型特点

多任务预训练

模型在多种任务上进行了预训练，包括语言掩码、标题预测、下一句预测等。

支持多种前缀任务

模型支持通过特定前缀触发不同任务，如问答、翻译、摘要生成等。

马来语优化

专门针对马来语进行了优化，训练数据包括马来语新闻、维基百科等多种来源。

模型能力

问答

摘要生成

标题生成

释义

英马翻译

马英翻译

知识图谱生成

语义相似性判断

使用案例

信息检索

问答系统

回答关于马来西亚事实的问题

能准确回答如'谁是马来西亚总理'等问题

内容生成

新闻摘要

生成新闻文章的简短摘要

标题生成

为新闻内容生成吸引人的标题

语言翻译

英马翻译

将英语翻译为马来语

马英翻译

将马来语翻译为英语

🚀 t5-tiny-standard-bahasa-cased

这是一个为马来语预训练的T5微型标准语言模型，能够处理多种与马来语相关的自然语言处理任务，为马来语的文本处理提供强大支持。

🚀 快速开始

你可以通过安装 torch 或 tensorflow 以及Huggingface库 transformers 来使用这个模型。并按如下方式初始化使用：

from transformers import T5Tokenizer, T5Model

model = T5Model.from_pretrained('malay-huggingface/t5-tiny-bahasa-cased')
tokenizer = T5Tokenizer.from_pretrained('malay-huggingface/t5-tiny-bahasa-cased')

✨ 主要特性

t5-tiny-standard-bahasa-cased 模型在多个任务上进行了预训练，具体任务如下：

对马来语新闻、马来语维基百科、马来语 Academia.edu 内容、马来语议会内容以及翻译后的 The Pile 进行语言掩码任务。
对马来语新闻进行新闻标题预测。
对马来语新闻、马来语维基百科、马来语 Academia.edu 内容、马来语议会内容以及翻译后的 The Pile 进行下一句预测。
翻译后的自然问答任务。
对翻译后的 SNLI 和翻译后的 MNLI 进行文本相似度任务。
英语 - 马来语翻译。
马来语 - 英语翻译。
抽象摘要生成。
知识图谱三元组生成。
释义生成。

准备步骤可在 https://github.com/huseinzol05/malaya/tree/master/pretrained-model/t5/prepare 复现。

📚 详细文档

预训练细节

该模型使用Google T5仓库（https://github.com/google-research/text-to-text-transfer-transformer ）在v3 - 8 TPU上进行训练。
所有步骤可从这里复现：https://github.com/huseinzol05/Malaya/tree/master/pretrained-model/t5

支持的前缀

soalan: {string}，使用自然问答进行训练。
ringkasan: {string}，用于抽象摘要生成。
tajuk: {string}，用于抽象标题生成。
parafrasa: {string}，用于抽象释义生成。
terjemah Inggeris ke Melayu: {string}，用于英语 - 马来语翻译。
terjemah Melayu ke Inggeris: {string}，用于马来语 - 英语翻译。
grafik pengetahuan: {string}，用于将马来语文本转换为英语知识图谱三元组格式。
ayat1: {string1} ayat2: {string2}，用于语义相似度判断。

💻 使用示例

基础用法

from transformers import T5Tokenizer, T5Model

model = T5Model.from_pretrained('malay-huggingface/t5-tiny-bahasa-cased')
tokenizer = T5Tokenizer.from_pretrained('malay-huggingface/t5-tiny-bahasa-cased')

高级用法

from transformers import T5Tokenizer, T5ForConditionalGeneration

tokenizer = T5Tokenizer.from_pretrained('malay-huggingface/t5-tiny-bahasa-cased')
model = T5ForConditionalGeneration.from_pretrained('malay-huggingface/t5-tiny-bahasa-cased')
input_ids = tokenizer.encode('soalan: siapakah perdana menteri malaysia?', return_tensors = 'pt')
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))

输出结果为：