🚀 哈萨克语问答模型
本项目基于谷歌的 mt5-large
模型,针对哈萨克语问答任务进行了微调,能够有效处理哈萨克语的问答场景,为哈萨克语信息交互提供支持。
🚀 快速开始
推理示例
以下是使用该模型进行推理的代码示例:
from transformers import T5Tokenizer, T5TokenizerFast
from transformers import T5ForConditionalGeneration
import sentencepiece
tokenizer = T5Tokenizer.from_pretrained("Kyrmasch/t5-kazakh-qa")
model = T5ForConditionalGeneration.from_pretrained("Kyrmasch/t5-kazakh-qa")
context = "Қазақстан Еуразия құрлығының орталығында орналасқан және аумақтың көлемі бойынша (жер шарының бетінде 2%) әлемде тоғызыншы орынға ие. Қазақстан аумағы бүкіл Батыс Еуропадан үлкен."
question = "Қазақстан жер көлемі жөнінен дүние жүзінде нешінші орында?"
encoded = tokenizer.encode_plus(context, question, max_length=128, pad_to_max_length=True, truncation=True, return_tensors="pt")
input_ids = encoded["input_ids"].to('cpu')
attention_mask = encoded["attention_mask"].to('cpu')
output = model.generate(input_ids=input_ids, attention_mask=attention_mask, max_length=128)
answer = ''.join([tokenizer.decode(ids, skip_special_tokens=True) for ids in output])
✨ 主要特性
- 基于mt5模型:以
google/mt5-large
为基础模型,具备强大的语言理解和生成能力。
- 针对性微调:在哈萨克语版本的斯坦福问答数据集(SQuAD)上进行微调,适用于哈萨克语问答任务。
📚 详细文档
模型详情
属性 |
详情 |
模型类型 |
基于 mt5 |
开发者 |
Aldiyar Saken、Sultaniyar Quandyq、Alibek Kamiluly、Kurmash Apayev、Adai Shomanov 和 Aliya Nugumanova |
模型描述
本模型基于 google/mt5-large
模型,使用30,000个样本在哈萨克语版本的斯坦福问答数据集(SQuAD)上进行了微调。
推理示例
示例1
- 文本:Қазақстан Еуразия құрлығының орталығында орналасқан және аумақтың көлемі бойынша (жер шарының бетінде 2%) әлемде тоғызыншы орынға ие. Қазақстан аумағы бүкіл Батыс Еуропадан үлкен. Қазақстан жер көлемі жөнінен дүние жүзінде нешінші орында?
- 示例标题:example 1
示例2
- 文本:Қар ұсақ мұз кристалдарынан тұрады. Қар деп атмосфералық жауын-шашынды айтады. Қар деген не?
- 示例标题:example 2
示例3
- 文本:Абай ақын туралы 4 томдық "Абай жолы" романы жазылған. Бұл романның авторы Мұхтар Әуезов. Бұл кітаптарда бала Абайдың тұлға, әрі болашақ ақын болып қалыптасқанға дейінгі уақыттар кезеңдермен жазылған. «Абай жолы» романын жазған кім?
- 示例标题:example 3
📄 许可证
本模型采用 apache-2.0
许可证。