xquad-th-mbert-base开源泰语问答模型 - 支持大小写区分，适用泰语问答任务

首页

Xquad Th Mbert Base

由 zhufy 开发

基于多语言BERT的泰语抽取式问答模型，能区分大小写，适用于泰语问答任务。

问答系统

Transformers

#泰语问答 #多语言BERT #抽取式问答

下载量 16

发布时间 : 3/11/2022

模型简介

该模型用于泰语抽取式问答任务，基于bert-base-multilingual-cased模型，能区分大小写。

模型特点

多语言支持

基于多语言BERT模型，支持包括泰语在内的多种语言。

大小写敏感

能够区分大小写，例如能区分'english'和'English'的不同写法。

问答能力

专门针对泰语抽取式问答任务进行优化。

模型能力

泰语文本理解

抽取式问答

上下文理解

使用案例

问答系统

泰语问答应用

构建泰语问答系统，回答用户基于给定文本的问题。

高准确率的答案抽取

🚀 泰语抽取式问答模型

本模型用于泰语抽取式问答任务，基于多语言BERT模型构建，能有效从文本中提取答案，为泰语问答场景提供支持。

✨ 主要特性

专为泰语抽取式问答设计。
基于多语言BERT bert-base-multilingual-cased 模型，区分大小写，能精准处理不同大小写的词汇。

📦 安装指南

此模型可通过 🤗 Transformers 库直接使用，无需额外复杂安装步骤。

💻 使用示例

基础用法

>>> from transformers.pipelines import pipeline
>>> from transformers import AutoTokenizer, AutoModelForQuestionAnswering

>>> tokenizer = AutoTokenizer.from_pretrained("zhufy/xquad-th-mbert-base")
>>> model = AutoModelForQuestionAnswering.from_pretrained("zhufy/xquad-th-mbert-base")
>>> nlp = pipeline("question-answering", model=model, tokenizer=tokenizer)

>>> context = "ดินดอนสามเหลี่ยม ไรน์-เมิส ซึ่งเป็นภูมิภาคทางธรรมชาติที่สำคัญของเนเธอร์แลนด์เริ่มต้น\
               ใกล้มิลลิงเงิน อาน เดอ เรน ใกล้ชายแดนเนเธอร์แลนด์ติดกับเยอรมัน \
               โดยมีสาขาของไรน์ไหลเข้าสู่แม่น้ำวาลและเนเดอร์เรน เนื่องจากน้ำส่วนใหญ่จากแม่น้ำไรน์\
               คำว่า ดินดอนสามเหลี่ยมไรน์ ซึ่งสั้นกว่าจึงเป็นคำที่ใช้เรียกกันทั่วไป อย่างไรก็ดี \
               ชื่อนี้ยังใช้เรียกดินดอนสามเหลี่ยมบริเวณแม่น้ำซึ่งแม่น้ำไรน์ไหลเข้าสู่ทะเลสาบคอนสแตนซ์อีกด้วย\
               ดังนั้นการเรียกดินดอนสามเหลี่ยมซึ่งใหญ่กว่าว่าไรน์-เมิส หรือแม้กระทั่งดินแดนสามเหลี่ยมไรน์\
               -เมิส-สเกลต์จึงชัดเจนกว่า เนื่องจากแม่น้ำสเกลต์สิ้นสุดที่ดินดอนสามเหลี่ยมเดียวกัน"
              
>>> question = "ดินดอนสามเหลี่ยมในเนเธอร์แลนด์มีชื่อว่าอะไร?"

>>> inputs = {"question": question, 
            "context":context }
            
>>> nlp(inputs)

{'score': 0.9426798224449158,
 'start': 17,
 'end': 84,
 'answer': 'ไรน์-เมิส ซึ่งเป็นภูมิภาคทางธรรมชาติที่สำคัญของเนเธอร์แลนด์เริ่มต้น'}

📚 详细文档

模型描述

本模型用于泰语抽取式问答，基于多语言BERT bert-base-multilingual-cased 模型构建，区分大小写，能够区分 english 和 English 等不同大小写的词汇。

训练数据

我们将原始的 xquad 数据集划分为训练集、验证集和测试集。训练集、验证集和测试集分别包含来自34/7/7篇文章的876/161/153个问答对。你可以在 xquad_split 中找到数据集的详细信息。

信息表格

属性	详情
模型类型	泰语抽取式问答模型，基于多语言BERT bert-base-multilingual-cased
训练数据	原始 xquad 数据集，划分为训练集、验证集和测试集，分别有876/161/153个问答对，来自34/7/7篇文章。详情见 xquad_split