xquad-th-mbert-base開源泰語問答模型 - 支持大小寫區分，適用泰語問答任務

首頁

Xquad Th Mbert Base

由zhufy開發

基於多語言BERT的泰語抽取式問答模型，能區分大小寫，適用於泰語問答任務。

問答系統

Transformers

#泰語問答 #多語言BERT #抽取式問答

下載量 16

發布時間 : 3/11/2022

模型概述

該模型用於泰語抽取式問答任務，基於bert-base-multilingual-cased模型，能區分大小寫。

模型特點

多語言支持

基於多語言BERT模型，支持包括泰語在內的多種語言。

大小寫敏感

能夠區分大小寫，例如能區分'english'和'English'的不同寫法。

問答能力

專門針對泰語抽取式問答任務進行優化。

模型能力

泰語文本理解

抽取式問答

上下文理解

使用案例

問答系統

泰語問答應用

構建泰語問答系統，回答用戶基於給定文本的問題。

高準確率的答案抽取

🚀 泰語抽取式問答模型

本模型用於泰語抽取式問答任務，基於多語言BERT模型構建，能有效從文本中提取答案，為泰語問答場景提供支持。

✨ 主要特性

專為泰語抽取式問答設計。
基於多語言BERT bert-base-multilingual-cased 模型，區分大小寫，能精準處理不同大小寫的詞彙。

📦 安裝指南

此模型可通過 🤗 Transformers 庫直接使用，無需額外複雜安裝步驟。

💻 使用示例

基礎用法

>>> from transformers.pipelines import pipeline
>>> from transformers import AutoTokenizer, AutoModelForQuestionAnswering

>>> tokenizer = AutoTokenizer.from_pretrained("zhufy/xquad-th-mbert-base")
>>> model = AutoModelForQuestionAnswering.from_pretrained("zhufy/xquad-th-mbert-base")
>>> nlp = pipeline("question-answering", model=model, tokenizer=tokenizer)

>>> context = "ดินดอนสามเหลี่ยม ไรน์-เมิส ซึ่งเป็นภูมิภาคทางธรรมชาติที่สำคัญของเนเธอร์แลนด์เริ่มต้น\
               ใกล้มิลลิงเงิน อาน เดอ เรน ใกล้ชายแดนเนเธอร์แลนด์ติดกับเยอรมัน \
               โดยมีสาขาของไรน์ไหลเข้าสู่แม่น้ำวาลและเนเดอร์เรน เนื่องจากน้ำส่วนใหญ่จากแม่น้ำไรน์\
               คำว่า ดินดอนสามเหลี่ยมไรน์ ซึ่งสั้นกว่าจึงเป็นคำที่ใช้เรียกกันทั่วไป อย่างไรก็ดี \
               ชื่อนี้ยังใช้เรียกดินดอนสามเหลี่ยมบริเวณแม่น้ำซึ่งแม่น้ำไรน์ไหลเข้าสู่ทะเลสาบคอนสแตนซ์อีกด้วย\
               ดังนั้นการเรียกดินดอนสามเหลี่ยมซึ่งใหญ่กว่าว่าไรน์-เมิส หรือแม้กระทั่งดินแดนสามเหลี่ยมไรน์\
               -เมิส-สเกลต์จึงชัดเจนกว่า เนื่องจากแม่น้ำสเกลต์สิ้นสุดที่ดินดอนสามเหลี่ยมเดียวกัน"
              
>>> question = "ดินดอนสามเหลี่ยมในเนเธอร์แลนด์มีชื่อว่าอะไร?"

>>> inputs = {"question": question, 
            "context":context }
            
>>> nlp(inputs)

{'score': 0.9426798224449158,
 'start': 17,
 'end': 84,
 'answer': 'ไรน์-เมิส ซึ่งเป็นภูมิภาคทางธรรมชาติที่สำคัญของเนเธอร์แลนด์เริ่มต้น'}

📚 詳細文檔

模型描述

本模型用於泰語抽取式問答，基於多語言BERT bert-base-multilingual-cased 模型構建，區分大小寫，能夠區分 english 和 English 等不同大小寫的詞彙。

訓練數據

我們將原始的 xquad 數據集劃分為訓練集、驗證集和測試集。訓練集、驗證集和測試集分別包含來自34/7/7篇文章的876/161/153個問答對。你可以在 xquad_split 中找到數據集的詳細信息。

信息表格

屬性	詳情
模型類型	泰語抽取式問答模型，基於多語言BERT bert-base-multilingual-cased
訓練數據	原始 xquad 數據集，劃分為訓練集、驗證集和測試集，分別有876/161/153個問答對，來自34/7/7篇文章。詳情見 xquad_split