Hubert Qa Milqa
基於匈牙利語 BERT 模型微調的問答系統,專門針對匈牙利語問答任務優化
下載量 75
發布時間 : 11/16/2022
模型概述
該模型是基於匈牙利語 BERT 架構的問答系統,在 milqa 數據集上進行了微調,能夠處理匈牙利語的自然語言問答任務
模型特點
匈牙利語專用
專門針對匈牙利語優化的問答模型,能夠理解匈牙利語特有的語法和表達方式
基於 BERT 架構
採用強大的 BERT 架構,能夠捕捉上下文中的深層語義關係
問答任務優化
在 milqa 數據集上進行了微調,特別適合問答系統應用
模型能力
匈牙利語問答
上下文理解
文本信息提取
使用案例
教育
地理知識問答
回答關於歐洲地理的問題,如河流長度、地理位置等
能準確回答如'歐洲第二長的河流是什麼?'這類問題
交通信息
歷史交通信息查詢
回答關於匈牙利交通曆史的問題
能準確回答如'多瑙哈拉斯蒂的市郊鐵路何時開通?'這類問題
🚀 匈牙利問答模型
本項目是一個基於匈牙利語的問答模型,它在特定數據集上微調,能有效處理匈牙利語的問答任務,為匈牙利語信息檢索和知識問答提供了有力支持。
🚀 快速開始
此模型是 mcsabai/huBert-fine-tuned-hungarian-squadv1 在 milqa 數據集上的微調版本。
💻 使用示例
基礎用法
以下是使用該模型進行問答的示例:
# 這裡假設使用合適的庫加載模型進行問答
# 示例代碼僅為示意,實際使用需根據具體庫和模型進行調整
from transformers import AutoTokenizer, AutoModelForQuestionAnswering
import torch
# 加載模型和分詞器
tokenizer = AutoTokenizer.from_pretrained("mcsabai/huBert-fine-tuned-hungarian-squadv1")
model = AutoModelForQuestionAnswering.from_pretrained("mcsabai/huBert-fine-tuned-hungarian-squadv1")
# 定義問題和上下文
question = "Mi Európa második leghosszabb folyója?"
context = "A Duna Európa leghosszabb folyama az oroszországi Volga után. Németországban, a Fekete-erdőben ered két kis patak, a Breg és a Brigach összefolyásával Donaueschingennél, és innen délkeleti irányban 2850 kilométert tesz meg a Fekete-tengerig. Magyarország egész területe e folyam vízgyűjtőjén terül el, itteni főágának hossza 417 km, ezért az ország vízrajzának meghatározó alkotóeleme. A folyó kialakulása a pliocén korban kezdődött el. A pliocén végén jutott el a Duna a Kisalföldig, ekkor a mai nyugat–kelet irány helyett észak–dél irányban folyt itt. Csak a pleisztocén korban alakult ki a kisalföldi szakasza. A folyó legfiatalabb része a Dobrudzsa nyugati oldalán található dél–észak irányú folyása, amely pusztán a pleisztocén kor végén jött létre. Napjainkban fontos nemzetközi hajóút. A németországi Rajna–Majna–Duna-csatorna 1992-es megépítése óta részét képezi annak a 3500 km-es transzeurópai vízi útnak, amely az Északi-tenger melletti Rotterdamtól a Fekete-tenger melletti Sulináig ér. A Dunán szállított áruk össztömege 1987-ben elérte a 100 millió tonnát."
# 對輸入進行編碼
inputs = tokenizer(question, context, return_tensors='pt')
# 進行推理
outputs = model(**inputs)
# 獲取答案的起始和結束位置
answer_start_index = outputs.start_logits.argmax()
answer_end_index = outputs.end_logits.argmax()
# 提取答案
predict_answer_tokens = inputs.input_ids[0, answer_start_index : answer_end_index + 1]
answer = tokenizer.decode(predict_answer_tokens)
print(answer)
高級用法
# 高級場景下可以批量處理多個問題和上下文
# 示例代碼僅為示意,實際使用需根據具體庫和模型進行調整
questions = ["Mi Európa második leghosszabb folyója?", "Hol vannak a legnagyobb mocsarak a Duna mentén?", "Mióta jár Dunaharasztin hév?"]
contexts = ["A Duna Európa leghosszabb folyama az oroszországi Volga után. Németországban, a Fekete-erdőben ered két kis patak, a Breg és a Brigach összefolyásával Donaueschingennél, és innen délkeleti irányban 2850 kilométert tesz meg a Fekete-tengerig. Magyarország egész területe e folyam vízgyűjtőjén terül el, itteni főágának hossza 417 km, ezért az ország vízrajzának meghatározó alkotóeleme. A folyó kialakulása a pliocén korban kezdődött el. A pliocén végén jutott el a Duna a Kisalföldig, ekkor a mai nyugat–kelet irány helyett észak–dél irányban folyt itt. Csak a pleisztocén korban alakult ki a kisalföldi szakasza. A folyó legfiatalabb része a Dobrudzsa nyugati oldalán található dél–észak irányú folyása, amely pusztán a pleisztocén kor végén jött létre. Napjainkban fontos nemzetközi hajóút. A németországi Rajna–Majna–Duna-csatorna 1992-es megépítése óta részét képezi annak a 3500 km-es transzeurópai vízi útnak, amely az Északi-tenger melletti Rotterdamtól a Fekete-tenger melletti Sulináig ér. A Dunán szállított áruk össztömege 1987-ben elérte a 100 millió tonnát.", "Lassú folyású szakaszain épít hordalékának lerakásával; a lerakott hordalékhalmot hordalékkúpnak nevezik. A Kisalföld és a Margit-sziget a Duna hordalékkúpja. illetve a Duna-delta (elsősorban a Kilia-ág) területén a turzások. A hordalék a felső szakaszon még igen nagy méreteket, lejjebb már csak porszemnyi nagyságot vehet fel. Ugyanis, amikor lelassul, akkor a folyó először a nagyobb, majd az egyre kisebb darabokat hagyja el (kövek, kavicsok, homok, finom por). Ha a vízszint hirtelen apadásnak indul, a Dunán jellemzően ideiglenes zátonyok alakulnak ki. Ha ismét megnő a vízmennyiség, akkor a folyó újra tovább tudja szállítani hordalékát, a zátonyok eltűnnek. Jellemzően zátonyos rész a Duna Rajka és Gönyű közötti szakasza, ahol a Bős–nagymarosi vízlépcső megépítésével a hasonló képződmények még nagyobb számban elszaporodtak. A Duna különleges képződményei az al-dunai sellők, amelyek a mederfenék kisebb-nagyobb kitüremkedéseit jelentik. Egyre kisebb számban, de még jellemzőek a Duna mentén a mocsarak, amelyek lerakott hordalékkúpokon alakultak ki. Ezekből a legnagyobbak Bajorországban, a Hanság és a Duna-delta területén találhatók.", "Az egyesítéskor felmerült a Budapest környéki településekre helyiérdekű vasút (HÉV) építése is, azonban ez csak 1882-ben vált véglegessé: a BKVT április 4-ei ülésén a Közvágóhíd–Soroksár HÉV-vonal létrehozásáról határozott. Még javában folyt a vonal építése, de a BKVT már előmunkálati engedélyt kapott a dunaharaszti meghosszabbításra is. Az 1880-as évek végére a főváros négy HÉV-vonallal büszkélkedhetett: először a Budapest-Szentlőrinci Helyi Érdekű Vasút Rt. (BLVV) üzemeletetésében álló, Ferencvárost és a Budapest-Szentlőrinci Tégla- és Terracottagyárat összekötő vonalat nyitották meg 1887. április 12-én (későbbi 50-es villamos), amit a BKVT Közvágóhíd–Soroksár vonala követett augusztus 7-én, majd ennek a Dunaharasztiig érő szakasza november 24-én. 1888. július 20-án üzembe helyezte a BKVT a Kerepesi út–Cinkota, majd augusztus 17-én a Filatorigát–Szentendre is. A HÉV-ágazat 1889. december 29-én függetlenedett el, kezelője a Budapesti Helyi Érdekű Vasutak Részvénytársaság (BHÉV) lett."]
for question, context in zip(questions, contexts):
inputs = tokenizer(question, context, return_tensors='pt')
outputs = model(**inputs)
answer_start_index = outputs.start_logits.argmax()
answer_end_index = outputs.end_logits.argmax()
predict_answer_tokens = inputs.input_ids[0, answer_start_index : answer_end_index + 1]
answer = tokenizer.decode(predict_answer_tokens)
print(f"問題: {question}, 答案: {answer}")
Distilbert Base Cased Distilled Squad
Apache-2.0
DistilBERT是BERT的輕量級蒸餾版本,參數量減少40%,速度提升60%,保留95%以上性能。本模型是在SQuAD v1.1數據集上微調的問答專用版本。
問答系統 英語
D
distilbert
220.76k
244
Distilbert Base Uncased Distilled Squad
Apache-2.0
DistilBERT是BERT的輕量級蒸餾版本,參數量減少40%,速度提升60%,在GLUE基準測試中保持BERT 95%以上的性能。本模型專為問答任務微調。
問答系統
Transformers 英語

D
distilbert
154.39k
115
Tapas Large Finetuned Wtq
Apache-2.0
TAPAS是基於BERT架構的表格問答模型,通過自監督方式在維基百科表格數據上預訓練,支持對錶格內容進行自然語言問答
問答系統
Transformers 英語

T
google
124.85k
141
T5 Base Question Generator
基於t5-base的問答生成模型,輸入答案和上下文,輸出相應問題
問答系統
Transformers

T
iarfmoose
122.74k
57
Bert Base Cased Qa Evaluator
基於BERT-base-cased的問答對評估模型,用於判斷問題和答案是否語義相關
問答系統
B
iarfmoose
122.54k
9
Tiny Doc Qa Vision Encoder Decoder
MIT
一個基於MIT許可證的文檔問答模型,主要用於測試目的。
問答系統
Transformers

T
fxmarty
41.08k
16
Dpr Question Encoder Single Nq Base
DPR(密集段落檢索)是用於開放領域問答研究的工具和模型。該模型是基於BERT的問題編碼器,使用自然問題(NQ)數據集訓練。
問答系統
Transformers 英語

D
facebook
32.90k
30
Mobilebert Uncased Squad V2
MIT
MobileBERT是BERT_LARGE的輕量化版本,在SQuAD2.0數據集上微調而成的問答系統模型。
問答系統
Transformers 英語

M
csarron
29.11k
7
Tapas Base Finetuned Wtq
Apache-2.0
TAPAS是一個基於Transformer的表格問答模型,通過自監督學習在維基百科表格數據上預訓練,並在WTQ等數據集上微調。
問答系統
Transformers 英語

T
google
23.03k
217
Dpr Question Encoder Multiset Base
基於BERT的密集段落檢索(DPR)問題編碼器,用於開放領域問答研究,在多個QA數據集上訓練
問答系統
Transformers 英語

D
facebook
17.51k
4
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98