Nel Mgenre Multilingual
基於mGENRE的多語言生成式實體檢索模型,針對歷史文本優化,支持100+種語言,特別適配法語、德語和英語的歷史文檔實體鏈接。
下載量 17.13k
發布時間 : 4/9/2024
模型概述
該模型採用mBART架構,通過約束生成技術將文本中的命名實體鏈接到Wikidata實體,特別適用於處理歷史文檔中的OCR噪聲和變體名稱。
模型特點
多語言支持
支持100+種語言的實體鏈接,特別優化了法語、德語和英語的歷史文本處理
歷史文本適配
專門針對歷史文檔中的OCR噪聲和名稱變體進行優化
約束生成技術
採用約束束搜索直接輸出映射到Wikidata/QID的實體名稱
跨時代鏈接
能夠將歷史名稱準確鏈接到現代Wikidata實體
模型能力
多語言實體識別
命名實體消歧
歷史名稱鏈接
文本到實體生成
OCR噪聲環境下的實體識別
使用案例
歷史檔案處理
歷史報紙分析
從歷史報紙中提取並鏈接人物、地點等實體
準確識別並鏈接受OCR噪聲影響的實體名稱
傳記生成輔助
通過鏈接歷史人物實體輔助生成人物傳記
建立歷史人物與現代知識庫的關聯
跨時代知識關聯
歷史事件分析
將歷史文檔中的事件參與者鏈接到統一知識庫
實現歷史事件與現代知識圖譜的整合
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98