camembert-squadFR-fquad-piaf-answer-extraction開源模型

首頁

Camembert Squadfr Fquad Piaf Answer Extraction

由lincoln開發

該模型基於CamemBERT-base微調，專門用於法語文本中的答案抽取任務，在SquadFR、FQuAD和PIAF數據集上訓練。

問答系統

Transformers

法語開源協議:MIT #法語問答系統 #答案標記識別 #上下文理解

下載量 16

發布時間 : 3/2/2022

模型概述

這是一個標記分類模型，用於識別法語文本中可能作為問題答案的標記序列。模型通過標註'ANS'標籤來定位答案位置。

模型特點

法語專業優化

專門針對法語文本優化的答案抽取模型，在多個法語問答數據集上微調

標記級分類

採用標記分類方法精確定位答案在文本中的起始和結束位置

多數據集訓練

結合SquadFR、FQuAD和PIAF三個法語問答數據集進行訓練

模型能力

法語文本處理

答案位置識別

標記序列分類

使用案例

問答系統

法語智能客服

從客服文檔中自動抽取問題答案

可識別文檔中的相關答案片段

教育輔助

幫助學生從教材中快速找到問題答案

精確定位教材中的知識點位置

信息檢索

文檔分析

從長文檔中提取關鍵信息片段

減少人工閱讀全文的時間成本

🚀 答案提取模型

本模型基於 camembert-base 模型進行微調，用於標記分類任務。其目標是識別可能作為問題答案的標記序列。

🚀 快速開始

安裝依賴

確保你已經安裝了 transformers 庫，可以使用以下命令進行安裝：

pip install transformers

運行示例代碼

以下是使用該模型的示例代碼：

from transformers import AutoTokenizer, AutoModelForTokenClassification
import numpy as np

model_name = "lincoln/camembert-squadFR-fquad-piaf-answer-extraction"

loaded_tokenizer = AutoTokenizer.from_pretrained(model_name)
loaded_model = AutoModelForTokenClassification.from_pretrained(model_name)
text = "La science des données est un domaine interdisciplinaire qui utilise des méthodes, des processus,\
    des algorithmes et des systèmes scientifiques pour extraire des connaissances et des idées de nombreuses données structurelles et non structurées.\
        Elle est souvent associée aux données massives et à l'analyse des données."

inputs = loaded_tokenizer(text, return_tensors="pt", return_offsets_mapping=True)
outputs = loaded_model(inputs.input_ids).logits
probs = 1 / (1 + np.exp(-outputs.detach().numpy()))
probs[:, :, 1][0] = np.convolve(probs[:, :, 1][0], np.ones(2), 'same') / 2

sentences = loaded_tokenizer.tokenize(text, add_special_tokens=False)
prob_answer_tokens = probs[:, 1:-1, 1].flatten().tolist()
offset_start_mapping = inputs.offset_mapping[:, 1:-1, 0].flatten().tolist()
offset_end_mapping = inputs.offset_mapping[:, 1:-1, 1].flatten().tolist()
threshold = 0.4

entities = []
for ix, (token, prob_ans, offset_start, offset_end) in enumerate(zip(sentences, prob_answer_tokens, offset_start_mapping, offset_end_mapping)):
    entities.append({
        'entity': 'ANS' if prob_ans > threshold else 'O',
        'score': prob_ans, 
        'index': ix,
        'word': token,
        'start': offset_start,
        'end': offset_end
    })

for p in entities:
    print(p)

✨ 主要特性

基於 camembert-base 模型進行微調，適用於法語問答數據。
可識別文本中可能作為問題答案的標記序列。

📦 安裝指南

要使用此模型，你需要安裝 transformers 庫：

pip install transformers

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelForTokenClassification
import numpy as np

model_name = "lincoln/camembert-squadFR-fquad-piaf-answer-extraction"

loaded_tokenizer = AutoTokenizer.from_pretrained(model_name)
loaded_model = AutoModelForTokenClassification.from_pretrained(model_name)
text = "La science des données est un domaine interdisciplinaire qui utilise des méthodes, des processus,\
    des algorithmes et des systèmes scientifiques pour extraire des connaissances et des idées de nombreuses données structurelles et non structurées.\
        Elle est souvent associée aux données massives et à l'analyse des données."

inputs = loaded_tokenizer(text, return_tensors="pt", return_offsets_mapping=True)
outputs = loaded_model(inputs.input_ids).logits
probs = 1 / (1 + np.exp(-outputs.detach().numpy()))
probs[:, :, 1][0] = np.convolve(probs[:, :, 1][0], np.ones(2), 'same') / 2

sentences = loaded_tokenizer.tokenize(text, add_special_tokens=False)
prob_answer_tokens = probs[:, 1:-1, 1].flatten().tolist()
offset_start_mapping = inputs.offset_mapping[:, 1:-1, 0].flatten().tolist()
offset_end_mapping = inputs.offset_mapping[:, 1:-1, 1].flatten().tolist()
threshold = 0.4

entities = []
for ix, (token, prob_ans, offset_start, offset_end) in enumerate(zip(sentences, prob_answer_tokens, offset_start_mapping, offset_end_mapping)):
    entities.append({
        'entity': 'ANS' if prob_ans > threshold else 'O',
        'score': prob_ans, 
        'index': ix,
        'word': token,
        'start': offset_start,
        'end': offset_end
    })

for p in entities:
    print(p)