InstaFoodRoBERTa-NER開源食品實體識別模型 - 精準識別社交媒體食品信息

首頁

Instafoodroberta NER

由Dizex開發

專為社交媒體非正式文本設計的食品實體命名識別模型，基於RoBERTa架構微調

序列標註

Transformers

英語開源協議:MIT #食品實體識別 #社交媒體文本 #非正式文本處理

下載量 252

發布時間 : 11/21/2022

模型概述

該模型用於識別社交媒體非正式文本（如Instagram、X、Reddit）中的食品實體，能識別單一實體類型：食物（FOOD）。

模型特點

社交媒體優化

專門針對Instagram等社交媒體的非正式文本進行優化

高精度食品識別

在驗證集上達到F1值0.91的高精度表現

單一實體專注

專注於食品實體識別，減少其他實體類型的干擾

模型能力

食品實體識別

社交媒體文本處理

非正式文本分析

使用案例

社交媒體分析

美食帖分析

自動識別Instagram美食帖中的食品名稱

準確提取如'橄欖波奇碗'、'奇亞籽'等食品名稱

餐飲行業應用

菜品流行度分析

通過社交媒體分析當前流行食品趨勢

🚀 InstaFoodRoBERTa-NER

InstaFoodRoBERTa-NER 是一個經過微調的BERT模型，可用於社交媒體上非正規文本（如Instagram、X、Reddit）中食品實體的命名實體識別。它經過訓練，能夠識別單一實體：食品（FOOD）。

🚀 快速開始

本模型可與Transformers的 pipeline 結合使用，用於命名實體識別（NER）。

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline

tokenizer = AutoTokenizer.from_pretrained("Dizex/InstaFoodRoBERTa-NER")
model = AutoModelForTokenClassification.from_pretrained("Dizex/InstaFoodRoBERTa-NER")

pipe = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Today's meal: Fresh olive poké bowl topped with chia seeds. Very delicious!"

ner_entity_results = pipe(example, aggregation_strategy="simple")
print(ner_entity_results)

若要將提取的食品實體轉換為字符串列表，可使用以下代碼：

def convert_entities_to_list(text, entities: list[dict]) -> list[str]:
        ents = []
        for ent in entities:
            e = {"start": ent["start"], "end": ent["end"], "label": ent["entity_group"]}
            if ents and -1 <= ent["start"] - ents[-1]["end"] <= 1 and ents[-1]["label"] == e["label"]:
                ents[-1]["end"] = e["end"]
                continue
            ents.append(e)

        return [text[e["start"]:e["end"]] for e in ents]

print(convert_entities_to_list(example, ner_entity_results))