InstaFoodRoBERTa-NER开源食品实体识别模型 - 精准识别社交媒体食品信息

首页

Instafoodroberta NER

由 Dizex 开发

专为社交媒体非正式文本设计的食品实体命名识别模型，基于RoBERTa架构微调

序列标注

Transformers

英语开源协议:MIT #食品实体识别 #社交媒体文本 #非正式文本处理

下载量 252

发布时间 : 11/21/2022

模型简介

该模型用于识别社交媒体非正式文本（如Instagram、X、Reddit）中的食品实体，能识别单一实体类型：食物（FOOD）。

模型特点

社交媒体优化

专门针对Instagram等社交媒体的非正式文本进行优化

高精度食品识别

在验证集上达到F1值0.91的高精度表现

单一实体专注

专注于食品实体识别，减少其他实体类型的干扰

模型能力

食品实体识别

社交媒体文本处理

非正式文本分析

使用案例

社交媒体分析

美食帖分析

自动识别Instagram美食帖中的食品名称

准确提取如'橄榄波奇碗'、'奇亚籽'等食品名称

餐饮行业应用

菜品流行度分析

通过社交媒体分析当前流行食品趋势

🚀 InstaFoodRoBERTa-NER

InstaFoodRoBERTa-NER 是一个经过微调的BERT模型，可用于社交媒体上非正规文本（如Instagram、X、Reddit）中食品实体的命名实体识别。它经过训练，能够识别单一实体：食品（FOOD）。

🚀 快速开始

本模型可与Transformers的 pipeline 结合使用，用于命名实体识别（NER）。

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline

tokenizer = AutoTokenizer.from_pretrained("Dizex/InstaFoodRoBERTa-NER")
model = AutoModelForTokenClassification.from_pretrained("Dizex/InstaFoodRoBERTa-NER")

pipe = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Today's meal: Fresh olive poké bowl topped with chia seeds. Very delicious!"

ner_entity_results = pipe(example, aggregation_strategy="simple")
print(ner_entity_results)

若要将提取的食品实体转换为字符串列表，可使用以下代码：

def convert_entities_to_list(text, entities: list[dict]) -> list[str]:
        ents = []
        for ent in entities:
            e = {"start": ent["start"], "end": ent["end"], "label": ent["entity_group"]}
            if ents and -1 <= ent["start"] - ents[-1]["end"] <= 1 and ents[-1]["label"] == e["label"]:
                ents[-1]["end"] = e["end"]
                continue
            ents.append(e)

        return [text[e["start"]:e["end"]] for e in ents]

print(convert_entities_to_list(example, ner_entity_results))