FRIDA開源多任務評估模型 - 免費支持分類、聚類等自然語言處理任務

首頁

FRIDA

由ai-forever開發

FRIDA 是一個多任務評估模型，支持多種自然語言處理任務，包括分類、聚類和重新排序等。

文本嵌入

Transformers

支持多種語言開源協議:MIT #多標籤分類 #俄語重排序 #高精度情感分析

下載量 9,491

發布時間 : 12/26/2024

模型概述

FRIDA 是一個多功能模型，適用於多種自然語言處理任務，如文本分類、情感分析、聚類和重新排序。

模型特點

多任務支持

支持多種自然語言處理任務，包括分類、聚類和重新排序。

高性能

在多個數據集上表現出色，尤其是在標題分類和不當內容分類任務中。

多語言支持

主要支持俄語，但在多語言任務中也有一定表現。

模型能力

文本分類

情感分析

聚類

重新排序

多標籤分類

使用案例

內容審核

不當內容檢測

用於檢測和分類不當內容，如仇恨言論或不良信息。

準確率78.33%，F1分數78.20%

情感分析

電影評論情感分類

用於分析電影評論的情感傾向。

準確率70.47%，F1分數65.84%

信息檢索

MIRACL重新排序

用於信息檢索中的文檔重新排序任務。

NDCG@10 66.04%，MAP@10 60.21%

🚀 FRIDA模型

FRIDA是一個基於T5去噪架構的全量微調通用文本嵌入模型。該模型基於FRED-T5模型的編碼器部分，延續了文本嵌入模型的研究（ruMTEB，ru-en-RoSBERTa）。它在俄英雙語數據集上進行了預訓練，並針對目標任務進行了微調，以提升性能。

如需瞭解更多模型細節，請參考我們的技術報告[TODO]。

🚀 快速開始

FRIDA模型可以直接使用前綴進行文本處理。建議使用CLS池化方法，前綴和池化方法的選擇取決於具體任務。

我們使用以下基本規則來選擇前綴：

"search_query: " 和 "search_document: " 前綴用於答案或相關段落檢索。
"paraphrase: " 前綴用於對稱釋義相關任務（如語義文本相似度任務、釋義挖掘、去重）。
"categorize: " 前綴用於文檔標題和正文的非對稱匹配（如新聞、科研論文、社交媒體帖子）。
"categorize_sentiment: " 前綴用於依賴情感特徵的任務（如仇恨言論、毒性檢測、情感分析）。
"categorize_topic: " 前綴用於按主題對文本進行分組的任務。
"categorize_entailment: " 前綴用於文本蘊含任務（自然語言推理）。

為了更好地滿足您的需求，您可以使用相關的高質量俄英數據集對模型進行微調。

💻 使用示例

基礎用法

以下是使用Transformers和SentenceTransformers庫進行文本編碼的示例。

Transformers庫示例

import torch
import torch.nn.functional as F
from transformers import AutoTokenizer, T5EncoderModel


def pool(hidden_state, mask, pooling_method="cls"):
    if pooling_method == "mean":
        s = torch.sum(hidden_state * mask.unsqueeze(-1).float(), dim=1)
        d = mask.sum(axis=1, keepdim=True).float()
        return s / d
    elif pooling_method == "cls":
        return hidden_state[:, 0]

inputs = [
    # 
    "paraphrase: В Ярославской области разрешили работу бань, но без посетителей",
    "categorize_entailment: Женщину доставили в больницу, за ее жизнь сейчас борются врачи.",
    "search_query: Сколько программистов нужно, чтобы вкрутить лампочку?",
    # 
    "paraphrase: Ярославским баням разрешили работать без посетителей",
    "categorize_entailment: Женщину спасают врачи.",
    "search_document: Чтобы вкрутить лампочку, требуется три программиста: один напишет программу извлечения лампочки, другой — вкручивания лампочки, а третий проведет тестирование."
]

tokenizer = AutoTokenizer.from_pretrained("ai-forever/FRIDA")
model = T5EncoderModel.from_pretrained("ai-forever/FRIDA")

tokenized_inputs = tokenizer(inputs, max_length=512, padding=True, truncation=True, return_tensors="pt")

with torch.no_grad():
    outputs = model(**tokenized_inputs)
    
embeddings = pool(
    outputs.last_hidden_state, 
    tokenized_inputs["attention_mask"],
    pooling_method="cls" # or try "mean"
)

embeddings = F.normalize(embeddings, p=2, dim=1)
sim_scores = embeddings[:3] @ embeddings[3:].T
print(sim_scores.diag().tolist())
# [0.9360030293464661, 0.8591322302818298, 0.728583037853241]

SentenceTransformers庫示例

from sentence_transformers import SentenceTransformer

inputs = [
    # 
    "paraphrase: В Ярославской области разрешили работу бань, но без посетителей",
    "categorize_entailment: Женщину доставили в больницу, за ее жизнь сейчас борются врачи.",
    "search_query: Сколько программистов нужно, чтобы вкрутить лампочку?",
    # 
    "paraphrase: Ярославским баням разрешили работать без посетителей",
    "categorize_entailment: Женщину спасают врачи.",
    "search_document: Чтобы вкрутить лампочку, требуется три программиста: один напишет программу извлечения лампочки, другой — вкручивания лампочки, а третий проведет тестирование."
]

# loads model with CLS pooling
model = SentenceTransformer("ai-forever/FRIDA")

# embeddings are normalized by default
embeddings = model.encode(inputs, convert_to_tensor=True)

sim_scores = embeddings[:3] @ embeddings[3:].T
print(sim_scores.diag().tolist())
# [0.9360026717185974, 0.8591331243515015, 0.7285830974578857]

高級用法

使用提示（sentence-transformers>=2.4.0）：

from sentence_transformers import SentenceTransformer

# loads model with CLS pooling
model = SentenceTransformer("ai-forever/FRIDA")

paraphrase = model.encode(["В Ярославской области разрешили работу бань, но без посетителей", "Ярославским баням разрешили работать без посетителей"], prompt_name="paraphrase")
print(paraphrase[0] @ paraphrase[1].T) # 0.9360032

categorize_entailment = model.encode(["Женщину доставили в больницу, за ее жизнь сейчас борются врачи.", "Женщину спасают врачи."], prompt_name="categorize_entailment")
print(categorize_entailment[0] @ categorize_entailment[1].T) # 0.8591322

query_embedding = model.encode("Сколько программистов нужно, чтобы вкрутить лампочку?", prompt_name="search_query")
document_embedding = model.encode("Чтобы вкрутить лампочку, требуется три программиста: один напишет программу извлечения лампочки, другой — вкручивания лампочки, а третий проведет тестирование.", prompt_name="search_document")
print(query_embedding @ document_embedding.T) # 0.7285831

🔧 技術細節

FRIDA模型是一個基於T5去噪架構的全量微調通用文本嵌入模型。它基於FRED-T5模型的編碼器部分構建，並在俄英雙語數據集上進行了預訓練。在微調階段，模型針對不同的自然語言處理任務進行了優化，以提升性能。

模型使用了不同的前綴來適應各種任務，同時建議使用CLS池化方法。前綴和池化方法的選擇會影響模型在特定任務上的表現。

📄 許可證

本模型採用MIT許可證。

👥 作者

SaluteDevices面向B2C的人工智能研發團隊。
Artem Snegirev：HF個人主頁，Github；
Anna Maksimova：HF個人主頁；
Aleksandr Abramov：HF個人主頁，Github，Kaggle競賽大師

📚 引用

@misc{TODO
}

⚠️ 重要提示

⚠️ 重要提示

該模型主要設計用於處理俄語文本，其在英語文本上的處理質量未知。此外，模型的最大輸入文本長度限制為512個詞元。

模型指標詳情

屬性	詳情
模型類型	基於T5去噪架構的全量微調通用文本嵌入模型
訓練數據	俄英雙語數據集
基礎模型	ai-forever/FRED-T5-1.7B
任務類型	特徵提取
標籤	mteb、transformers、sentence-transformers
支持語言	俄語、英語