FRIDA-GGUF開源文本嵌入模型 - 免費支持俄英文本處理應用

首頁

FRIDA GGUF

由evilfreelancer開發

FRIDA是基於T5去噪架構思想進行全參數微調的通用文本嵌入模型，支持俄語和英語文本處理。

文本嵌入開源協議:MIT #俄英雙語嵌入 #T5去噪架構 #語義檢索優化

下載量 352

發布時間 : 5/21/2025

模型概述

FRIDA是基於T5去噪架構的通用文本嵌入模型，主要用於俄英雙語文本的特徵提取和語義理解任務。

模型特點

雙語支持

支持俄語和英語文本處理，適用於雙語應用場景。

多任務前綴

提供多種前綴詞選擇，適用於不同任務場景，如檢索、複述、分類等。

GGUF格式

提供GGUF格式模型，便於在本地環境中部署和使用。

模型能力

文本特徵提取

語義相似度計算

文本檢索

文本分類

情感分析

主題聚類

使用案例

信息檢索

答案檢索

使用'search_query:'和'search_document:'前綴進行問題和答案的匹配檢索。

文本相似度

語義相似度計算

使用'paraphrase:'前綴計算文本間的語義相似度。

文本分類

情感分析

使用'categorize_sentiment:'前綴進行文本情感分析。

主題分類

使用'categorize_topic:'前綴進行文本主題分類。

🚀 FRIDA GGUF模型卡片

FRIDA是一個基於T5去噪架構的全量微調通用文本嵌入模型。該模型受去噪架構啟發，基於T5構建。它以FRED - T5模型的編碼器部分為基礎，延續了文本嵌入模型的研究（如ruMTEB、[ru - en - RoSBERTa](https://huggingface.co/ai - forever/ru - en - RoSBERTa)）。該模型在俄英雙語數據集上進行了預訓練，並針對目標任務進行了微調，以提升性能。

如需瞭解更多模型細節，請參考我們的技術報告[TODO]。

🚀 快速開始

FRIDA模型可直接使用，並搭配特定前綴。建議使用CLS池化。前綴和池化的選擇取決於具體任務。

✨ 主要特性

多任務前綴支持：模型支持多種前綴，可根據不同任務靈活選擇，以優化性能。
可微調性：可以使用相關的高質量俄英數據集對模型進行微調，以更好地滿足特定需求。

📦 安裝指南

Ollama

ollama pull evilfreelancer/FRIDA:f16

💻 使用示例

基礎用法

模型可以直接使用前綴進行編碼。以下是使用Transformers和SentenceTransformers庫進行文本編碼的示例。

import json
import requests
import numpy as np

OLLAMA_HOST = "http://localhost:11434"
MODEL_NAME = "evilfreelancer/FRIDA:f16"


def get_embedding(text):
    payload = {
        "model": MODEL_NAME,
        "input": text
    }

    response = requests.post(
        f"{OLLAMA_HOST}/api/embed",
        data=json.dumps(payload, ensure_ascii=False),
        headers={"Content-Type": "application/x-www-form-urlencoded"}
    )
    response.raise_for_status()
    return np.array(response.json()["embeddings"][0])


def normalize(vectors):
    vectors = np.atleast_2d(vectors)
    norms = np.linalg.norm(vectors, axis=1, keepdims=True)
    norms[norms == 0] = 1.0
    return vectors / norms


def cosine_diag_similarity(a, b):
    return np.sum(a * b, axis=1)


inputs = [
    #
    "paraphrase: В Ярославской области разрешили работу бань, но без посетителей",
    "categorize_entailment: Женщину доставили в больницу за ее жизнь сейчас борются врачи.",
    "search_query: Сколько программистов нужно, чтобы вкрутить лампочку?",
    #
    "paraphrase: Ярославским баням разрешили работать без посетителей",
    "categorize_entailment: Женщину спасают врачи.",
    "search_document: Чтобы вкрутить лампочку нужно три программиста.",
]
size = int(len(inputs)/2)

embeddings = normalize(np.array([get_embedding(text) for text in inputs]))
sim_scores = cosine_diag_similarity(embeddings[:size], embeddings[size:])
print(sim_scores.tolist())