FRIDA-GGUFオープンソーステキスト埋め込みモデル - ロシア語と英語のテキスト処理アプリを無料でサポート

ホーム

FRIDA GGUF

evilfreelancerによって開発

FRIDAはT5ノイズ除去アーキテクチャの思想に基づいて全パラメータを微調整した汎用テキスト埋め込みモデルで、ロシア語と英語のテキスト処理をサポートしています。

テキスト埋め込みオープンソースライセンス:MIT #ロシア語・英語バイリンガル埋め込み #T5ノイズ除去アーキテクチャ #意味検索最適化

ダウンロード数 352

リリース時間 : 5/21/2025

モデル概要

FRIDAはT5ノイズ除去アーキテクチャに基づく汎用テキスト埋め込みモデルで、主にロシア語・英語バイリンガルテキストの特徴抽出と意味理解タスクに使用されます。

モデル特徴

バイリンガルサポート

ロシア語と英語のテキスト処理をサポートし、バイリンガルアプリケーションに適しています。

マルチタスクプレフィックス

検索、言い換え、分類など、さまざまなタスクシナリオに適した複数のプレフィックスオプションを提供します。

GGUFフォーマット

GGUFフォーマットのモデルを提供し、ローカル環境での展開と使用を容易にします。

モデル能力

テキスト特徴抽出

意味的類似度計算

テキスト検索

テキスト分類

感情分析

トピッククラスタリング

使用事例

情報検索

回答検索

'search_query:'と'search_document:'プレフィックスを使用して質問と回答のマッチング検索を行います。

テキスト類似度

意味的類似度計算

'paraphrase:'プレフィックスを使用してテキスト間の意味的類似度を計算します。

テキスト分類

感情分析

'categorize_sentiment:'プレフィックスを使用してテキストの感情分析を行います。

トピック分類

'categorize_topic:'プレフィックスを使用してテキストのトピック分類を行います。

🚀 FRIDA GGUFのモデルカード

FRIDAは、T5に基づくノイズ除去アーキテクチャにインスパイアされた、完全に微調整された一般的なテキスト埋め込みモデルです。このモデルは、FRED - T5モデルのエンコーダ部分に基づいており、テキスト埋め込みモデルの研究を継続しています（ruMTEB、[ru - en - RoSBERTa](https://huggingface.co/ai - forever/ru - en - RoSBERTa)）。ロシア語と英語のデータセットで事前学習され、ターゲットタスクでのパフォーマンス向上のために微調整されています。

https://huggingface.co/evilfreelancer/FRIDA-GGUF
https://ollama.com/evilfreelancer/FRIDA

詳細なモデル情報については、技術レポート[TODO]を参照してください。

🚀 クイックスタート

✨ 主な機能

ロシア語と英語のテキスト埋め込みに最適化
さまざまなタスクに対応するためのプレフィックスをサポート
微調整可能で、関連する高品質なデータセットを使用してパフォーマンスを向上させることができる

📦 インストール

Ollama

ollama pull evilfreelancer/FRIDA:f16

💻 使用例

基本的な使用法

このモデルはプレフィックス付きでそのまま使用できます。CLSプーリングの使用が推奨されます。プレフィックスとプーリングの選択はタスクによって異なります。

# 以下はTransformersとSentenceTransformersライブラリを使用したテキストエンコーディングの例です。
import json
import requests
import numpy as np

OLLAMA_HOST = "http://localhost:11434"
MODEL_NAME = "evilfreelancer/FRIDA:f16"


def get_embedding(text):
    payload = {
        "model": MODEL_NAME,
        "input": text
    }

    response = requests.post(
        f"{OLLAMA_HOST}/api/embed",
        data=json.dumps(payload, ensure_ascii=False),
        headers={"Content-Type": "application/x-www-form-urlencoded"}
    )
    response.raise_for_status()
    return np.array(response.json()["embeddings"][0])


def normalize(vectors):
    vectors = np.atleast_2d(vectors)
    norms = np.linalg.norm(vectors, axis=1, keepdims=True)
    norms[norms == 0] = 1.0
    return vectors / norms


def cosine_diag_similarity(a, b):
    return np.sum(a * b, axis=1)


inputs = [
    #
    "paraphrase: В Ярославской области разрешили работу бань, но без посетителей",
    "categorize_entailment: Женщину доставили в больницу за ее жизнь сейчас борются врачи.",
    "search_query: Сколько программистов нужно, чтобы вкрутить лампочку?",
    #
    "paraphrase: Ярославским баням разрешили работать без посетителей",
    "categorize_entailment: Женщину спасают врачи.",
    "search_document: Чтобы вкрутить лампочку нужно три программиста.",
]
size = int(len(inputs)/2)

embeddings = normalize(np.array([get_embedding(text) for text in inputs]))
sim_scores = cosine_diag_similarity(embeddings[:size], embeddings[size:])
print(sim_scores.tolist())