MiniLM-L6-danish-encoderオープンソースモデル - デンマーク語のテキストタスクを軽量に処理する

Minilm L6 Danish Encoder

KennethTMによって開発

これは軽量のデンマーク語の文埋め込みモデルで、英語のMiniLMモデルを調整したもので、デンマーク語のテキスト処理タスクに適しています。

テキスト埋め込みその他オープンソースライセンス:MIT #デンマーク語の文ベクトル #軽量エンコーダー #意味検索の最適化

ダウンロード数 5,802

リリース時間 : 1/9/2024

モデル概要

このモデルは、デンマーク語の文や段落を384次元のベクトル空間にマッピングでき、クラスタリングや意味検索などのタスクをサポートします。英語のMiniLMモデルを調整し、デンマーク語の形態素解析器を使用し、機械翻訳のデンマーク語データで学習させています。

モデル特徴

軽量設計

約2200万パラメータのみで、計算リソースの要求が低い

デンマーク語最適化

デンマーク語の形態素解析器を使用して特別に調整され、デンマーク語のテキスト処理に適している

長文サポート

最大512トークンのシーケンス長をサポートする

転移学習

英語のMiniLMモデルを調整しており、ゼロから学習するのではない

モデル能力

テキストの埋め込み

文の類似度計算

意味検索

テキストクラスタリング

使用事例

情報検索

デンマーク語の意味検索

デンマーク語の検索エンジンを構築し、キーワードではなく意味に基づく検索を実現する

クエリの意図を理解し、関連する結果を返す

テキスト分析

デンマーク語のテキストクラスタリング

デンマーク語のドキュメントやユーザーのコメントを自動的にグループ化する

類似した内容やトピックを発見する

## 🚀 MiniLM-L6-danish-encoder

このモデルは、デンマーク語の自然言語処理用の軽量（約2200万パラメータ）な[sentence-transformers](https://www.SBERT.net)モデルです。文章や段落を384次元の密ベクトル空間にマッピングし、クラスタリングや意味検索などのタスクに使用できます。最大シーケンス長は512トークンです。

> ⚠️ **重要提示**
> 
> より多くのデータで学習された新しいバージョンが利用可能です。それ以外は同じです。[KennethTM/MiniLM-L6-danish-encoder-v2](https://huggingface.co/KennethTM/MiniLM-L6-danish-encoder-v2)

## 🚀 クイックスタート
このモデルは、英語版の[sentence-transformers/all-MiniLM-L6-v2](https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2)を[デンマーク語トークナイザー](https://huggingface.co/KennethTM/bert-base-uncased-danish)で適応させたもので、スクラッチから事前学習されていません。ELI5とSQUADのデータを英語からデンマーク語に機械翻訳したもので学習されています。

## ✨ 主な機能
- デンマーク語の文章や段落を384次元の密ベクトル空間にマッピングします。
- クラスタリングや意味検索などのタスクに使用できます。
- 最大シーケンス長は512トークンです。

## 📦 インストール
[sentence-transformers](https://www.SBERT.net)をインストールすると、このモデルを簡単に使用できます。

pip install -U sentence-transformers


## 💻 使用例

### 基本的な使用法
```python
from sentence_transformers import SentenceTransformer
sentences = ["Kører der cykler på vejen?", "En panda løber på vejen.", "En mand kører hurtigt forbi på cykel."]

model = SentenceTransformer('KennethTM/MiniLM-L6-danish-encoder')
embeddings = model.encode(sentences)
print(embeddings)

高度な使用法

sentence-transformersを使用せずに、このモデルを使用することもできます。まず、入力をトランスフォーマーモデルに渡し、その後、文脈化された単語埋め込みに適切なプーリング操作を適用する必要があります。

from transformers import AutoTokenizer, AutoModel
import torch
import torch.nn.functional as F

#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)

# Sentences we want sentence embeddings for
sentences = ["Kører der cykler på vejen?", "En panda løber på vejen.", "En mand kører hurtigt forbi på cykel."]

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('KennethTM/MiniLM-L6-danish-encoder')
model = AutoModel.from_pretrained('KennethTM/MiniLM-L6-danish-encoder')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

# Normalize embeddings
sentence_embeddings = F.normalize(sentence_embeddings, p=2, dim=1)

print("Sentence embeddings:")
print(sentence_embeddings)

📚 ドキュメント

Property	Details
Model Type	デンマーク語の自然言語処理用の軽量なsentence-transformersモデル
Training Data	ELI5とSQUADのデータを英語からデンマーク語に機械翻訳したもの