SILMA阿拉伯套娃嵌入模型0.1開源 - 優化阿拉伯文本表示，平衡速度與精準度

首頁

Silma Embedding Matryoshka V0.1

由silma-ai開發

SILMA阿拉伯套娃嵌入模型0.1是一款先進的阿拉伯文本嵌入模型，採用創新的套娃嵌入技術，可在不同維度上優化文本表示，平衡速度、存儲和準確性。

文本嵌入支持多種語言開源協議:Apache-2.0 #阿拉伯語嵌入 #套娃維度優化 #多語言支持

下載量 446

發布時間 : 10/12/2024

模型概述

該模型旨在生成強大且富含上下文信息的文本表示，適用於從語義搜索到文檔分類等廣泛的應用場景。

模型特點

套娃嵌入技術

可在不同維度上進行優化，平衡速度、存儲和準確性，即使極低的維度（如8）也能產生可接受的語義相似度得分。

多語言支持

支持阿拉伯語和英語，適用於跨語言任務。

高性能評估

在多個數據集上進行了全面評估，包括MTEB MassiveIntentClassification、MTEB MassiveScenarioClassification和MTEB STS17等。

模型能力

文本嵌入

句子相似度計算

語義搜索

文檔分類

使用案例

語義搜索

短句子相似度

計算短句子之間的語義相似度，如'الطقس اليوم مشمس'與'الجو اليوم كان مشمسًا ورائعًا'。

在768維下相似度為0.479942，256維下為0.509289。

長句子相似度

計算長句子之間的語義相似度，如'الكتاب يتحدث عن أهمية الذكاء الاصطناعي في تطوير المجتمعات الحديثة'與'في هذا الكتاب، يناقش الكاتب كيف يمكن للتكنولوجيا أن تغير العالم'。

在768維下相似度為0.637418，256維下為0.614761。

問答匹配

問題與段落匹配

匹配問題與相關段落，如'ما هي فوائد ممارسة الرياضة؟'與'ممارسة الرياضة بشكل منتظم تساعد على تحسين الصحة العامة واللياقة البدنية'。

在768維下相似度為0.520329，256維下為0.556088。

🚀 SILMA阿拉伯套娃嵌入模型0.1

SILMA阿拉伯套娃嵌入模型0.1 是一款先進的阿拉伯文本嵌入模型，旨在生成強大且富含上下文信息的文本表示，適用於從語義搜索到文檔分類等廣泛的應用場景。該模型採用了創新的套娃嵌入技術，可在不同維度上進行優化，以平衡速度、存儲和準確性。

🚀 快速開始

直接使用（Sentence Transformers）

首先，安裝Sentence Transformers庫：

pip install -U sentence-transformers

然後加載模型：

from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim
import pandas as pd

model_name = "silma-ai/silma-embeddding-matryoshka-0.1"
model = SentenceTransformer(model_name)

💻 使用示例

基礎用法

使用套娃技術，你可以指定前 (n) 個維度來表示每個文本。在以下示例中，你可以查看每個維度如何影響查詢與兩個輸入之間的 餘弦相似度。你會發現，在大多數情況下，即使是極低的維度（如8）也能產生可接受的語義相似度得分。

[+] 短句子相似度

query = "الطقس اليوم مشمس"
sentence_1 = "الجو اليوم كان مشمسًا ورائعًا"
sentence_2 = "الطقس اليوم غائم"

scores = []
for dim in [768, 256, 48, 16, 8]:

    query_embedding = model.encode(query)[:dim]

    sent1_score = cos_sim(query_embedding, model.encode(sentence_1)[:dim])[0][0].tolist()
    sent2_score = cos_sim(query_embedding, model.encode(sentence_2)[:dim])[0][0].tolist()

    scores.append({
        "dim": dim,
        "valid_top": sent1_score > sent2_score,
        "sent1_score": sent1_score,
        "sent2_score": sent2_score,
    })

scores_df = pd.DataFrame(scores)
print(scores_df.to_markdown(index=False))

# |   dim | valid_top   |   sent1_score |   sent2_score |
# |------:|:------------|--------------:|--------------:|
# |   768 | True        |      0.479942 |      0.233572 |
# |   256 | True        |      0.509289 |      0.208452 |
# |    48 | True        |      0.598825 |      0.191677 |
# |    16 | True        |      0.917707 |      0.458854 |
# |     8 | True        |      0.948563 |      0.675662 |

[+] 長句子相似度

query = "الكتاب يتحدث عن أهمية الذكاء الاصطناعي في تطوير المجتمعات الحديثة"
sentence_1 = "في هذا الكتاب، يناقش الكاتب كيف يمكن للتكنولوجيا أن تغير العالم"
sentence_2 = "الكاتب يتحدث عن أساليب الطبخ التقليدية في دول البحر الأبيض المتوسط"

scores = []
for dim in [768, 256, 48, 16, 8]:

    query_embedding = model.encode(query)[:dim]

    sent1_score = cos_sim(query_embedding, model.encode(sentence_1)[:dim])[0][0].tolist()
    sent2_score = cos_sim(query_embedding, model.encode(sentence_2)[:dim])[0][0].tolist()

    scores.append({
        "dim": dim,
        "valid_top": sent1_score > sent2_score,
        "sent1_score": sent1_score,
        "sent2_score": sent2_score,
    })

scores_df = pd.DataFrame(scores)
print(scores_df.to_markdown(index=False))

# |   dim | valid_top   |   sent1_score |   sent2_score |
# |------:|:------------|--------------:|--------------:|
# |   768 | True        |      0.637418 |      0.262693 |
# |   256 | True        |      0.614761 |      0.268267 |
# |    48 | True        |      0.758887 |      0.384649 |
# |    16 | True        |      0.885737 |      0.204213 |
# |     8 | True        |      0.918684 |      0.146478 |

[+] 問題與段落匹配

query = "ما هي فوائد ممارسة الرياضة؟"
sentence_1 = "ممارسة الرياضة بشكل منتظم تساعد على تحسين الصحة العامة واللياقة البدنية"
sentence_2 = "تعليم الأطفال في سن مبكرة يساعدهم على تطوير المهارات العقلية بسرعة"

scores = []
for dim in [768, 256, 48, 16, 8]:

    query_embedding = model.encode(query)[:dim]

    sent1_score = cos_sim(query_embedding, model.encode(sentence_1)[:dim])[0][0].tolist()
    sent2_score = cos_sim(query_embedding, model.encode(sentence_2)[:dim])[0][0].tolist()

    scores.append({
        "dim": dim,
        "valid_top": sent1_score > sent2_score,
        "sent1_score": sent1_score,
        "sent2_score": sent2_score,
    })

scores_df = pd.DataFrame(scores)
print(scores_df.to_markdown(index=False))

# |   dim | valid_top   |   sent1_score |   sent2_score |
# |------:|:------------|--------------:|--------------:|
# |   768 | True        |      0.520329 |    0.00295128 |
# |   256 | True        |      0.556088 |   -0.017764   |
# |    48 | True        |      0.586194 |   -0.110691   |
# |    16 | True        |      0.606462 |   -0.331682   |

📚 詳細文檔

模型信息

屬性	詳情
基礎模型	aubmindlab/bert-base-arabertv02
庫名稱	sentence-transformers
評估指標	pearson_cosine、spearman_cosine、pearson_manhattan、spearman_manhattan、pearson_euclidean、spearman_euclidean、pearson_dot、spearman_dot、pearson_max、spearman_max
任務標籤	句子相似度
標籤	sentence-transformers、sentence-similarity、feature-extraction、generated_from_trainer、loss:CosineSimilarityLoss、mteb
模型名稱	silma-ai/silma-embeddding-matryoshka-v0.1
許可證	apache-2.0
支持語言	ar、en

評估結果

該模型在多個數據集上進行了評估，以下是部分評估結果：

MTEB MassiveIntentClassification

數據集配置	準確率	F1值	F1加權值	主得分
ar（測試集）	56.445864156018835	53.58282538318122	56.821808211639315	56.445864156018835
en（測試集）	47.40080699394754	44.729286773524755	47.83506683571795	47.40080699394754
ar（驗證集）	56.97983275946876	53.809263807080086	57.14993215193604	56.97983275946876
en（驗證集）	47.683226758485006	44.905317333393775	48.051379514830195	47.683226758485006

MTEB MassiveScenarioClassification

數據集配置	準確率	F1值	F1加權值	主得分
ar（測試集）	63.31876260928042	63.197056314678754	62.7166315473092	63.31876260928042
en（測試集）	53.35574983187627	50.35837223252574	54.11644042208904	53.35574983187627
ar（驗證集）	62.26758484997541	62.477928166560325	61.92238394647396	62.26758484997541
en（驗證集）	52.62174126906049	50.470501485026716	53.16459392827557	52.62174126906049

MTEB STS17

數據集配置	餘弦皮爾遜相關係數	餘弦斯皮爾曼相關係數	歐幾里得皮爾遜相關係數	歐幾里得斯皮爾曼相關係數	主得分	曼哈頓皮爾遜相關係數	曼哈頓斯皮爾曼相關係數	皮爾遜相關係數	斯皮爾曼相關係數
en-en（測試集）	74.33941506827517	74.42197838273297	75.33836191339782	74.37385193453852	74.42197838273297	75.41881517194568	74.47237277057877	74.33941645999855	74.42197838273297
nl-en（測試集）	31.84872826199112	32.22496230755917	21.830860533929688	21.38205815348658	32.22496230755917	21.852430479395576	21.37848326556159	31.84872485436001	32.22496230755917
en-ar（測試集）	43.37529327788584	42.763149514327225	39.625411905897394	39.26727199746294	42.763149514327225	40.49857681486655	40.63669314166475	43.37529078998193	42.763149514327225
en-tr（測試集）	17.16722415938186	15.590330355526344	4.430499555984906	2.729050802084264	15.590330355526344	2.805408490135879	1.5237347692119627	17.167228709176676	15.590330355526344
fr-en（測試集）	36.093945717347395	37.33997345407934	23.156103022485055	20.62925594786342	37.33997345407934	22.035024322719813	19.147522562438795	36.09395175426761	37.33997345407934
en-de（測試集）	29.064411455563	29.232781114344697	16.90458086330736	17.462020565289887	29.232781114344697	16.882446230243286	17.06144091941576	29.06441922605839	29.232781114344697
es-en（測試集）	27.686316587339473	28.650995973102205	12.954885279630565	11.970815927480198	28.650995973102205	12.079730127474948	10.606967901984147	27.68631836666537	28.650995973102205
ar-ar（測試集）	84.12612492708037	84.24703763883515	81.38085140113648	83.17403450502965	84.24703763883515	81.18466522597414	82.61184409962614	84.12612546419625	84.25077492152536
it-en（測試集）	27.697680546701868	25.19277336255784	13.964798090314115	10.512169361528596	25.19277336255784	13.537525485694433	10.334001560105834	27.697681880242325	25.19277336255784

MTEB STS22.v2

數據集配置	餘弦皮爾遜相關係數	餘弦斯皮爾曼相關係數	歐幾里得皮爾遜相關係數	歐幾里得斯皮爾曼相關係數	主得分	曼哈頓皮爾遜相關係數	曼哈頓斯皮爾曼相關係數	皮爾遜相關係數	斯皮爾曼相關係數
de-en（測試集）	32.87548760760924	30.69782036694315	29.925045225262142	34.076021250318334	30.69782036694315	30.815090565180945	34.91615861045259	32.8754813614174	30.69782036694315
zh-en（測試集）	23.93269292232737	16.781461291066496	20.87679825681155	13.764510796592536	16.781461291066496	23.416430850444588	17.10405713909058	23.932682034899777	16.781461291066496
ar（測試集）	51.73784691362425	60.01035490847343	52.717195602630305	60.22164097529916	60.01035490847343	53.04979941729716	60.393100473647706	51.73784381247053	60.020906672817276
es-en（測試集）	47.917244237624864	53.23173373821509	48.172861539004636	53.32970069145014	53.23173373821509	48.163716825216646	53.77963871495307	47.91724405724847	53.23173373821509
pl-en（測試集）	43.66748993183993	38.518248671828594	50.475058499541134	44.76070858743843	38.518248671828594	50.576185727010014	45.5306304403841	43.66750472144702	38.518248671828594
en（測試集）	56.41373213565263	59.03774516602592	54.173092638047294	59.130444355085885	59.03774516602592	54.18950361517434	58.78927227383971	56.413733329868045	59.03774516602592