SILMA阿拉伯套娃嵌入模型0.1开源 - 优化阿拉伯文本表示，平衡速度与精准度

首页

Silma Embedding Matryoshka V0.1

由 silma-ai 开发

SILMA阿拉伯套娃嵌入模型0.1是一款先进的阿拉伯文本嵌入模型，采用创新的套娃嵌入技术，可在不同维度上优化文本表示，平衡速度、存储和准确性。

文本嵌入支持多种语言开源协议:Apache-2.0 #阿拉伯语嵌入 #套娃维度优化 #多语言支持

下载量 446

发布时间 : 10/12/2024

模型简介

该模型旨在生成强大且富含上下文信息的文本表示，适用于从语义搜索到文档分类等广泛的应用场景。

模型特点

套娃嵌入技术

可在不同维度上进行优化，平衡速度、存储和准确性，即使极低的维度（如8）也能产生可接受的语义相似度得分。

多语言支持

支持阿拉伯语和英语，适用于跨语言任务。

高性能评估

在多个数据集上进行了全面评估，包括MTEB MassiveIntentClassification、MTEB MassiveScenarioClassification和MTEB STS17等。

模型能力

文本嵌入

句子相似度计算

语义搜索

文档分类

使用案例

语义搜索

短句子相似度

计算短句子之间的语义相似度，如'الطقس اليوم مشمس'与'الجو اليوم كان مشمسًا ورائعًا'。

在768维下相似度为0.479942，256维下为0.509289。

长句子相似度

计算长句子之间的语义相似度，如'الكتاب يتحدث عن أهمية الذكاء الاصطناعي في تطوير المجتمعات الحديثة'与'في هذا الكتاب، يناقش الكاتب كيف يمكن للتكنولوجيا أن تغير العالم'。

在768维下相似度为0.637418，256维下为0.614761。

问答匹配

问题与段落匹配

匹配问题与相关段落，如'ما هي فوائد ممارسة الرياضة؟'与'ممارسة الرياضة بشكل منتظم تساعد على تحسين الصحة العامة واللياقة البدنية'。

在768维下相似度为0.520329，256维下为0.556088。

🚀 SILMA阿拉伯套娃嵌入模型0.1

SILMA阿拉伯套娃嵌入模型0.1 是一款先进的阿拉伯文本嵌入模型，旨在生成强大且富含上下文信息的文本表示，适用于从语义搜索到文档分类等广泛的应用场景。该模型采用了创新的套娃嵌入技术，可在不同维度上进行优化，以平衡速度、存储和准确性。

🚀 快速开始

直接使用（Sentence Transformers）

首先，安装Sentence Transformers库：

pip install -U sentence-transformers

然后加载模型：

from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim
import pandas as pd

model_name = "silma-ai/silma-embeddding-matryoshka-0.1"
model = SentenceTransformer(model_name)

💻 使用示例

基础用法

使用套娃技术，你可以指定前 (n) 个维度来表示每个文本。在以下示例中，你可以查看每个维度如何影响查询与两个输入之间的 余弦相似度。你会发现，在大多数情况下，即使是极低的维度（如8）也能产生可接受的语义相似度得分。

[+] 短句子相似度

query = "الطقس اليوم مشمس"
sentence_1 = "الجو اليوم كان مشمسًا ورائعًا"
sentence_2 = "الطقس اليوم غائم"

scores = []
for dim in [768, 256, 48, 16, 8]:

    query_embedding = model.encode(query)[:dim]

    sent1_score = cos_sim(query_embedding, model.encode(sentence_1)[:dim])[0][0].tolist()
    sent2_score = cos_sim(query_embedding, model.encode(sentence_2)[:dim])[0][0].tolist()

    scores.append({
        "dim": dim,
        "valid_top": sent1_score > sent2_score,
        "sent1_score": sent1_score,
        "sent2_score": sent2_score,
    })

scores_df = pd.DataFrame(scores)
print(scores_df.to_markdown(index=False))

# |   dim | valid_top   |   sent1_score |   sent2_score |
# |------:|:------------|--------------:|--------------:|
# |   768 | True        |      0.479942 |      0.233572 |
# |   256 | True        |      0.509289 |      0.208452 |
# |    48 | True        |      0.598825 |      0.191677 |
# |    16 | True        |      0.917707 |      0.458854 |
# |     8 | True        |      0.948563 |      0.675662 |

[+] 长句子相似度

query = "الكتاب يتحدث عن أهمية الذكاء الاصطناعي في تطوير المجتمعات الحديثة"
sentence_1 = "في هذا الكتاب، يناقش الكاتب كيف يمكن للتكنولوجيا أن تغير العالم"
sentence_2 = "الكاتب يتحدث عن أساليب الطبخ التقليدية في دول البحر الأبيض المتوسط"

scores = []
for dim in [768, 256, 48, 16, 8]:

    query_embedding = model.encode(query)[:dim]

    sent1_score = cos_sim(query_embedding, model.encode(sentence_1)[:dim])[0][0].tolist()
    sent2_score = cos_sim(query_embedding, model.encode(sentence_2)[:dim])[0][0].tolist()

    scores.append({
        "dim": dim,
        "valid_top": sent1_score > sent2_score,
        "sent1_score": sent1_score,
        "sent2_score": sent2_score,
    })

scores_df = pd.DataFrame(scores)
print(scores_df.to_markdown(index=False))

# |   dim | valid_top   |   sent1_score |   sent2_score |
# |------:|:------------|--------------:|--------------:|
# |   768 | True        |      0.637418 |      0.262693 |
# |   256 | True        |      0.614761 |      0.268267 |
# |    48 | True        |      0.758887 |      0.384649 |
# |    16 | True        |      0.885737 |      0.204213 |
# |     8 | True        |      0.918684 |      0.146478 |

[+] 问题与段落匹配

query = "ما هي فوائد ممارسة الرياضة؟"
sentence_1 = "ممارسة الرياضة بشكل منتظم تساعد على تحسين الصحة العامة واللياقة البدنية"
sentence_2 = "تعليم الأطفال في سن مبكرة يساعدهم على تطوير المهارات العقلية بسرعة"

scores = []
for dim in [768, 256, 48, 16, 8]:

    query_embedding = model.encode(query)[:dim]

    sent1_score = cos_sim(query_embedding, model.encode(sentence_1)[:dim])[0][0].tolist()
    sent2_score = cos_sim(query_embedding, model.encode(sentence_2)[:dim])[0][0].tolist()

    scores.append({
        "dim": dim,
        "valid_top": sent1_score > sent2_score,
        "sent1_score": sent1_score,
        "sent2_score": sent2_score,
    })

scores_df = pd.DataFrame(scores)
print(scores_df.to_markdown(index=False))

# |   dim | valid_top   |   sent1_score |   sent2_score |
# |------:|:------------|--------------:|--------------:|
# |   768 | True        |      0.520329 |    0.00295128 |
# |   256 | True        |      0.556088 |   -0.017764   |
# |    48 | True        |      0.586194 |   -0.110691   |
# |    16 | True        |      0.606462 |   -0.331682   |

📚 详细文档

模型信息

属性	详情
基础模型	aubmindlab/bert-base-arabertv02
库名称	sentence-transformers
评估指标	pearson_cosine、spearman_cosine、pearson_manhattan、spearman_manhattan、pearson_euclidean、spearman_euclidean、pearson_dot、spearman_dot、pearson_max、spearman_max
任务标签	句子相似度
标签	sentence-transformers、sentence-similarity、feature-extraction、generated_from_trainer、loss:CosineSimilarityLoss、mteb
模型名称	silma-ai/silma-embeddding-matryoshka-v0.1
许可证	apache-2.0
支持语言	ar、en

评估结果

该模型在多个数据集上进行了评估，以下是部分评估结果：

MTEB MassiveIntentClassification

数据集配置	准确率	F1值	F1加权值	主得分
ar（测试集）	56.445864156018835	53.58282538318122	56.821808211639315	56.445864156018835
en（测试集）	47.40080699394754	44.729286773524755	47.83506683571795	47.40080699394754
ar（验证集）	56.97983275946876	53.809263807080086	57.14993215193604	56.97983275946876
en（验证集）	47.683226758485006	44.905317333393775	48.051379514830195	47.683226758485006

MTEB MassiveScenarioClassification

数据集配置	准确率	F1值	F1加权值	主得分
ar（测试集）	63.31876260928042	63.197056314678754	62.7166315473092	63.31876260928042
en（测试集）	53.35574983187627	50.35837223252574	54.11644042208904	53.35574983187627
ar（验证集）	62.26758484997541	62.477928166560325	61.92238394647396	62.26758484997541
en（验证集）	52.62174126906049	50.470501485026716	53.16459392827557	52.62174126906049

MTEB STS17

数据集配置	余弦皮尔逊相关系数	余弦斯皮尔曼相关系数	欧几里得皮尔逊相关系数	欧几里得斯皮尔曼相关系数	主得分	曼哈顿皮尔逊相关系数	曼哈顿斯皮尔曼相关系数	皮尔逊相关系数	斯皮尔曼相关系数
en-en（测试集）	74.33941506827517	74.42197838273297	75.33836191339782	74.37385193453852	74.42197838273297	75.41881517194568	74.47237277057877	74.33941645999855	74.42197838273297
nl-en（测试集）	31.84872826199112	32.22496230755917	21.830860533929688	21.38205815348658	32.22496230755917	21.852430479395576	21.37848326556159	31.84872485436001	32.22496230755917
en-ar（测试集）	43.37529327788584	42.763149514327225	39.625411905897394	39.26727199746294	42.763149514327225	40.49857681486655	40.63669314166475	43.37529078998193	42.763149514327225
en-tr（测试集）	17.16722415938186	15.590330355526344	4.430499555984906	2.729050802084264	15.590330355526344	2.805408490135879	1.5237347692119627	17.167228709176676	15.590330355526344
fr-en（测试集）	36.093945717347395	37.33997345407934	23.156103022485055	20.62925594786342	37.33997345407934	22.035024322719813	19.147522562438795	36.09395175426761	37.33997345407934
en-de（测试集）	29.064411455563	29.232781114344697	16.90458086330736	17.462020565289887	29.232781114344697	16.882446230243286	17.06144091941576	29.06441922605839	29.232781114344697
es-en（测试集）	27.686316587339473	28.650995973102205	12.954885279630565	11.970815927480198	28.650995973102205	12.079730127474948	10.606967901984147	27.68631836666537	28.650995973102205
ar-ar（测试集）	84.12612492708037	84.24703763883515	81.38085140113648	83.17403450502965	84.24703763883515	81.18466522597414	82.61184409962614	84.12612546419625	84.25077492152536
it-en（测试集）	27.697680546701868	25.19277336255784	13.964798090314115	10.512169361528596	25.19277336255784	13.537525485694433	10.334001560105834	27.697681880242325	25.19277336255784

MTEB STS22.v2

数据集配置	余弦皮尔逊相关系数	余弦斯皮尔曼相关系数	欧几里得皮尔逊相关系数	欧几里得斯皮尔曼相关系数	主得分	曼哈顿皮尔逊相关系数	曼哈顿斯皮尔曼相关系数	皮尔逊相关系数	斯皮尔曼相关系数
de-en（测试集）	32.87548760760924	30.69782036694315	29.925045225262142	34.076021250318334	30.69782036694315	30.815090565180945	34.91615861045259	32.8754813614174	30.69782036694315
zh-en（测试集）	23.93269292232737	16.781461291066496	20.87679825681155	13.764510796592536	16.781461291066496	23.416430850444588	17.10405713909058	23.932682034899777	16.781461291066496
ar（测试集）	51.73784691362425	60.01035490847343	52.717195602630305	60.22164097529916	60.01035490847343	53.04979941729716	60.393100473647706	51.73784381247053	60.020906672817276
es-en（测试集）	47.917244237624864	53.23173373821509	48.172861539004636	53.32970069145014	53.23173373821509	48.163716825216646	53.77963871495307	47.91724405724847	53.23173373821509
pl-en（测试集）	43.66748993183993	38.518248671828594	50.475058499541134	44.76070858743843	38.518248671828594	50.576185727010014	45.5306304403841	43.66750472144702	38.518248671828594
en（测试集）	56.41373213565263	59.03774516602592	54.173092638047294	59.130444355085885	59.03774516602592	54.18950361517434	58.78927227383971	56.413733329868045	59.03774516602592