文本特徵提取

# 文本特徵提取

Amber Base 是基於 modernbert-ja-130m 的日語-英語句子轉換器模型，專注於句子相似度計算和特徵提取任務。

文本嵌入支持多種語言

Nomic Embed Text V2 Moe Unsupervised

這是一個多語言混合專家(MoE)文本嵌入模型的中間版本，經過多階段對比訓練得到

Context Skill Extraction Base

這是一個基於sentence-transformers訓練的模型，能夠將句子和段落映射到768維的密集向量空間，適用於語義文本相似度計算、語義搜索等多種任務。

Snowflake Arctic Embed M V1.5

Snowflake Arctic Embed M v1.5 是一個高效的句子嵌入模型，專注於句子相似度計算和特徵提取任務。

由Trendyol預訓練的土耳其語Bert模型，適用於多種自然語言理解任務。

大型語言模型

Transformers 其他

Snowflake Arctic Embed M

Snowflake Arctic Embed M 是一個專注於句子相似度任務的句子轉換器模型，能夠高效提取文本特徵並計算句子間的相似度。

bge_micro 是一個基於 sentence-transformers 的句子嵌入模型，專注於句子相似度計算和特徵提取任務。

SmartComponents

St Polish Kartonberta Base Alpha V1

這是一個基於KartonBERTa架構的波蘭語句子轉換器模型，主要用於句子相似度計算和特徵提取任務。

Transformers 其他

Labse En Ru Myv V2

這是一個基於LaBSE模型的多語言嵌入模型，支持俄語和莫克沙語，在myv_ru_2022數據集上進行了微調。

大型語言模型

Transformers 其他

bge_micro 是一個專注於句子相似度計算的輕量級模型，適用於多種自然語言處理任務。

bge_micro 是一個輕量級的句子相似度計算模型，基於變換器架構，專為高效的特徵提取和句子相似度任務設計。

STAR是一個基於監督對比預訓練變換器的模型，用於社交媒體寫作風格理解。

Unsup Simcse Ja Base

這是一個基於無監督SimCSE方法的日語句子嵌入模型，專門用於生成高質量的日語句子嵌入表示。

Transformers 日語

Simcse Ja Bert Base Clcmlp

這是一個基於BERT的日語SimCSE模型，專門用於從日語句子中提取高質量的句子嵌入表示。

Transformers 日語

Distilbert Base Uncased Becas 2

基於distilbert-base-uncased在becasv2數據集上微調的模型，驗證損失為5.9506

大型語言模型

Sbert Chinese General V1

一個通用的中文句子嵌入模型，用於計算句子相似度和語義搜索任務。

Transformers 中文

Finetune Data Skills

基於bert-base-uncased微調的數據技能模型，適用於特定NLP任務

大型語言模型

Chinese Roberta L 8 H 256

基於CLUECorpusSmall預訓練的中文RoBERTa模型，參數規模為8層512隱藏單元，適用於多種中文NLP任務。

大型語言模型中文

envibert是一個基於RoBERTa架構的雙語模型，支持越南語和英語處理，專為生產環境優化。

大型語言模型

Transformers 其他

基於英語語料預訓練的Transformer模型，採用ELECTRA類似的目標函數，通過自監督方式學習英語語言的內在表示。

大型語言模型

Transformers 英語

funnel-transformer

Funnel Transformer是一種基於自監督學習的英語文本預訓練模型，採用類似ELECTRA的目標任務，通過過濾序列冗餘實現高效語言處理。

大型語言模型

Transformers 英語

funnel-transformer

基於英語語料庫預訓練的Transformer模型，採用ELECTRA類似目標訓練，適用於文本特徵提取和下游任務微調

大型語言模型

Transformers 英語

funnel-transformer

Debertav2 Base Uncased

BERT是一個基於Transformer架構的預訓練語言模型，通過掩碼語言建模和下一句預測任務在英語語料上訓練。

大型語言模型英語

Albert Base Chinese Cluecorpussmall

基於CLUECorpusSmall預訓練的中文ALBERT模型，由UER-py框架訓練，適用於中文文本處理任務。

大型語言模型

Transformers 中文

Distilbert Feature Extraction

DistilBERT 是 BERT 的輕量級蒸餾版本，保留了 BERT 97% 的性能，但體積縮小了 40%。

大型語言模型

基於英語語料庫預訓練的Transformer模型，採用ELECTRA相似的目標任務，通過自監督學習獲取文本表徵

大型語言模型

Transformers 英語

funnel-transformer

基於英語語料預訓練的Transformer模型，採用類似ELECTRA的自監督學習方式，通過預測被替換標記進行訓練。

大型語言模型

Transformers 英語

funnel-transformer

Bert Base Irish Cased V1

gaBERT是一個基於BERT的愛爾蘭語單語模型，訓練於790萬愛爾蘭語句子上，適用於愛爾蘭語的下游任務微調。

大型語言模型

基於西班牙國家圖書館(BNE)數據訓練的GPT2-large西班牙語語言模型

大型語言模型

Transformers 西班牙語

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase