B

Bert Chunker 3

Developed by tim1900
基于BertForTokenClassification的文本分块器,适用于结构化和非结构化文本,特别优化用于RAG场景
Downloads 1,226
Release Time : 2/9/2025

Model Overview

bert-chunker-3是一个基于BERT的文本分块模型,能够预测文本块的起始标记,并通过滑动窗口将任意大小的文档切割成文本块。特别适用于检索增强生成(RAG)等场景,对非结构化和杂乱文本有良好处理能力。

Model Features

非结构化文本处理
专门优化用于处理非结构化和杂乱文本的分块需求
滑动窗口机制
采用滑动窗口技术处理任意长度的文档
概率阈值调节
可通过prob_threshold参数灵活控制分块粒度
LLM标注数据
训练数据由大语言模型标注,提高模型稳定性

Model Capabilities

文本分块
文档分割
非结构化文本处理
RAG场景支持

Use Cases

检索增强生成(RAG)
文档预处理
为RAG系统准备文档分块
提高检索效率和准确性
文本分析
技术文档处理
分割技术文档为逻辑段落
便于后续分析和处理
广告内容分析
分割广告文本为有意义的块
支持内容分类和特征提取
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase