数据流程展示

Word文档
PDF文件
图片文档
表格数据
Embedding模型
文本模型 bge-m3
图像模型 CLIP/SigLip2
[0.82, 0.15, 0.93, ...]
向量数据库
[0.82, 0.15, ...]
[0.45, 0.92, ...]
[0.31, 0.67, ...]
[0.73, 0.28, ...]
[0.59, 0.84, ...]
[0.91, 0.42, ...]
语义检索
RAG问答
知识图谱
1

数据采集阶段

原始数据获取

从140万份文档中提取原始数据,包括文本、图片、表格等多种格式

数据分类

根据文档类型和内容进行初步分类,建立基础分类体系

数据清洗

去除重复数据,修正格式错误,统一编码方式

2

数据预处理阶段

文本处理

使用NLP技术进行文本分词、去噪、标准化处理

图像处理

对文档中的图片进行压缩、格式转换、OCR识别

[0.8, 0.2, 0.5, ...]

结构化处理

将非结构化数据转换为结构化格式,提取关键信息

3

数据库构建阶段

数据库设计

设计数据库架构,建立索引和关系

向量索引构建 → 快速检索

数据导入

将处理后的数据导入数据库,建立数据表

性能优化

优化数据库性能,确保高效查询和存储