数据流程展示

Word文档

PDF文件

图片文档

表格数据

Embedding模型

文本模型 bge-m3

图像模型 CLIP/SigLip2

[0.82, 0.15, 0.93, ...]

向量数据库

[0.82, 0.15, ...]

[0.45, 0.92, ...]

[0.31, 0.67, ...]

[0.73, 0.28, ...]

[0.59, 0.84, ...]

[0.91, 0.42, ...]

语义检索

RAG问答

知识图谱

1

数据采集阶段

原始数据获取

从140万份文档中提取原始数据，包括文本、图片、表格等多种格式

数据分类

根据文档类型和内容进行初步分类，建立基础分类体系

数据清洗

去除重复数据，修正格式错误，统一编码方式

2

数据预处理阶段

文本处理

使用NLP技术进行文本分词、去噪、标准化处理

图像处理

对文档中的图片进行压缩、格式转换、OCR识别

[0.8, 0.2, 0.5, ...]

结构化处理

将非结构化数据转换为结构化格式，提取关键信息

3

数据库构建阶段

数据库设计

设计数据库架构，建立索引和关系

向量索引构建 → 快速检索

数据导入

将处理后的数据导入数据库，建立数据表

性能优化

优化数据库性能，确保高效查询和存储