我要投稿

8分钟打造一个DeepSeek生成测试用例系统知识库

发布日期：2025-04-06 05:12:14 浏览次数： 1936

作者：北极星学派 Polaris School

微信搜一搜，关注“北极星学派 Polaris School”

一、背景与系统定位

之前分享过两篇8分钟系列DeepSeek赋能软件测试的文章，吸引了很多志同道合的同学们的讨论，基于前面的文章，我们已构建了基础测试用例生成能力。今天主要聊一下知识库。

8分钟打造一个DeepSeek加持的测试用例工具
北极星学派，公众号：北极星学派 Polaris School8分钟打造一个DeepSeek加持的测试用例工具

8分钟打造一个DeepSeek API智能测试引擎：当咖啡还没凉，测试报告已出炉
北极星学派，公众号：北极星学派 Polaris School8分钟打造一个DeepSeek API智能测试引擎：当咖啡还没凉，测试报告已出炉

【重磅】一键接入扣子、Dify，FastGPT等开发平台

立即开通>>

企业内部AI 先行者已通过扣子、Dify 等智能体开发平台积极探索 "人 + AI" 的效率革新。这些应用大多局限于小范围应用，基于此，我们打造一款开箱即用的 AI 门户-53AI Hub，让企业实现从 "场景级效率优化" 到 "企业级生产力重构" 的跨越....

本系统在此基础上引入知识库增强生成（RAG）技术，通过融合领域文档与历史用例数据，使生成结果更贴合业务场景。

1.1 为什么需要知识库？

传统AI生成方案存在两大痛点：

领域知识缺失
大模型无法记忆企业私有文档（如需求规格书、接口文档）
历史经验浪费
过往测试用例未被有效复用

本系统通过轻量化RAG架构（无需向量数据库）实现：

PDF文档智能解析 ➡️ 构建领域知识库
历史用例语义检索 ➡️ 形成经验复用机制
动态增强生成提示词 ➡️ 提升用例专业度

先看视频Demo

上传文档到知识库
第一次生成没选择使用知识库增强->设计的测试用例和手机号登录毫无关系
第二次选择使用知识库增强->设计的测试用例知道用手机号进行注册系统，并知道更多其他细节

二、核心逻辑解析

2.1 系统架构全景

2.2 关键技术点说明

2.2.1 知识库构建模块

def process_pdf(uploaded_file):
    # PDF分页提取文本
    pdf_reader = PyPDF2.PdfReader(filepath)
    # 智能分段规则，略简单粗暴
    paragraphs = re.split(r'\n\s*\n', text)  
    # 结构化存储
    segments.append({
        'segment_id': f"{filename}_{page_num}_{i}",
        'document_name': uploaded_file.name,
        'page_num': page_num + 1,
        'content': paragraph
    })

创新点：

采用唯一段落ID
按自然段落分割，保留上下文语义
过滤无效短文本（<20字符）

2.2.2 增强检索引擎

def find_similar_cases(new_req, df, top_k=3):
    # TF-IDF向量化
    vectorizer = TfidfVectorizer()
    tfidf_matrix = vectorizer.fit_transform(...)
    # 余弦相似度计算
    similarity = cosine_similarity(tfidf_matrix[-1], tfidf_matrix[:-1])
    return top_indices

设计考量：

相比BM25算法更易实现
计算效率：O(n)复杂度，千级数据实时响应
结果可解释性强，适合调试

2.2.3 动态提示词工程

system_prompt = f"""参考知识：
文档《{item['document']}》第{item['page']}页：{item['content']}
历史用例{idx+1}: {case}
生成要求：
1. JSON数组格式...
"""

增强策略：

知识片段截断处理（单段≤512字符）
优先级排序：领域知识 > 历史用例
格式强约束（JSON Schema注入）

三、关键技术选型解析

3.1 什么是RAG？

检索增强生成（Retrieval-Augmented Generation）通过以下流程提升生成质量：

用户问题 → 知识检索 → 提示词增强 → 大模型生成 → 结果输出

与传统生成的区别：

知识实时性
无需重新训练模型
数据安全性
敏感信息不离域
结果可控性
通过检索结果引导生成方向

3.2 为什么不用向量数据库？

尽管向量数据库（如ChromaDB）在RAG中广泛应用，但本系统选择TF-IDF+CSV文件存储方案，原因包括：

维度	向量数据库方案	本系统方案
部署复杂度	需单独部署服务	零依赖，单文件运行
硬件要求	需要GPU加速	CPU即可运行
数据规模	适合百万级数据	千级文档最优
可维护性	需要专业DBA	直接修改CSV文件
学习成本	需掌握查询语法	开发者无需新知识

适合场景：

中小团队快速验证RAG价值
领域文档更新频率较低（周级）
测试数据规模<10万条

四、快速部署指南

4.1 环境准备

4.1.1 安装Python包

# 核心依赖
pip install streamlit pandas requests sklearn
# PDF处理
pip install PyPDF2 pdfminer.six
# JSON修复
pip install json_repair

4.1.2 获取API密钥

访问任何一个大模型提供商处注册账号，本文采用腾讯云
创建应用 → 获取sk-xxxx格式密钥

在代码中替换：

headers = {"Authorization": "Bearer sk-xxxx"}

4.2 系统启动

# 首次运行自动创建知识库目录
mkdir -p temp

# 启动Web服务
streamlit run testcase_generator.py

4.3 功能验证流程

上传领域文档：

进入"知识库管理"页
上传PDF格式需求文档/接口文档
查看处理后的知识段落
生成增强用例：

    需求示例：
    用户管理模块，包括用户注册和登陆等

勾选"使用知识库增强"
查看生成的边界值测试用例

结果导出：

pythonpd.DataFrame(new_cases).to_excel("output.xlsx")

直接复制JSON用例
通过Pandas导出Excel：

五、性能优化建议（有精力有能力的动手爱好者们可以继续优化）

5.1 知识库分级存储

# knowledge_segments.csv新增字段
knowledge_df['category'] = "需求文档"  # 需求文档|接口规范|测试报告
knowledge_df['importance'] = 5       # 1-5分级

检索时优先高等级知识片段

5.2 缓存机制

from functools import lru_cache

@lru_cache(maxsize=100)
def load_cases():
    # 缓存历史用例加载

5.3 异步处理

import asyncio

async def async_generate_cases():
    # 非阻塞生成

六、扩展方向

多模态支持：解析图片中的需求文档（OCR技术）
自动化评审：添加用例质量评分模型
CI/CD集成：与Jenkins/GitLab对接自动触发

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-05-27

用普通人能听懂的话聊聊 RAG

2025-05-27

企业RAG系统为何失败：谷歌研究提出"充足上下文"解决方案

2025-05-27

RAG 的饼，好像吃不下了。。。。

2025-05-27

太好用了！Roo终于出了一个我迫切想要的功能：Codebase Indexing

2025-05-27

Mem0智能记忆引擎：解决AI长期记忆难题

2025-05-26

深度解读AI逐步思考过程，是如何从认知模拟到智能升级！

2025-05-26

赢得企业RAG挑战赛的秘诀 —— 冠军方案剖析与感悟

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

大家都在问

【RAG】给传统企业搞AI转型，RAG项目最难啃的骨头是啥？

2025-05-23

解锁AI时代的核心通关密码——为什么你必须搞懂RAG、Agent、MCP？

2025-05-16

如何设计 AI 与人的交互？以及为什么真正的创新必然是集中式的？

2025-05-15

随着大模型技术的发展——RAG技术有可能会被淘汰吗？

2025-05-14

AI知识库到底是什么？不同应用场景如何调参数配置？

2025-05-14

AI 全栈工程体系中，Prompt Engineering、AI Agent 和 RAG 如何协同工作？

2025-05-13

一文读懂RAG：AI的“外部知识库”如何让回答更精准？

2025-05-11

25种RAG架构大揭秘：AI项目如何选型？

2025-05-08

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

8分钟打造一个DeepSeek生成测试用例系统知识库

一、背景与系统定位

1.1 为什么需要知识库？

二、核心逻辑解析

2.1 系统架构全景

2.2 关键技术点说明

2.2.2 增强检索引擎

`def find_similar_cases(new_req, df, top_k=3): # TF-IDF向量化 vectorizer = TfidfVectorizer() tfidf_matrix = vectorizer.fit_transform(...) # 余弦相似度计算 similarity = cosine_similarity(tfidf_matrix[-1], tfidf_matrix[:-1]) return top_indices`

2.2.3 动态提示词工程

`system_prompt = f"""参考知识：文档《{item['document']}》第{item['page']}页：{item['content']} 历史用例{idx+1}: {case} 生成要求： 1. JSON数组格式... """`

三、关键技术选型解析

3.1 什么是RAG？

3.2 为什么不用向量数据库？

四、快速部署指南

4.1 环境准备

4.1.1 安装Python包

`# 核心依赖 pip install streamlit pandas requests sklearn # PDF处理 pip install PyPDF2 pdfminer.six # JSON修复 pip install json_repair`

4.1.2 获取API密钥

4.2 系统启动

`# 首次运行自动创建知识库目录 mkdir -p temp # 启动Web服务 streamlit run testcase_generator.py`

4.3 功能验证流程

五、性能优化建议（有精力有能力的动手爱好者们可以继续优化）

5.1 知识库分级存储

`# knowledge_segments.csv新增字段 knowledge_df['category'] = "需求文档" # 需求文档|接口规范|测试报告 knowledge_df['importance'] = 5 # 1-5分级`

5.2 缓存机制

`from functools import lru_cache @lru_cache(maxsize=100) def load_cases(): # 缓存历史用例加载`

5.3 异步处理

`import asyncio async def async_generate_cases(): # 非阻塞生成`

六、扩展方向

8分钟打造一个DeepSeek生成测试用例系统知识库

一、背景与系统定位

1.1 为什么需要知识库？

二、核心逻辑解析

2.1 系统架构全景

2.2 关键技术点说明

2.2.2 增强检索引擎 def find_similar_cases(new_req, df, top_k=3): # TF-IDF向量化 vectorizer = TfidfVectorizer() tfidf_matrix = vectorizer.fit_transform(...) # 余弦相似度计算 similarity = cosine_similarity(tfidf_matrix[-1], tfidf_matrix[:-1]) return top_indices

2.2.3 动态提示词工程 system_prompt = f"""参考知识：文档《{item['document']}》第{item['page']}页：{item['content']}历史用例{idx+1}: {case}生成要求：1. JSON数组格式..."""

三、关键技术选型解析

3.1 什么是RAG？

3.2 为什么不用向量数据库？

四、快速部署指南

4.1 环境准备

4.1.1 安装Python包 # 核心依赖pip install streamlit pandas requests sklearn# PDF处理pip install PyPDF2 pdfminer.six# JSON修复pip install json_repair

4.1.2 获取API密钥

4.2 系统启动 # 首次运行自动创建知识库目录mkdir -p temp# 启动Web服务streamlit run testcase_generator.py

4.3 功能验证流程

五、性能优化建议（有精力有能力的动手爱好者们可以继续优化）

5.1 知识库分级存储 # knowledge_segments.csv新增字段knowledge_df['category'] = "需求文档" # 需求文档|接口规范|测试报告knowledge_df['importance'] = 5 # 1-5分级

5.2 缓存机制 from functools import lru_cache@lru_cache(maxsize=100)def load_cases(): # 缓存历史用例加载

5.3 异步处理 import asyncioasync def async_generate_cases(): # 非阻塞生成

六、扩展方向

2.2.2 增强检索引擎

`def find_similar_cases(new_req, df, top_k=3): # TF-IDF向量化 vectorizer = TfidfVectorizer() tfidf_matrix = vectorizer.fit_transform(...) # 余弦相似度计算 similarity = cosine_similarity(tfidf_matrix[-1], tfidf_matrix[:-1]) return top_indices`

2.2.3 动态提示词工程

`system_prompt = f"""参考知识：文档《{item['document']}》第{item['page']}页：{item['content']} 历史用例{idx+1}: {case} 生成要求： 1. JSON数组格式... """`

4.1.1 安装Python包

`# 核心依赖 pip install streamlit pandas requests sklearn # PDF处理 pip install PyPDF2 pdfminer.six # JSON修复 pip install json_repair`

4.2 系统启动

`# 首次运行自动创建知识库目录 mkdir -p temp # 启动Web服务 streamlit run testcase_generator.py`

5.1 知识库分级存储

`# knowledge_segments.csv新增字段 knowledge_df['category'] = "需求文档" # 需求文档|接口规范|测试报告 knowledge_df['importance'] = 5 # 1-5分级`

5.2 缓存机制

`from functools import lru_cache @lru_cache(maxsize=100) def load_cases(): # 缓存历史用例加载`

5.3 异步处理

`import asyncio async def async_generate_cases(): # 非阻塞生成`