昨天晚上躺在床上,我仔细想了一下,所谓的深化底层知识来拓宽能力的深度,其实构建一个属于这个领域的知识图谱是一个很好的方法。这样也会更加明确。
在这里的每一个或者N个小节,我准备都写一篇博客,不求多但求精。同时每一篇博客都会有对应的指导文章,防止思路走偏。
PS:感谢 ChatGPT 和 Gemini,他们是人类最好的朋友
一 业务建模与任务定义 (Business Modeling & Task Design)
一切工程的起点,决定“该不该做”和“做到什么程度”。
1. 场景识别 & ROI判断:AI 替代人工的盈亏平衡点(拒绝强上 Agent)。
2. 任务边界划定:明确系统角色(建议型 / 审批执行型 / 完全自治型)。
3. 核心成功指标 (North Star Metrics):准确率、端到端时延、Token 成本、人工接管率 (Takeover Rate)。
4. 风险分级体系:低风险信息问答 / 中风险系统操作 / 高风险数据写入。
二 模型交互与基座层 (Model & Interaction Layer)
系统的认知引擎,负责推理与意图解析。
1. Prompt 工程与生命周期:System Prompt 规范、Few-shot 模板、Prompt 版本化管理。
2. 结构化输出约束 (Structured Outputs):JSON-First 规范、Schema 严格校验与带错重试机制。
3. 流式交互与体验边界:流式响应 (Streaming)、Token 预算控制。
4. 模型分级路由 (Model Routing):简单任务低配模型(降本),复杂推理高配模型(保质)。
三 工具与执行层 (Tooling & Execution Layer)
系统的手脚,负责安全、稳定地影响外部世界。
1. 工具 API 设计哲学:清晰的 Schema 描述、默认值防呆、高内聚原子化封装。
2. 协议与接入标准:MCP (Model Context Protocol) 规范、跨平台适配器模式。
3. 防御性工程 (Defensive Engineering):接口严格幂等性 (Idempotency)、错误码捕获与优雅降级。
4. 安全沙箱与隔离:执行层物理/逻辑隔离 (Docker / E2B 沙盒环境)、危险指令白名单。
四 中枢编排与运行时层 (Orchestration & Runtime Layer)
系统的大脑皮层与心脏,决定任务如何流转与存续。
1. 控制流范式 (Agentic Patterns):ReAct 循环、Plan-and-Execute (先规划后执行)、多智能体路由。
2. 图工作流引擎 (Graph Workflows):基于状态机的有向图编排 (如 LangGraph)。
3. 运行时机制 (Agent Runtime / Execution Engine):调度器 (Scheduler)、任务队列 (Job Queue)、并发控制。
4. 长任务与生命周期管理:状态挂起 (Suspend)、断点恢复 (Checkpoint / Resume)、任务取消与中断控制。
5. 人工介入流程 (HITL):异步审批流、审批状态回调机制。
五 记忆层 (Memory Layer)
系统的海马体,负责维持交互与任务的连贯性。
1. 短期会话记忆 (Short-term Memory):上下文滑动窗口、轮次截断。
2. 长期用户记忆 (Long-term Memory):用户偏好提取、跨会话身份一致性。
3. 任务态记忆 (Task State Memory):当前复杂工作流的中间状态记录。
4. 记忆生命周期管理:记忆摘要压缩 (Summary)、淘汰更新策略、实体冲突解决。
六 知识供给层 (Knowledge Supply Layer)
系统的外部智库,解决“手里没数据”的幻觉问题。
1. 数据管道与处理:文档切片 (Chunking)、多模态解析、Embedding 向量化。
2. 智能检索体系 (Agentic Retrieval):多路召回 (Hybrid Search)、语义重排 (Rerank)、大模型主动改写 Query。
3. 高阶知识图谱:基于关系的 GraphRAG、结构化查询的 Text2SQL。
4. 溯源与可信度 (Grounding):引用来源透出 (Citation)、知识库置信度阈值。
七 评测、观测与实验层 (Observability, Evals & Experimentation)
系统的仪表盘与进化机制,决定系统能否上线及持续迭代。
1. 全面可观测性 (Observability):链路追踪 (Trace & Span Visualization)、状态流转日志。
2. 自动化评测基建 (Evals):测试集构造、LLM-as-a-Judge (大模型作为裁判)、离线评测流水线。
3. 持续实验体系 (Experimentation):A/B 测试、影子流量 (Shadow Traffic) 验证、回归测试套件。
4. 数据飞轮:失败样本挖掘 (Failure Case Mining)、用户踩踩/点赞数据回灌。
八 安全、治理与性能层 (Security, Governance & Performance)
系统的护城河与基础设施,决定系统能否商业化售卖。
1. 权限治理 (Governance):基于角色的权限控制 (RBAC/ABAC)、多租户数据隔离。
2. 生产合规护栏:Prompt Injection 防御、输出敏感词审计、数据脱敏 (PII 过滤)。
3. 溯源与审计日志:工具调用责任归因、高危操作防篡改日志。
4. 性能与成本工程 (Cost & Perf):推理缓存 (Semantic Cache)、API 限流与熔断 (Rate Limiting)、SLA 兜底预案。
Comments NOTHING