# 🏷
> #猫咪推荐AI数据工程 #AI数据工程训练营 #AI数据工程 #数据工程 #Lakehouse #Iceberg #dbt #Dagster #RAG工程 #GraphRAG #AgentSkills #FunctionCalling #RAGAS #OpenTelemetry #lakeFS #AI上线治理
---
#### ⬇️获取课程⬇️
<a href="https://fcmit.cc/" target="_blank" style="text-decoration: none; display: flex; align-items: center; justify-content: center; text-align: center;">
<img style="height: 8em; width: auto; margin-right: 10px; pointer-events: none; user-select: none;" src="https://fcmit.cc/lxkf3.png" referrerpolicy="no-referrer" alt="1.png">
</a>
# 🔍 课程介绍>>>
是一门围绕 AI 应用上线所需数据工程体系设计的专项实战课程。课程从“Demo 为什么不能直接投产”切入,逐步拆解 AI 从 0 到 1 上线所需的数据路径、数据契约、采集入湖、Lakehouse 底座、Transform 语义层、资产化编排、非结构化数据处理、检索生成一体化、Agent Skills、AI 行为约束、评测、可观测性、GraphRAG、治理与成本控制,最终落到稳定上线交付。
这门课不是单纯讲模型或提示词,而是把 AI 应用背后的数据链路、工程规范、资产治理、回滚追溯、评测监控、成本优化串成一条完整生产闭环。学习者最终能带走的是一套面向 AI 生产环境的数据工程方法:如何让数据可追溯、可验证、可治理,如何让 RAG 与 Agent 消费可信数据,如何通过评测、Tracing、版本治理和 SLO 保障 AI 应用稳定上线。
## 知识与能力图谱
|阶段|周次与主题|核心知识模块|能力目标|训练/产出物指向|
|---|---|---|---|---|
|上线认知与数据路径|Week 1 从 Demo 到上线:AI 为什么不能直接用?|AI 从 0 到 1 上线全流程数据路径;Demo 幻觉与生产级架构差异;数据版本控制、权限隔离、质量门禁;RAG 到 Lakehouse 数据管线;PII 处理规范|建立“AI 上线不是模型调用,而是数据工程闭环”的基本认知|项目数据工程化起跑线搭建;合规边界确认|
|输入确定性|Week 2 输入确定性保障——数据盘点与数据契约|结构化、非结构化、对话三类数据源盘点;更新频率、增量窗口、权限边界;Schema、业务口径、SLA 的 YAML 契约;字段级 PII 分级脱敏;源端元数据;指标孤岛治理|能将不稳定数据输入转化为机器可读、可校验、可拦截的数据契约|自动生成全量/增量映射与回溯配置;自动拦截脏数据并预警|
|采集与入湖|Week 3 采集与入湖——Batch / CDC / Stream 的组合拳|批处理链路、实时链路、CDC 乱序纠偏、Exactly-once、回退策略;数据备份可回放、可溯源、可验收;Backfill 与 Replay|能设计批、流、CDC 组合的数据采集链路,并保证一致性与可验收|链路健康度监控指标;分钟级故障定位机制|
|Lakehouse 底座|Week 4 Lakehouse 底座——Iceberg 快照/演进/性能基线|Iceberg 原子提交、快照回溯、时间点数据复现;Hidden Partitioning、Schema Evolution;Compaction、元数据清理、文件大小与扫描量指标;高并发表结构|能构建支持回滚、演进、性能治理的 Lakehouse 表设计|生产级 Iceberg 表结构;检索联动字段与业务状态标记|
|Transform 与语义层|Week 5 Transform 与语义层——把口径写进工程|dbt 分层建模;Staging 到 Marts;增量转换、自动化测试、文档生成、CI 集成;MetricFlow/dbt Semantic Layer;查询工具封装;口径变更影响分析|能将指标口径从“人脑约定”变为工程资产,减少 Agent 误查和口径歧义|受控 Tools;权限过滤、参数校验、审计日志;指标血缘图谱|
|资产化编排|Week 6 资产化数据工厂——编排、回填与可追溯|从任务运行转向数据资产状态;Dagster 声明式编排;分区、回填、幂等重试;全链路血缘;协作规范|能把数据生产过程资产化,使变更、代码版本、上游输入可追踪|上游到 AI 消费端的元数据映射;团队协作变更流程|
|非结构化数据工程|Week 7 非结构化数据工程|智能文档解析 IDP;PDF/网页布局识别;标题层级、页码坐标元数据;语义切片、固定长度切片、Overlap;证据链溯源;抽样质检与回归对照|能把文档、网页等非结构化资料转为可检索、可定位、可质检的数据资产|切片质量抽样规则;版本对比机制;证据链元数据设计|
|检索生成闭环|Week 8 检索 × 生成的一体化工程闭环|向量 + BM25 双路召回;RRF 排序;Cross-Encoder 重排;Top-K 噪声过滤;Embedding 与切片治理;pgvector;RAG API;JSON Schema / Function Calling;Prompt as Code|能构建从索引、检索、重排、生成到输出约束的完整 RAG 工程链路|标准化 RAG 服务契约;Prompt 模板、版本、评测结果关联|
|Agent 能力封装|Week 9 核心工作流 Skills 化封装|Agent Skills 价值;工程工艺从口头规则转为可迁移交付物;SKILL.md;YAML frontmatter;scripts、references、assets;Progressive Disclosure|能将可复用工作流沉淀为 Skill Pack,供不同 Agent/IDE/平台复用|可审计、可版本化、可评测、可回滚的 Skill Pack|
|AI 行为约束|Week 10 AI 行为的工程化约束与资产消费闭环|工具输入输出 JSON Schema;幂等性、权限校验、审计日志;Function Calling 消费语义层指标与检索服务;多工具路由、失败回退、HITL;行为结果写入 Iceberg 快照 ID|能让 Agent 在工程约束下消费数据资产,而不是自由访问原始数据|工具选择策略;降级路径;人工介入节点;AI 行为到支撑数据的溯源|
|自动化评测|Week 11 自动化评测与 RAGAS 实战|评测集资产化;问题-答案-证据三元组;FAQ、边界案例、反例、多跳推理;Faithfulness、答案相关性、上下文精准度;CI/CD 回归门禁;A/B Test;LLM-as-a-Judge;业务指标体系|能建立从样本生成、评测、回归、改进到业务指标跟踪的评测流水线|效果退化自动拦截;生产-评测-改进反馈闭环|
|可观测性|Week 12 OpenTelemetry 与 Tracing 全链路可观测性|OpenInference 标准协议;OpenTelemetry 采集 LLM 输入输出、Token 消耗、Tool Call 耗时;Trace ID;Span 级链路追踪;实时监控仪表盘;Bad Case 复盘模板|能把一次 AI 请求拆解为可追踪、可定位、可复盘的工程链路|质量+性能双维监控;P99 延迟、失败率、幻觉率告警;定位-修复-回归验证模板|
|GraphRAG|Week 13 GraphRAG 处理跨文档关系与全局归纳|RAG 与 GraphRAG 能力边界;图结构增强;实体关系显式化;轻量知识图谱;图检索策略;Prompt 注入图结构;A/B 对比|能判断何时需要 GraphRAG,并用图结构处理跨文档关系、总结归因、多跳推理|图结构检索与普通向量检索并行评估;适用场景与成本收益总结|
|治理与版本控制|Week 14 AI 数据治理与版本控制|lakeFS 分支概念;数据、索引、Prompt 原子级绑定发布与秒级回滚;OpenLineage/OpenMetadata 生命周期图谱;合规审计白皮书;Canary 验证;灰度发布|能把 AI 应用相关的数据、索引、Prompt、评测、Trace 纳入统一治理和版本发布体系|不可篡改上线合规白皮书;灰度流量分配策略;自动发布或回滚决策|
|稳定上线交付|Week 15 降本增效,打通稳定上线闭环|Embedding/检索/生成/存储成本模型;重复请求优化;多级缓存、限流、分层召回、降级;模型超时降级 BM25;SLO 与应急 Runbook;Capstone 产品包交付|能整合 15 周成果,形成可演示、可回归、可上线的 AI 数据工程产品包|上线资料、运维交接文档、应急手册、产品包|
## 深度亮点剖析
### 亮点一:从“AI Demo”直接切入生产落差
课程开头不是讲工具安装,也不是讲单点技术,而是先回答“AI 为什么不能直接用”。这一点决定了课程的工程化基调:它把幻觉、数据版本、权限隔离、质量门禁、合规边界、RAG 到 Lakehouse 的数据管线都放在上线场景里讨论。
这意味着课程关注的核心问题不是“能不能跑通一次问答”,而是:
|Demo 阶段问题|课程中的生产化处理|
|---|---|
|数据来源不清|数据盘点、源端元数据、数据契约|
|指标口径不一致|MetricFlow/dbt Semantic Layer、语义层指标一次定义|
|检索结果不可控|向量 + BM25、RRF、Cross-Encoder、Top-K 质量拦截|
|AI 行为不可追踪|Function Calling、JSON Schema、审计日志、Trace ID|
|上线后不可回滚|Iceberg 快照、lakeFS 分支、灰度发布与秒级回滚|
|效果退化难发现|RAGAS、CI/CD 门禁、A/B Test、LLM-as-a-Judge|
|成本不可控|成本模型、多级缓存、限流、分层召回、降级策略|
这种设计让课程更像一套“AI 数据工程上线方法论”,而不是零散的数据工具教程。
### 亮点二:Lakehouse、dbt、Dagster、Iceberg 被组织成一条数据生产线
课程没有孤立讲 Lakehouse 或 dbt,而是将它们放在“数据从进入系统到被 AI 消费”的链路中:
- Week 3 解决数据如何稳定进入湖仓,包括 Batch、CDC、Stream、Backfill、Replay。
- Week 4 解决湖仓底座如何支持快照、回溯、Schema 演进和性能治理。
- Week 5 解决数据进入语义层后,指标口径如何工程化、测试化、文档化。
- Week 6 进一步用资产化编排,把任务运行升级为数据资产状态管理。
这里的训练重点不是“会用某个工具”,而是把数据接入、湖仓存储、Transform、语义层、编排、血缘、回填串成可维护的生产管线。课程多次强调“可回放、可溯源、可验收、可回滚”,说明它的目标是让数据链路承担 AI 应用的生产责任。
### 亮点三:RAG 被拆成完整工程系统,而不是检索增强问答技巧
RAG 相关内容覆盖 Week 7 到 Week 13,跨度很大,说明课程将 RAG 视为数据工程系统,而不是一个简单调用框架。
课程对 RAG 的拆解路径非常细:
|RAG 工程环节|对应课程内容|
|---|---|
|文档解析|IDP、PDF/网页布局识别、标题层级、页码坐标元数据|
|切片策略|固定长度切片、自适应切分、Overlap、上下文连续性|
|证据追踪|原文件指纹、页码、坐标元数据、证据链溯源|
|召回|向量 + BM25 双路召回|
|排序|RRF、Cross-Encoder 重排|
|质量控制|Top-K 噪声过滤、生成前质量拦截|
|服务化|RAG API、强制输出证据引用、片段 ID、置信度|
|输出约束|JSON Schema、Function Calling|
|评测|RAGAS、Faithfulness、答案相关性、上下文精准度|
|可观测|OpenTelemetry、Trace ID、Span 级追踪|
|进阶增强|GraphRAG、实体关系、图检索、跨文档归纳|
这种拆解方式把 RAG 从“能回答”推进到“能审计、能评测、能复盘、能治理”。
### 亮点四:将 Agent 使用数据的行为纳入工程约束
课程在 Week 9 和 Week 10 处理 Agent 相关内容,但重点不是 Agent 概念,而是“如何让 Agent 按工程规则消费数据”。
Week 9 的 Skills 化封装强调把工程工艺从口头规则变成可复用、可迁移、可治理的 Skill Pack。Week 10 则进一步规定工具输入输出、权限校验、幂等性、审计日志、多工具路由、失败回退、HITL 节点,以及将 Agent 决策动作标记到 Iceberg 快照 ID。
这使课程中的 Agent 不再是自由调用工具的黑盒,而是被限制在以下机制中运行:
|约束维度|课程设计|
|---|---|
|输入输出|JSON Schema 契约|
|数据访问|不直接访问原始表,通过受控 Tools 和语义层消费|
|权限与安全|权限校验、审计日志|
|失败处理|工具选择策略、降级路径、人工介入|
|结果追溯|AI 行为关联 Iceberg 快照 ID|
|复用治理|Skill Pack 版本、评测、可观测、回滚|
这部分体现出课程对“AI 行为生产化”的关注:不是只让 Agent 完成任务,而是让它的每一步可控、可查、可回放。
### 亮点五:评测、Tracing、治理、成本控制形成上线闭环
后半段课程明显转向生产运营能力。Week 11 到 Week 15 依次处理评测、可观测、GraphRAG、治理、成本与上线交付。
这条路径很清晰:
- 先用 RAGAS、LLM-as-a-Judge、A/B Test 建立效果评测。
- 再用 OpenTelemetry、OpenInference、Trace ID 建立链路可观测性。
- 然后用 GraphRAG 处理普通 RAG 难以覆盖的跨文档关系和全局归纳问题。
- 接着用 lakeFS、OpenLineage、OpenMetadata 做版本、血缘、合规治理。
- 最后用成本模型、缓存、降级、SLO、Runbook 和 Capstone 交付稳定上线产品包。
这说明课程不是止步于“项目完成”,而是推进到“上线后如何稳定运行、发现问题、控制成本、快速回滚”。
### 亮点六:实战强度体现在“交付物链条”而非单次作业
截图中虽未展开每周“实践项目”页签,但详细内容本身已经包含大量产出型训练:
|训练类型|具体体现|
|---|---|
|契约设计|YAML 契约、字段级 PII 分级脱敏规则、JSON Schema|
|数据工程实现|Batch/CDC/Stream 入湖、Iceberg 表结构、dbt 分层建模、Dagster 编排|
|质量治理|质量门禁、脏数据拦截、抽样质检、回归对照|
|检索生成系统|混合检索、重排、RAG API、Prompt as Code|
|Agent 工程化|Skill Pack、工具契约、多工具路由、HITL|
|评测与监控|RAGAS、CI/CD 门禁、Trace 追踪、监控仪表盘|
|上线交付|lakeFS 版本发布、Canary 验证、SLO、Runbook、Capstone 产品包|
因此课程的实战强度不是靠“案例数量”堆出来的,而是靠每个模块都指向可落地的工程资产。
## 行业/专业背景溯源
### Lakehouse
课程中 Lakehouse 出现在 Week 1、Week 4、Week 14,主要作为 AI 数据链路的底座。它承接从 RAG 数据管线到 Iceberg 表结构、快照、回滚、Schema 演进、性能基线,再到 lakeFS 分支治理的能力。课程语境下的 Lakehouse 不是泛泛的数据平台概念,而是支持 AI 应用上线所需的可追溯、可回滚、可演进数据底座。
### Iceberg
Iceberg 在课程中承担生产级表设计与回溯能力。Week 4 明确围绕 Iceberg 快照、原子提交、快照回溯、Hidden Partitioning、Schema Evolution、Compaction、元数据清理展开;Week 10 又将 Agent 决策动作标记到 Iceberg 快照 ID,用于实现“AI 行为 → 支撑数据”的完整溯源。
### dbt、MetricFlow、dbt Semantic Layer
这些内容集中在 Week 5,用来把指标口径写入工程。课程强调从 Staging 到 Marts 的分层建模、增量转换、自动化测试、文档生成、CI 集成,并通过 MetricFlow/dbt Semantic Layer 实现指标“一次定义,处处复用”。在课程语境中,它们服务于语义层治理,目标是减少指标孤岛和 Agent 直接访问原始表带来的风险。
### Dagster
Dagster 出现在 Week 6,用于资产化编排。课程并不只是讲任务调度,而是强调从“关注任务运行”转向“关注数据资产状态”,利用声明式编排、分区、回填、幂等重试、血缘追溯来确保生产确定性。
### IDP
IDP 出现在 Week 7,课程称为“智能文档解析”。其作用是处理 PDF、网页等非结构化数据,保留表格结构、标题层级、页码坐标等关键元数据,为后续切片、检索、证据链溯源和质量抽样提供基础。
### BM25、RRF、Cross-Encoder、pgvector
这些术语集中在 Week 8,构成检索工程化能力。BM25 与向量检索组成双路召回,RRF 用于确定性与语义性之间的平衡排序,Cross-Encoder 用于重排与过滤 Top-K 噪声片段,pgvector 用于向量、元数据、业务状态同库存储。
### Function Calling 与 JSON Schema
Function Calling 和 JSON Schema 出现在 Week 8 与 Week 10。课程将它们用于约束输出结构、规范工具输入输出、保证下游可消费,并让 Agent 按数据契约和业务规则执行动作。
### Agent Skills 与 SKILL.md
Week 9 将 Agent Skills 作为工程能力封装方式。课程中的 Skill 以目录为单位,核心锚点是 SKILL.md,包含 YAML frontmatter 和 Markdown 指令正文,并可配套 scripts、references、assets。它的作用是把工程工艺变成可复用、可迁移、可审计、可版本化的交付物。
### RAGAS 与 LLM-as-a-Judge
Week 11 使用 RAGAS 做多维量化评测,指标包括 Faithfulness、答案相关性、上下文精准度。LLM-as-a-Judge 用于自动生成高质量评测样本,构建“生产 → 评测 → 改进”的反馈闭环。
### OpenTelemetry、OpenInference、Tracing
Week 12 处理全链路可观测性。OpenTelemetry 用于采集 LLM 输入输出、Token 消耗、Tool Call 耗时;OpenInference 标准协议用于集成;Trace ID 和 Span 追踪用于还原从用户请求到检索、重排、生成、工具调用的级联链路。
### GraphRAG
Week 13 将 GraphRAG 用于跨文档关系与全局归纳。课程强调判断 RAG 与 GraphRAG 的能力边界,在需要总结、归因、多跳推理时引入图结构增强,并通过实体关系显式化、轻量知识图谱、图检索策略和 A/B 对比评估效果。
### lakeFS、OpenLineage、OpenMetadata
Week 14 中,lakeFS 用于将 Lakehouse 引入“分支”概念,实现数据、索引、Prompt 的原子级绑定发布与秒级回滚。OpenLineage/OpenMetadata 用于捕捉完整生命周期图谱,支撑血缘分析、影响评估和合规审计。
### SLO 与 Runbook
Week 15 中,SLO 用来定义线上服务目标,并结合 Week 11 评测与 Week 12 监控建立基准。Runbook 则作为应急手册,覆盖核心链路故障、数据回滚、模型切换等上线后的运维场景。
## 课程定位判别
这是一门**面向 AI 应用生产上线的数据工程专项实战课程**,层级偏进阶到生产级实战。
从课程内容看,它不适合被定位为 AI 入门课。课程大量涉及 Lakehouse、Iceberg、dbt、Dagster、CDC、Stream、Schema Evolution、RAGAS、OpenTelemetry、GraphRAG、lakeFS、SLO、Runbook 等工程术语,并且每周都围绕生产约束展开,如质量门禁、数据契约、权限隔离、审计日志、灰度发布、回滚、Tracing、成本模型、Capstone 产品包。
它的学习目标不是让学员理解 AI 基本概念,而是训练学员把 AI 应用背后的数据链路搭成可上线系统。课程深度集中在“数据如何成为 AI 可安全消费的资产”,并通过评测、监控、治理、成本控制保障上线后的稳定运行。
## 适合什么人看
### 适合人群
|人群|适配原因|
|---|---|
|数据工程师|课程主体围绕数据采集、入湖、Lakehouse、Transform、编排、血缘、治理与成本控制展开|
|AI 应用工程师 / RAG 工程师|课程系统覆盖文档解析、切片、检索、重排、RAG API、评测、Tracing、GraphRAG|
|数据平台 / 数据架构方向从业者|课程强调数据契约、语义层、资产化编排、版本发布、灰度回滚、合规审计|
|负责 AI 应用上线的技术负责人|课程完整覆盖从 Demo 到生产上线的关键风险:幻觉、权限、质量、评测、监控、成本、回滚|
|希望把 Agent 落到业务系统中的工程人员|Week 9、Week 10 专门处理 Skills 封装、工具契约、Function Calling、失败回退、HITL 和行为溯源|
### 需要的学习基础
从术语密度看,学习者最好已经能理解数据链路、表结构、指标口径、数据建模、任务编排、API、CI/CD、监控等工程概念。课程虽然从 Demo 到上线讲起,但中后段很快进入生产级设计,不是零基础概念普及型课程。
### 不太适合的人群
只想学习提示词写法、模型基础原理、单机 RAG Demo 或纯业务视角 AI 应用介绍的人,可能会觉得这门课工程细节过重。课程重点在“AI 数据工程生产化”,而不是 AI 工具体验或模型科普。
# ☁️ 网盘目录(仅展示部分目录)>>>

==课程还在持续更新中==
## 📚🛠️ 课件工具展示

==课件资料都有就不一一展示啦==