L1-0 · 可观测性关键词地图：100 个概念，一张地图

TL;DR · 本文用 100 个关键词构建可观测 / AI 可观测领域的拓扑地图——10 组、按"哲学 → 信号 → 协议 → 采集 → 存储 → 采样 → SLO → 告警 → 用户视角 → AI"逻辑排列。 · 写给：进入这个领域不超过两年、想快速建立全景的工程师；以及已经在领域内、想用这个地图做术语校准 / 选型决策 / 团队对齐的架构师。 · 不读会错过：词条之间的关系——光知道每个词的定义还不够，真正有用的是看懂"为什么 cardinality 决定 sampling 决定 cost"这种横跨多组的因果链。Notes: 行就是用来承载这种关系的。

阅读方式：① 通读建立全景；② 用作后续文章的术语速查；③ 看 Notes: 行——它们承担了这个领域"较难的地方在哪里"的信息密度。

必读 12 条（如果只读一遍）：#1 Observability · #6 Known/Unknown · #7 Wide Event · #9 Cardinality · #13 Histogram · #25 OpenTelemetry · #27 OTel Collector · #55 Cardinality Explosion · #57 Tail Sampling · #68 Error Budget · #88 LLM Observability · #99 GenAI Semantic Conventions。

mindmap
  root((可观测性
100 关键词))
    A · 元概念与哲学
      Observability
      Monitoring
      Wide Event
      Cardinality
      Known / Unknown
    B · 三支柱与变体
      Metric / Log / Trace
      Span / Baggage
      Exemplar
      Continuous Profiling
    C · 数据模型与协议
      OpenTelemetry
      OTLP
      Semantic Conventions
      Arrow
    D · 采集与传输
      Agent / Sidecar
      Push vs Pull
      eBPF
      Backpressure
    E · 存储与查询
      TSDB / 列存
      PromQL / LogQL / TraceQL
      Cardinality Explosion
      Tiered Storage
    F · 采样与归因
      Head / Tail Sampling
      RED / USE
      Four Golden Signals
    G · SLO 与可靠性
      SLI / SLO / SLA
      Error Budget
      MTTR / MTTD
    H · 告警与响应
      Alert Fatigue
      Symptom-based
      Runbook / Postmortem
      Blameless Culture
    I · 用户视角与边缘
      Black / White-box
      RUM / Synthetic
      eBPF
      Chaos / FinOps
    J · AI 可观测
      Prompt Tracing
      Token Accounting
      Hallucination Metric
      LLM-as-Judge
      Agent Trace / Trajectory
      RAG Observability

图 0·100 个关键词的拓扑总览。十组按"哲学 → 信号 → 协议 → 采集 → 存储 → 采样 → SLO → 告警 → 用户视角 → AI"的逻辑排列，从最抽象到最工程化、再回到 AI 时代的新边界。

A. 元概念与哲学（9 条）

1. Observability（可观测性） 1960 年 Kalman 在控制论中提出的系统性质：能否从外部输出推断内部状态。在工程领域被借用并扩展为"系统暴露足够多的信号让人能理解其行为"的实践。 Notes: 它原本是一个数学性质而非产品功能（参见 Kalman 1960 IFAC paper）；当代多数厂商已经把它窄化为"metrics + logs + traces"，与 Kalman 的原义有相当距离。L1-1 把这段历史完整展开。

2. Monitoring（监控） 持续测量系统的预定义指标并在偏离阈值时告警的实践。 Notes: 监控对付"已知问题"（known-unknowns），前提是你提前知道要问什么。它与可观测性的差别主要在询问方式的开放性。

3. Telemetry（遥测） 系统对外发出的描述自身状态的数据流的统称，是可观测性的"原材料"。

4. Instrumentation（埋点 / 插桩） 在应用代码或运行时中加入产生遥测信号的代码，分为手动埋点（开发者写）和自动埋点（agent / 库注入）。

5. Signal（信号） OpenTelemetry 用语，指一类遥测数据（trace / metric / log / profile / event）。 Notes: “信号"取代了"支柱”——它暗示这些数据是被观测对象的输出，而非独立的功能模块。

6. Known-unknowns / Unknown-unknowns（已知未知 / 未知未知） 前者：你知道该问什么问题（CPU 是不是高了）；后者：你不知道该问什么问题（为什么只有日本区的 iOS 14 用户在周三早上 timeout）。 Notes: Charity Majors 给出的可观测性 vs 监控的标志性区分；它是认识论问题，不是技术问题。

7. Wide Event（宽事件） 一条结构化事件记录，携带尽可能多的上下文字段（user、tenant、region、build、feature flag……）。 Notes: Honeycomb 提出的"反三支柱"主张（参见 Charity Majors Observability Engineering, O’Reilly 2022）——metrics、logs、traces 都可从宽事件派生；是"事件即真相、其余皆派生"的理论基础。L1-2 论证它正在赢。

8. Sociotechnical Observability（社会技术可观测性） 可观测性不只是技术系统的属性，还包括"谁在什么时间、为什么、看什么数据"的组织实践。 Notes: SLO、on-call 轮值、postmortem 都是社会技术构件；忽视这层是大多数公司"上了 Grafana 但没真正变得可观测"的根因。

9. Cardinality（基数） 一个 metric / 字段在所有时间序列中可能取的不同值的总数。 Notes: 它决定了存储成本的量级，并贯穿整个可观测体系的设计权衡——TSDB 结构、采样策略、聚合方案都是在"解释力 vs 基数代价"上做选择。

B. 三支柱与其变体（15 条）

10. Metric（指标） 在时间维度上对系统状态做数值聚合的信号，通常是 (name, labels, timestamp, value) 四元组。

11. Counter（计数器） 单调递增的累计指标，例如 HTTP 请求总数。重启或溢出后重置；查询时通常配合 rate() 等差分函数使用。

12. Gauge（仪表） 任意时刻可上下波动的瞬时值，例如内存使用量、队列长度。

13. Histogram（直方图） 将观测值分桶累计的分布型指标，常用于 latency 分布。 Notes: 经典 Prometheus histogram 的桶边界是静态的——选错边界会导致 p99 完全失真；OpenTelemetry 的 exponential histogram 用对数分桶解决了这个问题。

14. Summary（摘要） 在客户端预先计算分位数（p50 / p95 / p99）并上报的指标类型。 Notes: 比 histogram 节省存储但不可跨实例聚合——多副本的 p99 没法相加。生产中通常优先选 histogram。

15. Log（日志） 描述一次离散事件的文本记录，最古老也最不结构化的信号。

16. Structured Log（结构化日志） 以 JSON 或类似格式输出、字段可索引的日志。 Notes: 一旦日志结构化到极致，它就趋同于 wide event——这是"事件统一论"的工程证据。

17. Trace（追踪） 一次请求穿越多个服务时形成的完整因果链路，由多个 span 组成。

18. Span（跨度） Trace 的最小组成单元，描述一段有起止时间的工作（一次函数调用、一次数据库查询、一次 RPC）。

19. Span Event（Span 事件） 挂在 span 上的离散时间点事件（如"重试触发"“缓存未命中”），介于日志和 span 之间。

20. Span Link（Span 链接） 跨 trace 的弱因果引用，用于表达"这个 span 与另一个 trace 有关但不是父子关系"的场景，如批处理多个上游请求。

21. Baggage（携带载荷） 随 trace context 一起在服务间传递的键值对，可携带业务上下文（user_id、experiment_id）。 Notes: 强大但危险——baggage 容易膨胀 header、泄露敏感字段，需要白名单治理。

22. Context Propagation（上下文传播） 将 trace ID / span ID / baggage 通过协议头跨进程传递的机制，是分布式追踪能成立的前提。

23. Exemplar（样例点） 挂在 metric 数据点上的代表性 trace ID 引用，把一个 p99 数值直接链到产生它的那条 trace。 Notes: 它修补了"指标和追踪割裂"的旧问题——看到 p99 飙升不用再去日志里反查 trace ID。

24. Continuous Profiling（持续剖析） 持续采集生产环境的 CPU / 内存 / 锁 profile 并存储为时间序列。 Notes: 被部分人称作"第四支柱"。它是少数能回答"为什么慢"而不仅是"是不是慢"的信号。

C. 数据模型与协议（10 条）

25. OpenTelemetry（OTel） CNCF 旗下统一遥测数据 API、SDK、协议的开源标准，已经成为云原生可观测的事实标准底层。

26. OTLP（OpenTelemetry Protocol） OTel 定义的传输协议，基于 Protobuf 编码，支持 gRPC 和 HTTP。

27. OTel Collector（OTel 采集器） 可独立部署的代理进程，承担接收、处理（过滤 / 采样 / 富化）、转发遥测数据的角色。 Notes: 是"vendor 无关"的关键基础设施；把 SDK 和后端解耦后，更换可观测后端的迁移成本从几个月降到几小时。

28. Semantic Conventions（语义约定） OTel 对常见属性名的标准化规范（如 http.request.method、db.system），保证不同语言、不同库产生的数据可以互通查询。

29. Resource（资源） 描述遥测数据来源实体的属性集（service.name、k8s.pod.name、cloud.region），与具体 span / metric 解耦。

30. Attribute（属性） 挂在 span / metric / log 上的键值对，是可观测查询和过滤的基本维度。

31. Prometheus Exposition Format（Prometheus 暴露格式） Prometheus 拉取指标时使用的纯文本格式，每行 metric_name{labels} value timestamp。 Notes: 简单、自描述、人可读，是它能成为事实标准的重要原因。

32. OpenMetrics 在 Prometheus 暴露格式基础上扩展并形式化的标准化尝试（CNCF 沙箱项目，曾提交为 IETF 草案），增加了 exemplar、UNIT 等字段。

33. StatsD 早期的指标推送协议，UDP 上的简短文本格式（metric:value|type），如今仍在大量遗留系统中存在。

34. Apache Arrow 列式内存数据格式；OTel Arrow 协议用它替换 Protobuf 来传输大批量遥测数据，可显著降低带宽和 CPU。

D. 采集与传输（9 条）

35. Agent（采集代理） 部署在主机或 Pod 上的独立进程，负责收集遥测数据并转发到后端。

36. Sidecar（伴生容器） 在 Kubernetes Pod 内与应用容器并存的辅助容器，常用于以"零代码侵入"方式提供可观测能力。

37. DaemonSet Kubernetes 中每节点一个的部署模式，是节点级日志 / 指标采集器的典型形态。

38. Push vs Pull（推 vs 拉） 应用主动把数据推送给后端 vs 后端定期来抓取。 Notes: 在云原生 metrics 领域，pull（Prometheus）赢了模式之争——服务发现集成、健康检查副作用、配置中心化都是 pull 的优势；但在 logs / traces 领域 push 仍是默认。

39. Scrape（抓取） Prometheus 式 pull 模型中定期访问目标端点拉取指标的动作。

40. Remote Write（远程写入） Prometheus 将本地存储的指标转发到远端（如 Mimir、VictoriaMetrics、Thanos）的协议。

41. Batching（批处理） 将多条遥测数据合并为一次网络请求发送，是降低传输开销的基本手段。

42. Backpressure（背压） 当后端处理速率跟不上数据产生速率时，向上游反馈以减慢生产的机制。 Notes: 缺乏背压的可观测管道会在事故中放大事故——业务慢导致日志堆积，日志堆积压垮 collector，进一步影响业务。

43. eBPF Linux 内核中的可编程沙箱，允许在不修改应用的前提下采集进程、网络、系统调用级数据。 Notes: 是"零代码侵入观测"的新一代基础设施，Pixie、Cilium、Parca 都构建在它之上。

E. 存储与查询（12 条）

44. TSDB（时间序列数据库） 针对时间戳排序数据优化的存储系统，以高写入吞吐和按时间范围扫描见长。

45. Columnar Store（列式存储） 按列而非按行组织数据的存储格式，对聚合查询和压缩极其友好。 Notes: ClickHouse、Apache Doris、DuckDB、Arrow 等系统让"日志即列式表"成为新一代日志栈的主流路线；Doris 在高并发查询、Join 性能、MySQL 协议兼容上明显优于 ClickHouse，ClickHouse 则在单查询大表扫描的极限速度上更强——两者在可观测后端的选型里互为补集而非替代。

46. Inverted Index（倒排索引） 从词项映射到文档的索引结构，是 Elasticsearch / Loki 这类全文 / 标签检索的核心。

47. LSM Tree（日志结构合并树） 多层有序文件 + 后台合并的存储结构，写入快、读取需合并多层；Cassandra、RocksDB、HBase 是典型实现，Prometheus TSDB 的"WAL + 不可变 block + 后台 compaction"结构亦从中借用了思想。

48. Tiered Storage（分层存储） 近期数据存本地高速盘、历史数据下沉到对象存储（S3）的架构，是可观测数据降本的核心手段。

49. Downsampling（降采样） 将高频原始数据按更长时间窗口聚合（每分钟变每小时）以节省存储。

50. Retention（保留期） 遥测数据被保留多久的策略；通常 metrics 周到月、logs 几天到几周、traces 几小时到几天。

51. Compaction（合并 / 压实） 将多个小数据块合并为更大块的后台作业，存储引擎的"垃圾回收"。

52. PromQL Prometheus 的查询语言，以时间序列代数（区间向量、瞬时向量、函数）为核心。

53. LogQL Grafana Loki 的查询语言，语法借鉴 PromQL，但作用对象是日志流。

54. TraceQL Grafana Tempo 的查询语言，用于按 span 属性、时长、关系筛选 traces。

55. Cardinality Explosion（基数爆炸） 高基数标签（如 user_id、request_id）导致时间序列数量指数级膨胀，最终拖垮 TSDB。 Notes: 它是 TSDB 运维事故的头号原因；多数生产事故源于一个新上线的 label 没人意识到会带高基数。

F. 采样与归因（9 条）

56. Head Sampling（头部采样） 在 trace 起点根据预设比例决定是否记录整个 trace。 Notes: 简单、无状态，但盲点很大——你在 trace 开始时不知道它会不会出错。

57. Tail Sampling（尾部采样） Trace 完整结束后根据其最终特征（是否出错、超时、含关键 span）决定是否保留。 Notes: 解决头采样的盲点，但需要在 collector 缓存完整 trace、内存开销大、跨节点协调复杂。

58. Probabilistic Sampling（概率采样） 按固定概率随机保留 trace 的最常见方案。

59. Adaptive Sampling（自适应采样） 采样率根据流量、错误率、延迟动态调整，目标是低流量时全采、高流量时只采异常。

60. RED Method 服务级监控的三个指标：Rate（请求量）、Errors（错误率）、Duration（延迟）。

61. USE Method 资源级监控的三个指标：Utilization（利用率）、Saturation（饱和度）、Errors（错误数）。 Notes: RED 看服务、USE 看资源；两者互补而非互斥。Brendan Gregg 提出 USE 时明确指出它针对硬件资源。

62. Four Golden Signals（四大黄金信号） Google SRE 书提出的：Latency、Traffic、Errors、Saturation。 Notes: 它是 RED 和 USE 的并集；在"应该监控什么"的所有框架里被引用最多。

63. Exemplar Trace（样例追踪） 通过 exemplar 机制从某条指标数据点反查到的代表性 trace。

64. Trace Context（追踪上下文） W3C 标准化的 trace ID / parent span ID / flags 头部规范（traceparent、tracestate），是跨厂商互通的基础。

G. SLO 与可靠性语言（8 条）

65. SLI（Service Level Indicator，服务等级指标） 用于衡量服务质量的可量化指标，如"成功响应比例"“p99 延迟”。

66. SLO（Service Level Objective，服务等级目标） 对 SLI 设定的目标值（如"99.9% 的请求在 300ms 内返回"），是组织内部承诺。

67. SLA（Service Level Agreement，服务等级协议） 对外签订的合同性可靠性承诺，违约通常伴随赔偿。 Notes: SLA 一般比 SLO 宽松一档——内部承诺严于外部承诺，否则失去缓冲。

68. Error Budget（错误预算） 1 − SLO 的差额，可被消耗的"允许不可靠"的份额。 Notes: Error budget 是 SRE 体系最关键的发明——它把可靠性从"越高越好"的道德问题变成了可交易的工程资源。

69. Burn Rate（消耗率） Error budget 被消耗的速度，常用于多窗口多阈值告警。

70. Toil（重复劳动） 手工的、可自动化的、无长期价值的运维工作，Google SRE 主张将其控制在 50% 以下。

71. MTTR / MTTD（平均恢复时间 / 平均检测时间） 分别衡量从故障开始到检测到、从检测到到恢复的耗时。

72. Reliability（可靠性） 系统在给定条件下、给定时间内提供正确服务的概率；与"可用性"（uptime）的区别在于它关心正确性而非仅仅在线。

H. 告警与事件响应（8 条）

73. Alert（告警） 当指标越过阈值或 SLO 被违反时产生的通知。

74. Alert Fatigue（告警疲劳） 告警过多、误报过多导致 on-call 工程师对告警的敏感度下降。 Notes: 它是 on-call 体系崩坏的最早信号；治理路径是"告警必须可操作、必须有 runbook、无效告警必须删"。

75. Symptom-based Alerting（症状型告警） 针对用户感知到的现象（错误率上升、延迟超 SLO）告警，而非内部状态（CPU 高）。 Notes: Google SRE 强力推崇——它对应 SLO，避免"内部抖动但用户没事"的噪音告警。

76. Cause-based Alerting（原因型告警） 针对内部状态异常（磁盘满、连接池耗尽）告警的传统模式。

77. Runbook（应急手册） 针对某类告警的处置步骤文档，理想情况下每个告警都应配一个 runbook。

78. Incident（事件） 达到一定严重程度、需要协调响应的故障；通常有 severity 分级（P0 / P1 / P2 / P3）。

79. Postmortem（事后复盘） 事故结束后对原因、时间线、影响、改进项的结构化文档。

80. Blameless Culture（无指责文化） 复盘聚焦系统与流程缺陷而非个人过失的组织规范。 Notes: 它是一项工程治理选择，不是道德姿态；目的是让人愿意说出真相，让系统能从事故中真正学到东西。

I. 用户视角与边缘观测（7 条）

81. Black-box vs White-box Monitoring（黑盒 vs 白盒监控） 黑盒从外部探测系统行为（HTTP probe）；白盒读取系统内部状态（内存、队列长度）。 Notes: 两者互补——黑盒告诉你"用户看到什么"，白盒告诉你"为什么"。只有黑盒会错过慢请求成因，只有白盒会错过 DNS / TLS / CDN 层故障。

82. Synthetic Monitoring（合成监控） 用脚本模拟用户行为定期访问服务，主动产生流量来探测可用性和性能。

83. RUM（Real User Monitoring，真实用户监控） 在用户浏览器或 App 中埋点采集真实用户的性能、错误、行为数据。

84. Distributed Tracing（分布式追踪） 跨服务、跨进程、跨网络的请求追踪实践，是微服务架构下定位问题的核心手段。

85. Service Mesh Observability（服务网格可观测） 通过 Istio / Linkerd 等 sidecar 代理在网络层透明采集服务间调用的指标和 traces。 Notes: 优点是零侵入；缺点是只能看"服务之间"，看不到服务内部，且 sidecar 自身是新的故障源。

86. Chaos Engineering（混沌工程） 主动注入故障以验证系统韧性和可观测覆盖的实践，由 Netflix 推动成熟。 Notes: 它与可观测性互为前提——没有充分可观测，注入故障只会制造事故；没有混沌注入，可观测覆盖永远不知道是否够用。

87. FinOps for Observability（可观测的成本治理） 针对可观测数据本身的成本管理——它的边际成本在大型组织里可以占到云开支的 5–15%。 Notes: 是近三年从 SRE 实践中分化出来的新方向；常见手段包括基数审计、log volume 治理、retention 分级、采样率分租户。

J. AI 可观测（13 条）

88. LLM Observability（LLM 可观测性） 针对大语言模型应用（单次推理、Agent、RAG）的端到端可观测实践，记录对象从"系统状态"扩展到"模型行为、输入语义、输出质量"。 Notes: 传统三支柱回答"系统在做什么"；LLM 可观测必须回答"模型在想什么、说得对不对、花了多少钱"——这三问只有最后一问能套用旧工具。

89. Prompt Tracing（提示词追踪） 将每次 LLM 调用的完整 prompt（含 system / user / assistant / tool 角色、模板版本、注入的上下文片段）作为一个 span 持久化。 Notes: LLM 应用的 bug 九成出在 prompt 而非代码，没有 prompt trace 等于在没日志的服务里调 bug。

90. Token Accounting（Token 计量） 按调用、链路、用户、租户维度聚合输入 / 输出 token 数及对应成本。

91. Hallucination Metric（幻觉指标） 量化模型输出中无事实依据或与给定上下文矛盾内容比例的指标族，常见实现包括 grounding score、faithfulness、citation accuracy。 Notes: 它把"模型胡说"从工程师的主观感受变成可上报、可告警的数字；但与 latency 不同，幻觉是依赖判定者的指标——你怎么测，决定你看到什么。

92. Online Eval（在线评估） 在生产流量上对 LLM 响应做实时 / 准实时的质量评估，结果作为可观测信号入库。

93. Offline Eval（离线评估） 在固定数据集（黄金集、回归集）上批量评估 prompt / 模型 / 检索策略变更的效果，通常在 CI 或发布流程中运行。

94. LLM-as-Judge（以模型为裁判） 用一个 LLM 给另一个 LLM 的输出打分（正确性、相关性、安全性等）。 Notes: 当"事实正确性"无法用传统 metric 表达时，它是目前主流但有争议的替代方案——便宜可扩展，但裁判模型本身会出错、有偏见，且打分随模型版本漂移。

95. Embedding Drift（嵌入漂移） 用户输入或文档库的 embedding 分布随时间偏离基准分布。 Notes: RAG 系统里 drift 是"昨天还好用的检索今天突然乱召回"的根因；它是 L4 里少数能直接套用传统"数据漂移"理论的概念，但距离度量和基线选择本身就是开放问题。

96. Agent Trace（Agent 执行轨迹） 一次 Agent 任务的完整执行链路：思考、工具调用、子 Agent 分发、状态转移、最终输出，通常表示为有向树或图。 Notes: Agent 是多步、有状态、可分支的执行系统，传统 distributed trace 模型对它太弱——树状 trace 无法表达 ReAct 循环和 reflection 回溯。

97. Tool Call Span（工具调用 Span） Agent 调用外部工具（搜索、代码执行、数据库查询、子 Agent）时产生的 span，承载工具名、参数、返回值、错误。

98. RAG Observability（检索增强可观测） 针对 retrieve → rerank → generate 三段管道的端到端观测，关键观测点为召回 chunk 列表、相似度分数、最终被引用的 chunk。 Notes: RAG 系统的回答质量瓶颈通常不在生成阶段而在检索阶段；没有完整的检索可观测，工程师只能盯着"答得不好"的最终输出却找不到根因。

99. GenAI Semantic Conventions（生成式 AI 语义约定） OpenTelemetry 社区为 LLM / Agent / RAG 调用定义的标准属性集（如 gen_ai.system、gen_ai.request.model、gen_ai.usage.input_tokens）；规范托管于 github.com/open-telemetry/semantic-conventions，截至 2026-06 仍在 experimental → stable 推进中。 Notes: 它正在把碎片化的厂商规范（Langfuse、LangSmith、Phoenix 各一套）收敛到统一 OTel 数据模型；采不采用它，决定了你三年后的可观测栈能不能跨厂商迁移。L4-3 / L4-10 详细讨论。

100. Trajectory & Replay（轨迹与回放） Trajectory 是 Agent 在一次任务中走过的 (state, action, observation) 序列（借自强化学习）；Replay 基于记录的 prompt / context / tool response 重新执行任务以复现行为。 Notes: LLM 系统的非确定性让传统 debugging 失效——你不能"重启服务再跑一遍"。Trajectory 是 Agent 评估的基本单位，Replay 是 LLM 时代调试的核心工具，但完整 replay 需要冻结模型版本 + 温度 + 工具响应，工程上不便宜。

横跨多组的因果链

下面几条因果链横跨多组概念。读懂它们，会比记住 100 条孤立定义更有用：

#9 Cardinality → #55 Cardinality Explosion → #44 TSDB → #45 Columnar Store → #48 Tiered Storage → #87 FinOps 高基数推动 TSDB 选型，TSDB 局限推动列存兴起，列存推动分层存储，分层存储推动成本治理——这一条贯穿 E 组和 I 组。
#56 Head Sampling → #57 Tail Sampling → #23 Exemplar → #17 Trace 头采样的盲点导致尾采样的发明，尾采样的代价导致 exemplar 这种"采得少但能反查"的机制——这一条解释为什么 OTel Collector 越来越复杂。
#7 Wide Event → #25 OpenTelemetry → #28 Semantic Conventions → #99 GenAI Semantic Conventions 宽事件理论 → OTel 协议化 → 属性标准化 → 延伸到 LLM 调用——这一条是 L4 系列的理论主干。
#65 SLI → #66 SLO → #68 Error Budget → #69 Burn Rate → #74 Alert Fatigue → #75 Symptom-based Alerting SLI/SLO 概念 → error budget 资源化 → burn rate 触发告警 → 告警过多导致 fatigue → 用 symptom-based 治理——这一条是 SRE 体系的工程化路径，L3 主线。
#88 LLM Observability → #89 Prompt Tracing → #96 Agent Trace → #100 Trajectory & Replay LLM 可观测 → prompt 追踪 → Agent 执行轨迹 → 轨迹回放——这一条勾勒了 AI 可观测的演化路径，L4 全系列展开。

接下来

这 100 个概念是后续四篇 L1 文章的"零件库"：

L1-1 《可观测性的原始定义：从 Kalman 到 Honeycomb》 主要使用 1、2、5、6、7、8 号概念。
L1-2 《“三支柱"是一个误导的框架》 主要使用 7、10、15、17、24 号概念。
L1-3 《基数、采样与认识论：你不可能记录全部》 主要使用 9、13、55、56、57、59 号概念。
L1-4 《当被观测对象是 LLM：可观测性理论需要重写吗？》 主要使用 J 组（88–100）全部。

主要参考

Kalman, R. E. (1960). On the General Theory of Control Systems. IFAC Congress.
Beyer, B., et al. (2016). Site Reliability Engineering. Google / O’Reilly——SLI / SLO / Error Budget / Four Golden Signals 等概念的原始出处。
Bourgon, P. (2017). Metrics, tracing, and logging. peter.bourgon.org——三支柱韦恩图原始来源。
Sridharan, C. (2018). Distributed Systems Observability. O’Reilly Report.
Gregg, B. USE Method. brendangregg.com——USE 方法原始定义。
Majors, C., Fong-Jones, L., Miranda, G. (2022). Observability Engineering. O’Reilly——宽事件论的最完整阐述。
OpenTelemetry Specification & Semantic Conventions. opentelemetry.io.
OpenTelemetry GenAI Semantic Conventions. github.com/open-telemetry/semantic-conventions——AI 可观测部分的标准化基准。

A. 元概念与哲学（9 条）#

B. 三支柱与其变体（15 条）#

C. 数据模型与协议（10 条）#

D. 采集与传输（9 条）#

E. 存储与查询（12 条）#

F. 采样与归因（9 条）#

G. SLO 与可靠性语言（8 条）#

H. 告警与事件响应（8 条）#

I. 用户视角与边缘观测（7 条）#

J. AI 可观测（13 条）#

横跨多组的因果链#

接下来#

主要参考#