「Let's Go eBPF」认识数据源：Tracepoint

系统的可观测性

软件应用和操作系统变得复杂以后，程序的行为跟踪、调试和性能分析成为难题。我们需要知道系统中此时此刻在进行哪些行为，程序中哪些流程是系统的潜在性能瓶颈，程序是否按照预期正确执行，这对系统的可见性（visibility）或可观测性（observability）提出了要求。为提升复杂系统的可观测性，Linux内核提供了多种内核跟踪（tracing）技术。

我们可以很容易想到一种原始的跟踪方法：打印日志。执行到某段代码时，打印日志，提示程序是否正常运转。然而，这种跟踪方法有许多局限性，例如需要维护源代码。若要在新的地方加入打印信息，要重新编译，不容易维护。打印日志会给程序带来很大的性能开销，想象一下，如果是在一个for循环中插入了打印语句，这会带来可观的额外负载。

Tracepoint

Linux提供了1000多种预先设置好静态跟踪点（static tracepoints）¹，这些跟踪点由内核维护和调优以达到高性能。这些跟踪点称为Linux Tracepoint，由TRACE_EVENT框架实现。TRACE_EVENT向用户提供了编程接口。

Linux Tracepoint在关闭时不会有任何副作用（side effect），会被视作一个简单的条件检查和分支跳转指令（用于检查其是否开启）。为了减少Tracepoint在关闭时的开销，内核会源码提示编译器会把Tracepoint相关的代码放到远离热点代码的地方。CPU在读取cache line以及做分支预测和乱序执行时会先执行常规的代码。因此，Tracepoint是缓存友好的（cache-friendly）。此外，Tracepoint的函数调用是以C的宏实现的，省去了函数调用的开销。

Tracepoint由内核维护，一旦编入内核，以后基本不会变动，因此能提供稳定的ABI，而另一种内核跟踪机制kprobe则可能因为内核函数的更名或修改而在接口上发生变化。内核会尽力确保旧版本内核中的Tracepoint会继续出现在新版中。当然，由于需要人工维护，因此Tracepoint并不能覆盖所有的Linux子系统。我们可以编写基于Tracepoint的数据收集和分析工具，发挥其稳定性优势。

工作原理

和其它静态插桩方式一样，Tracepoint也会和内核源码一起编译。默认情况下，Tracepoint是关闭的，因此在插桩点，Tracepoint的实际指令为nop，表示什么都不做。

在内核运行时，若用户使能了某一Tracepoint，Tracepoint处的nop指令会被动态改写为跳转指令jmp。jmp指令会跳转到当前函数的末尾，这里存放了一个数组，记录了当前Tracepoint的回调函数。用户开启Tracepoint时，探针函数也会以RCU的形式注册到这个数组中。

当Tracepoint被关闭后，跳转指令再次覆盖为nop，同时用户的探针函数被移除。

我们可以在Linux源码中查看内置的Tracepoint，它们的定义存放在/include/trace/events目录下，例如我们可以在其中找到sched:sched_process_exec的定义（Tracepoint的命名格式为subsystem:eventname）。

  
TRACE_EVENT(sched_process_exec,

    TP_PROTO(struct task_struct *p, pid_t old_pid,
        struct linux_binprm *bprm),

    TP_ARGS(p, old_pid, bprm),

    TP_STRUCT__entry(
        __string(   filename,   bprm->filename)
        __field(    pid_t,      pid)
        __field(    pid_t,      old_pid)
    ),

    TP_fast_assign(
        __assign_str(filename, bprm->filename);
        __entry->pid        = p->pid;
        __entry->old_pid    = old_pid;
    ),

    TP_printk("filename=%s pid=%d old_pid=%d", __get_str(filename),
          __entry->pid, __entry->old_pid)
);

根据源码，我们可以看到这个Tracepoint里涉及的事件参数。不过，在实践中，我们不需要去特意查看源码。Linux内核提供了tracefs伪文件系统，作为Tracepoint（和一些其它的内核跟踪工具）与用户交互的界面。/sys/kernel/debug/tracing/events目录下，我们可以看到系统支持的所有Tracepoints。用eBPF编写Tracepoint探针时，可以直接在tracefs中查看参数格式：

  
$ cat /sys/kernel/debug/tracing/events/sched/sched_process_exec/format 
name: sched_process_exec
ID: 316
format:
    field:unsigned short common_type; offset:0; size:2; signed:0;
    field:unsigned char common_flags; offset:2; size:1; signed:0;
    field:unsigned char common_preempt_count; offset:3; size:1; signed:0;
    field:int common_pid; offset:4; size:4; signed:1;

    field:__data_loc char[] filename; offset:8; size:4; signed:1;
    field:pid_t pid; offset:12; size:4; signed:1;
    field:pid_t old_pid; offset:16; size:4; signed:1;

print fmt: "filename=%s pid=%d old_pid=%d", __get_str(filename), REC->pid, REC->old_pid

在sched_process_exec发生时，代码中也会执行到对应的Tracepoint语句trace_sched_process_exec（该函数遵循trace_subsystem_eventname的命名惯例）：

  
static int exec_binprm(struct linux_binprm *bprm)
{
    // ...
    audit_bprm(bprm);
    trace_sched_process_exec(current, old_pid, bprm);
    ptrace_event(PTRACE_EVENT_EXEC, old_vpid);
    proc_exec_connector(current);
    return 0;
}

有关内核Tracepoint的定义和惯例可以在内核文档²中查看。

与Tracepoint交互

我们可以借助tracefs与Tracepoint交互，例如使能某些事件、增加事件跟踪的过滤规则等等。感兴趣的读者可以查看相关文档³⁴。

Raw Tracepoint

Raw tracepoint是内核中新增的一种Tracepoint，有更好的性能，在传入eBPF程序上下文时，不会像Tracepoint那样事先构造好各个参数字段再传入，因此Raw Tracepoint的性能通常更好：

Tracepoint、Raw Tracepoint和kprobe的性能对比⁵

不过，Raw Tracepoint的参数格式不像Tracepoint一样具有稳定性。典型的Raw Tracepoint如sys_enter和sys_exit，定义在/include/trace/events/syscalls.h文件下。我们可以用这两个Tracepoint跟踪所有的系统调用，传入的上下文参数为寄存器的值，里面包含了系统调用的参数信息，用户需要根据系统调用号解释这些参数的实际含义。

「Let's Go eBPF」认识数据源：Tracepoint

系统的可观测性

相关概念

Tracepoint

工作原理

与Tracepoint交互

Raw Tracepoint

References

热门标签

「Let's Go eBPF」认识数据源：Tracepoint

系统的可观测性

相关概念

Tracepoint

工作原理

与Tracepoint交互

Raw Tracepoint

References

继续阅读...

「Let's Go eBPF」来看看Linux社区的新宠！

「Let's Go eBPF」认识数据源：kprobe

Linux I/O模型：从阻塞调用到io_uring

热门标签