低延迟GPU数据包处理

在GPU上处理网络数据包可以与仅CPU的解决方案相比显著加速吞吐量，但实现低延迟需要仔细优化。本文档探讨了在NVIDIA GPU上最小化数据包处理延迟的技术。

GPU数据包处理简介

网络数据包处理任务通常包括： - 数据包解析/头部提取 - 协议解码 - 过滤（防火墙规则、模式匹配） - 流量分析 - 密码学操作 - 深度数据包检查

GPU在这些任务中表现出色，原因是： - 能够同时处理多个数据包的大规模并行性 - 用于移动数据包数据的高内存带宽 - 某些操作的专用指令（例如，密码学）

低延迟GPU处理的挑战

GPU数据包处理中延迟的几个因素：

数据传输开销：在主机和设备内存之间移动数据通常是主要瓶颈
内核启动开销：每次内核启动产生约5-10μs的开销
批处理张力：较大的批次提高吞吐量但增加延迟
同步成本：CPU和GPU之间的协调增加延迟
内存访问模式：对数据包数据的不规则访问可能导致缓存利用率低下

基本数据包处理管道

典型的GPU数据包处理管道包括以下阶段：

数据包捕获：从网络接口接收数据包
批处理：收集多个数据包以分摊传输和启动成本
传输到GPU：将数据包数据复制到GPU内存
处理：执行内核处理数据包
传输结果：将处理结果复制回主机
响应/转发：根据处理结果采取行动

基本管道示例

网络 → CPU缓冲区 → 批次收集 → GPU传输 → GPU处理 → 结果传输 → 操作

代码结构和设计

我们的实现遵循模块化设计，将核心数据包处理逻辑与优化策略分开。这种方法有几个好处：

关注点分离：数据包处理逻辑与优化技术解耦
易于比较：我们可以使用相同的处理逻辑直接比较不同的优化方法
可维护性：处理逻辑或优化策略的改变可以独立进行
清晰度：每种优化的影响清晰可见

核心组件

数据结构：
Packet：包含头部、有效载荷、大小和状态信息
PacketResult：包含处理结果，包括要采取的操作
PacketBatch：将数据包分组用于批处理
核心处理函数：
processPacketCPU()：数据包处理的CPU实现
processPacketGPU()：GPU设备函数实现（所有内核使用）
优化阶段：
每种优化策略作为单独的函数实现
所有策略使用相同的核心处理逻辑
结果显示每种方法的性能影响

优化技术

CPU与GPU实现

我们首先比较CPU和GPU实现以建立基准：

// CPU实现
void processPacketCPU(const Packet* packet, PacketResult* result, int packetId) {
    // 核心数据包处理逻辑
}

// GPU实现
__device__ void processPacketGPU(const Packet* packet, PacketResult* result, int packetId) {
    // 相同的核心逻辑，但作为设备函数
}

CPU版本顺序处理数据包，而GPU版本跨数千个线程并行处理。

固定内存

问题：标准可分页内存在传输到/从GPU时需要额外复制

解决方案：使用固定（页锁定）内存以启用GPU直接访问

// 为数据包缓冲区分配固定内存
cudaHostAlloc(&h_packets, packet_buffer_size, cudaHostAllocDefault);

好处：主机和设备之间的传输速度快达2倍

零拷贝内存

问题：即使使用固定内存，显式传输仍会增加延迟

解决方案：使用零拷贝内存将主机内存直接映射到GPU地址空间

// 分配零拷贝内存
cudaHostAlloc(&h_packets, packet_buffer_size, cudaHostAllocMapped);
cudaHostGetDevicePointer(&d_packets, h_packets, 0);

好处：消除显式传输，允许细粒度访问权衡：通过PCIe的带宽较低，但可减少小传输的延迟

批处理策略

问题：小批次=高开销；大批次=高延迟

解决方案：根据流量状况实现自适应批处理

基于超时的批处理：在X微秒后或批次满时处理
动态批次大小：根据负载和延迟要求调整批次大小
两级批处理：关键数据包使用小批次，其他使用较大批次

流并发

问题：传输和内核的顺序执行浪费时间

解决方案：使用CUDA流重叠操作

// 创建用于流水线的流
cudaStream_t streams[NUM_STREAMS];
for (int i = 0; i < NUM_STREAMS; i++) {
    cudaStreamCreate(&streams[i]);
}

// 流水线执行
for (int i = 0; i < NUM_BATCHES; i++) {
    int stream_idx = i % NUM_STREAMS;
    // 异步传输批次i到GPU
    cudaMemcpyAsync(d_packets[i], h_packets[i], batch_size, 
                    cudaMemcpyHostToDevice, streams[stream_idx]);
    // 处理批次i
    processPacketsKernel<<<grid, block, 0, streams[stream_idx]>>>(
        d_packets[i], d_results[i], batch_size);
    // 异步将结果传回
    cudaMemcpyAsync(h_results[i], d_results[i], result_size,
                   cudaMemcpyDeviceToHost, streams[stream_idx]);
}

好处：通过流水线提高吞吐量和降低平均延迟

持久内核

问题：内核启动开销增加显著延迟

解决方案：保持内核无限运行，等待新工作

__global__ void persistentKernel(volatile int* work_queue, volatile int* queue_size,
                                 PacketBatch* batches) {
    while (true) {
        // 检查新工作
        if (threadIdx.x == 0 && blockIdx.x == 0) {
            // 等待新批次（自旋等待或睡眠）
            while (*queue_size == 0);
            // 获取批次索引
            batch_idx = atomicAdd((int*)queue_size, -1);
        }
        // 使用共享内存向所有线程广播batch_idx
        __shared__ int s_batch_idx;
        if (threadIdx.x == 0) s_batch_idx = batch_idx;
        __syncthreads();

        // 使用我们的核心函数处理指定批次的数据包
        processPacketGPU(&batches[s_batch_idx].packets[tid], &results[tid], tid);

        // 发出完成信号
        if (threadIdx.x == 0 && blockIdx.x == 0) {
            batches[s_batch_idx].status = COMPLETED;
        }
    }
}

好处：消除内核启动开销，实现亚微秒级延迟

CUDA图

问题：即使使用流，每次内核启动仍有CPU开销

解决方案：使用CUDA图捕获和重放整个工作流

// 创建并捕获CUDA图
cudaGraph_t graph;
cudaGraphExec_t graphExec;

// 将操作捕获到图中
cudaStreamBeginCapture(stream, cudaStreamCaptureModeGlobal);
for (int i = 0; i < PIPELINE_DEPTH; i++) {
    cudaMemcpyAsync(...); // 复制输入
    kernel<<<...>>>(...);  // 处理
    cudaMemcpyAsync(...); // 复制输出
}
cudaStreamEndCapture(stream, &graph);

// 将图编译为可执行文件
cudaGraphInstantiate(&graphExec, graph, NULL, NULL, 0);

// 使用新数据重复执行图
for (int batch = 0; batch < NUM_BATCHES; batch++) {
    updateGraphInputs(batch); // 更新内存地址
    cudaGraphLaunch(graphExec, stream);
}

好处：减少CPU开销30-50%，导致延迟降低

性能分析

在优化低延迟数据包处理时，测量以下指标：

端到端延迟：从数据包到达到处理完成的时间
处理吞吐量：每秒处理的数据包
批处理时间：处理单个批次的时间
传输开销：主机-设备传输花费的时间
内核执行时间：执行GPU代码花费的时间
队列等待时间：数据包在批处理队列中等待的时间

基于我们的实现结果：

方法	处理时间（微秒）	注释
CPU（基准）	6,639	顺序处理
基本GPU	4,124	比CPU快约1.6倍
固定内存	2,987	比CPU快约2.2倍
批处理流	8,488	总时间更高但每数据包延迟低（0.83微秒）
零拷贝	61,170	由于PCIe带宽限制而慢得多
持久内核	200,470	总时间高但包括模拟的数据包到达延迟
CUDA图	132,917	减少启动开销但仍有同步成本

结论

实现低延迟GPU数据包处理需要平衡多个因素：

尽可能减少数据传输
使用持久内核或CUDA图优化内核启动开销
基于流量模式使用智能批处理策略
使用流流水线操作以隐藏延迟
在适当时使用GPU特定内存功能，如零拷贝

通过将核心处理逻辑与优化策略分离，我们可以清楚地看到每种方法的影响，并为特定用例选择最佳技术。

最佳方法通常涉及基于工作负载特性结合多种技术： - 使用持久内核实现最小延迟 - 对必须传输的数据使用固定内存 - 对小型、延迟敏感的数据使用零拷贝 - 基于流量模式进行自适应批处理 - 对复杂、可重复的处理管道使用CUDA图

参考文献

NVIDIA CUDA编程指南: https://docs.nvidia.com/cuda/cuda-c-programming-guide/
NVIDIA GPUDirect: https://developer.nvidia.com/gpudirect
DPDK（数据平面开发套件）: https://www.dpdk.org/
NVIDIA DOCA SDK: https://developer.nvidia.com/networking/doca

Share on Share on