构建基于Playwright与Hudi的全链路数据压测及一致性校验自动化流水线

数据工程

文章字数: 3.3k

阅读时长: 14 分

我们的技术痛点始于一个看似简单却极难保证的承诺：实时数据湖中的每一条数据，在经历高并发写入、更新和近实时查询的完整生命周期后，必须保持绝对的完整性与可预测的查询性能。在一个由用户前端行为触发、经由Kafka流转、最终沉淀到Apache Hudi表的复杂系统中，任何环节的抖动都可能导致数据丢失、重复或延迟，而数据量的增长又会悄无声息地侵蚀查询性能。手动验证这种端到端的一致性与性能无异于大海捞针，尤其是在频繁迭代的开发周期中。

我们需要的是一个自动化、可重复、能模拟真实世界复杂场景的“真理之尺”——一个全链路压测与一致性校验平台。它必须能驱动真实的用户行为，产生高保真度的数据流，并最终以量化的方式告诉我们：系统是否扛住了压力？数据是否一条未丢、一条未多？查询性能是否仍在SLO（服务等级目标）之内？

初步的构想是打通QA、DevOps和数据三大领域。使用一个前端自动化框架来模拟用户，用CI/CD流水线来编排整个测试、验证和销毁流程，将生成的数据注入到真实的流处理管道中，最终对落地的数据湖表进行程序化断言。

技术选型决策过程很直接，完全从生产实践角度出发：

负载生成器 - Playwright: 放弃了传统的JMeter或Gatling。它们擅长协议层压测，但无法精确模拟现代前端应用中复杂的JavaScript执行、异步请求和DOM交互。Playwright能以浏览器内核级别驱动真实的用户行为，生成的数据源最接近生产环境，这是保证测试有效性的基石。
消息队列 - Kafka: 作为业界标准，其高吞吐、持久化和分区能力是连接前端事件源和后端数据处理的唯一选择。它提供了一个关键的缓冲层，解耦了压测端和数据消费端，允许我们独立分析各个环节。
数据湖表格式 - Apache Hudi: 我们需要验证的是一个支持UPSERT的数据湖方案。Hudi的Copy-on-Write (CoW) 和 Merge-on-Read (MoR) 模式，及其内置的索引机制（如Bloom Index），正是我们需要重点考察的对象。压测的目标之一就是评估不同写入模式和索引策略对端到端延迟和查询性能的影响。
编排与自动化 - GitLab CI/CD: 它是我们团队的技术栈核心。利用其强大的CI/CD能力，我们可以定义一个多阶段的流水线，涵盖环境准备、压测执行、数据校验、性能分析和环境清理，实现无人值守的端到端验证。

核心实现：自动化流水线的设计与代码

整个流程被封装在一个.gitlab-ci.yml文件中，它定义了从触发到报告的每一步。

graph TD
    A[Start Pipeline] --> B{Stage: setup_env};
    B --> C{Stage: run_load_test};
    C --> D{Stage: data_processing_wait};
    D --> E{Stage: validation};
    E --> F{Stage: teardown_env};
    F --> G[End Pipeline];

    subgraph "GitLab CI/CD Stages"
        B; C; D; E; F;
    end

    subgraph "Load Generation"
        C -- Playwright Script --> H[Kafka Topic: user_events];
    end

    subgraph "Data Pipeline (Simulated)"
        H -- Spark Streaming --> I[Apache Hudi Table];
    end

    subgraph "Validation Logic"
        E -- Spark SQL/Trino --> I;
        C -- Generates Artifact --> E;
    end

1. GitLab CI/CD 流水线编排 (`.gitlab-ci.yml`)

这是整个自动化体系的骨架。我们定义了几个关键阶段，并使用变量来控制压测规模。

# .gitlab-ci.yml

variables:
  PLAYWRIGHT_USERS: "50" # 并发用户数
  PLAYWRIGHT_DURATION_SECONDS: "300" # 压测持续时间
  KAFKA_BROKER: "kafka.internal:9092"
  KAFKA_TOPIC: "hudi-e2e-test-topic"
  HUDI_TABLE_PATH: "s3a://data-lake/hudi_e2e_test_table"
  SPARK_MASTER: "k8s://https://kubernetes.default.svc"

stages:
  - setup
  - test
  - validate
  - cleanup

# 可以在此阶段使用Terraform或Ansible准备临时资源
# 为简化，此处留空
setup_environment:
  stage: setup
  script:
    - echo "Setting up test environment..."
    - echo "Creating Kafka topic ${KAFKA_TOPIC} if not exists..."

run_playwright_load_test:
  stage: test
  image: mcr.microsoft.com/playwright:v1.39.0-jammy # 使用官方带浏览器的镜像
  script:
    - npm install
    - node playwright-load-generator.js > generated_events.log
  artifacts:
    paths:
      - generated_events.log # 将生成事件的日志作为artifact，用于后续校验
    expire_in: 1 day

# 模拟等待数据管道处理完成的时间
# 真实场景中，这里应该轮询Hudi表的commit元数据或检查下游任务状态
wait_for_data_pipeline:
  stage: validate
  needs: ["run_playwright_load_test"]
  script:
    - echo "Waiting for data pipeline to consume and write to Hudi..."
    - sleep 600 # 模拟10分钟的数据处理延迟

run_validation_and_perf_check:
  stage: validate
  image: bitnami/spark:3.3 # 使用带Spark的镜像
  needs: ["wait_for_data_pipeline"]
  script:
    - |
      # 从artifact中获取Playwright生成的事件总数
      EXPECTED_COUNT=$(cat generated_events.log | grep "Event sent" | wc -l)
      echo "Expected event count from Playwright: ${EXPECTED_COUNT}"

      # 提交Spark作业进行数据校验
      spark-submit \
        --master ${SPARK_MASTER} \
        --deploy-mode client \
        --class com.example.HudiValidator \
        --conf "spark.driver.extraJavaOptions=-DEXPECTED_COUNT=${EXPECTED_COUNT} -DHUDI_TABLE_PATH=${HUDI_TABLE_PATH}" \
        validation-job.jar
  
# 销毁测试资源
cleanup_environment:
  stage: cleanup
  when: always # 无论成功失败都执行
  script:
    - echo "Cleaning up test environment..."
    - echo "Deleting Hudi table data at ${HUDI_TABLE_PATH}..."
    # 添加删除Kafka Topic等清理逻辑

这里的坑在于wait_for_data_pipeline。简单的sleep在生产中是不可靠的。一个更健壮的实现是编写一个脚本，该脚本使用aws s3 ls或Hudi的Timeline API来检查在压测时间窗口内是否有新的commit成功，直到超时或成功。

2. Playwright 负载生成器 (`playwright-load-generator.js`)

这个脚本的核心不只是访问页面，而是模拟一个完整的用户会话，并将关键行为转化为事件发送到Kafka。

// playwright-load-generator.js

const { chromium } = require('playwright');
const { Kafka } = require('kafkajs');
const { v4: uuidv4 } = require('uuid');

// 从环境变量获取配置
const {
  PLAYWRIGHT_USERS,
  PLAYWRIGHT_DURATION_SECONDS,
  KAFKA_BROKER,
  KAFKA_TOPIC
} = process.env;

const CONCURRENT_USERS = parseInt(PLAYWRIGHT_USERS, 10) || 10;
const DURATION_MS = (parseInt(PLAYWRIGHT_DURATION_SECONDS, 10) || 60) * 1000;

// Kafka Producer 初始化
const kafka = new Kafka({
  clientId: 'playwright-load-generator',
  brokers: [KAFKA_BROKER],
});
const producer = kafka.producer();

async function sendKafkaEvent(eventData) {
  try {
    await producer.send({
      topic: KAFKA_TOPIC,
      messages: [{ value: JSON.stringify(eventData) }],
    });
    // 在stdout中打印日志，用于CI artifact计数
    console.log(`Event sent: ${eventData.eventId}`);
  } catch (error) {
    console.error('Failed to send event to Kafka:', error);
  }
}

async function userJourney(userId) {
  const browser = await chromium.launch();
  const context = await browser.newContext();
  const page = await context.newPage();

  const journeyStartTime = Date.now();

  // 循环执行用户行为，直到测试结束
  while (Date.now() - journeyStartTime < DURATION_MS) {
    const eventId = uuidv4();
    const eventTimestamp = new Date().toISOString();
    const sessionId = uuidv4();

    try {
      // 1. 访问首页
      await page.goto('https://example.com');
      await sendKafkaEvent({ eventId, userId, sessionId, eventTimestamp, eventType: 'PAGE_VIEW', page: 'home' });

      // 2. 随机搜索
      const searchTerm = `query_${Math.floor(Math.random() * 1000)}`;
      await page.fill('input[name="q"]', searchTerm);
      await page.press('input[name="q"]', 'Enter');
      await page.waitForNavigation();
      await sendKafkaEvent({ eventId: uuidv4(), userId, sessionId, eventTimestamp: new Date().toISOString(), eventType: 'SEARCH', term: searchTerm });
      
      // 3. 随机查看商品
      const productLinks = await page.$$('a.product-link');
      if (productLinks.length > 0) {
        const randomProduct = productLinks[Math.floor(Math.random() * productLinks.length)];
        const productId = await randomProduct.getAttribute('data-product-id');
        await randomProduct.click();
        await page.waitForNavigation();
        await sendKafkaEvent({ eventId: uuidv4(), userId, sessionId, eventTimestamp: new Date().toISOString(), eventType: 'VIEW_PRODUCT', productId });
      }

      // 模拟用户思考时间
      await page.waitForTimeout(1000 + Math.random() * 2000);

    } catch (error) {
      console.error(`User ${userId} journey failed:`, error);
      // 错误处理：可以重置页面或记录错误事件
      await sendKafkaEvent({ eventId, userId, eventTimestamp, eventType: 'ERROR', error: error.message });
      await page.goto('about:blank'); // 重置页面状态
    }
  }

  await browser.close();
}

async function main() {
  await producer.connect();
  console.log(`Starting load test with ${CONCURRENT_USERS} concurrent users for ${DURATION_MS / 1000} seconds.`);

  const workers = [];
  for (let i = 0; i < CONCURRENT_USERS; i++) {
    workers.push(userJourney(`user_${i}`));
  }

  try {
    await Promise.all(workers);
  } catch (error) {
    console.error("An error occurred during the load test:", error);
  } finally {
    await producer.disconnect();
    console.log("Load test finished.");
  }
}

main();

这份代码的重点在于：

高保真事件: 每个事件都有唯一的eventId，这是后续进行去重和一致性校验的关键。
错误处理: 真实的测试会遇到各种网络或页面问题，简单的try-catch可以保证单个用户的失败不影响整个测试进程。
CI集成: 通过console.log输出特定格式的日志，GitLab CI可以轻松地将其捕获为artifact，用于后续阶段的断言。

3. Spark 作业：消费 Kafka 并写入 Hudi

这是数据管道的核心。我们使用Spark Streaming来实时处理来自Kafka的数据，并利用Hudi的能力进行UPSERT操作。

// spark-hudi-writer/src/main/scala/com/example/KafkaToHudi.scala

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._
import org.apache.hudi.DataSourceWriteOptions
import org.apache.hudi.config.HoodieWriteConfig

object KafkaToHudi {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .appName("KafkaToHudiE2ETestWriter")
      .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
      .getOrCreate()

    import spark.implicits._

    val kafkaBootstrapServers = "kafka.internal:9092"
    val kafkaTopic = "hudi-e2e-test-topic"
    val hudiTablePath = "s3a://data-lake/hudi_e2e_test_table"
    val hudiTableName = "user_events"

    // 1. 从Kafka读取数据
    val df = spark.readStream
      .format("kafka")
      .option("kafka.bootstrap.servers", kafkaBootstrapServers)
      .option("subscribe", kafkaTopic)
      .load()

    // 2. 解析JSON数据
    val schema = ... // 定义与Playwright事件匹配的Schema
    val eventsDf = df.select(from_json(col("value").cast("string"), schema).as("data"))
      .select("data.*")
      .withColumn("ts", (col("eventTimestamp").cast("long") * 1000).cast("timestamp")) // Hudi需要一个时间戳字段用于增量查询

    // 3. 写入Hudi
    val hudiOptions = Map[String, String](
      DataSourceWriteOptions.TABLE_TYPE_OPT_KEY -> "COPY_ON_WRITE", // 或 MERGE_ON_READ
      DataSourceWriteOptions.RECORDKEY_FIELD_OPT_KEY -> "eventId",
      DataSourceWriteOptions.PRECOMBINE_FIELD_OPT_KEY -> "eventTimestamp", // 用于处理乱序事件，保留最新的
      DataSourceWriteOptions.PARTITIONPATH_FIELD_OPT_KEY -> "eventType",
      HoodieWriteConfig.TABLE_NAME -> hudiTableName,
      DataSourceWriteOptions.HIVE_STYLE_PARTITIONING_OPT_KEY -> "true",
      DataSourceWriteOptions.HIVE_SYNC_ENABLED_OPT_KEY -> "true",
      DataSourceWriteOptions.HIVE_TABLE_OPT_KEY -> hudiTableName,
      DataSourceWriteOptions.HIVE_PARTITION_FIELDS_OPT_KEY -> "eventType",
      DataSourceWriteOptions.HIVE_PARTITION_EXTRACTOR_CLASS_OPT_KEY -> "org.apache.hudi.hive.MultiPartKeysValueExtractor",
      // 索引优化关键配置
      "hoodie.index.type" -> "BLOOM",
      "hoodie.bloom.index.update.partition.path" -> "true" 
    )

    val query = eventsDf.writeStream
      .format("hudi")
      .options(hudiOptions)
      .option("checkpointLocation", "/tmp/spark/hudi_checkpoint")
      .outputMode("append")
      .start(hudiTablePath)

    query.awaitTermination()
  }
}

索引优化的思考在这里体现：

我们选择了COPY_ON_WRITE模式，因为它提供了更快的读性能，这对于后续的校验查询很重要。
RECORDKEY_FIELD_OPT_KEY 设置为 eventId，确保了数据的幂等性，即使Kafka出现重复消费，Hudi层也能自动处理。
hoodie.index.type 设置为 BLOOM。对于高基数的eventId，Bloom索引提供了非常高效的存在性检查，极大加速了UPSERT过程中的查找阶段，避免了对整个数据文件的暴力扫描。这是保证写入性能的关键。如果键的重复率很高，或者需要范围查询，SIMPLE或HBASE索引可能是更好的选择，但这需要具体场景权衡。

4. Spark 作业：数据一致性与性能校验

这个作业在数据写入完成后运行，是整个流水线的“裁判”。

// validation-job/src/main/java/com/example/HudiValidator.java

import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;

public class HudiValidator {
    public static void main(String[] args) {
        long expectedCount = Long.parseLong(System.getProperty("EXPECTED_COUNT"));
        String hudiTablePath = System.getProperty("HUDI_TABLE_PATH");

        SparkSession spark = SparkSession.builder()
            .appName("HudiValidatorJob")
            .getOrCreate();

        // 1. 一致性校验：检查记录总数
        System.out.println("--- Starting Consistency Check ---");
        Dataset<Row> hudiDf = spark.read().format("hudi").load(hudiTablePath);
        long actualCount = hudiDf.count();
        
        System.out.println("Expected record count: " + expectedCount);
        System.out.println("Actual record count in Hudi: " + actualCount);

        if (expectedCount != actualCount) {
            System.err.println("FATAL: Data consistency check failed!");
            // 还可以进一步分析差异，比如找出哪些eventId丢失了
            System.exit(1);
        } else {
            System.out.println("SUCCESS: Data consistency check passed.");
        }

        // 2. 性能校验：执行代表性查询并计时
        System.out.println("\n--- Starting Performance Check ---");
        hudiDf.createOrReplaceTempView("user_events");

        // 查询1：按事件类型聚合
        long startTime1 = System.currentTimeMillis();
        Dataset<Row> query1Result = spark.sql("SELECT eventType, COUNT(*) as count FROM user_events GROUP BY eventType");
        query1Result.show();
        long duration1 = System.currentTimeMillis() - startTime1;
        System.out.println("Performance Test 1 (Aggregation) duration: " + duration1 + " ms");
        
        // 假设SLO是5000ms
        if (duration1 > 5000) {
            System.err.println("WARN: Performance SLO for aggregation query missed!");
        }

        // 查询2：针对特定用户的查找 (测试点查性能)
        long startTime2 = System.currentTimeMillis();
        Dataset<Row> query2Result = spark.sql("SELECT * FROM user_events WHERE userId = 'user_10' LIMIT 10");
        query2Result.count(); // 触发action
        long duration2 = System.currentTimeMillis() - startTime2;
        System.out.println("Performance Test 2 (Point Lookup) duration: " + duration2 + " ms");
        
        // 假设SLO是1000ms
        if (duration2 > 1000) {
            System.err.println("WARN: Performance SLO for point lookup query missed!");
        }

        spark.stop();
    }
}

这个校验作业完成了闭环。它不仅验证了数据“量”的对错，还开始度量数据“质”的好坏——即查询性能。当这个流水线因为一次代码提交而性能退化时，CI/CD会立刻失败，从而阻止问题流入生产。

当前方案的局限性与未来迭代方向

这套体系解决了从0到1的问题，但距离一个成熟的压测平台还有距离。
首先，负载生成能力受限于单个GitLab Runner的性能。要模拟更大规模的用户，需要将Playwright容器化，并利用Kubernetes进行分布式调度，这需要引入KEDA（Kubernetes-based Event-Driven Autoscaling）或类似的框架。
其次，数据校验还比较粗糙。目前只校验了总数，更精细的校验应该做到“逐条核对”，例如将Playwright生成的eventId集合与Hudi表中的eventId集合做差集运算，找出具体的差异。这在大数据量下对计算资源要求很高。
再者，性能测试过于简单。真实的性能分析需要火焰图、资源利用率等更深层次的监控数据。未来的方向是集成Prometheus监控和持续剖析（Continuous Profiling）工具，将压测期间的系统指标与查询耗时关联分析，自动定位性能瓶颈。
最后，这个方案的运行成本不低，每次执行都会消耗大量的计算和存储资源。必须建立精细化的触发机制，例如只在合并到主干前或按夜间计划执行，并在开发分支上运行规模更小的“冒烟”版本。