使用 Operator 模式在 Kubernetes 中管理基于 Zookeeper 協调的事件溯源应用

分布式系统

文章字数: 3.8k

阅读时长: 16 分

部署一套基于事件溯源（Event Sourcing）的分布式应用到 Kubernetes 上，挑战远不止编写一个 Deployment 的 YAML 文件。这类应用通常是状态化的，节点间需要精密的协调机制来处理领导者选举、分片管理或配置同步，而这往往依赖于一个外部协调服务，例如 ZooKeeper。当我们将这套复杂的系统搬上 K8s 时，第一个问题便是：如何以云原生的方式，自动化地管理其整个生命周期？

一个直接的方案是使用 StatefulSet 配合复杂的 initContainers 和生命周期钩子（lifecycle hooks）脚本。StatefulSet 提供了稳定的网络标识和持久化存储，这对于状态化应用是必不可少的。我们可以编写 Shell 脚本，在 Pod 启动时去 ZooKeeper 注册自己，参与领导者选举，或者在关闭前执行清理逻辑。

这个方案在初期看似可行，但很快就会暴露其脆弱性。在真实项目中，这种基于脚本的运维逻辑是一场灾难。脚本难以测试、调试，并且与 Kubernetes 的声明式范式背道而驰。当集群出现网络分区、节点故障等非预期状况时，这些脚本的行为往往是不可预测的。比如，一个节点因 OOMKilled 被重启，其在 ZooKeeper 中持有的临时节点（ephemeral node）可能会因会话超时而消失，导致领导者丢失。此时，依赖简单的启动脚本很难实现优雅、自动的故障转移。我们需要的不是被动响应，而是主动调节。

另一个更彻底的方案是为这套应用编写一个专属的 Kubernetes Operator。Operator 模式通过将人类运维专家的知识编码到软件中，来扩展 Kubernetes API，从而以声明式的方式管理复杂应用。开发者只需定义一个自定义资源（Custom Resource Definition, CRD），描述应用的期望状态（例如，3个副本，连接到某个 ZooKeeper 集群），Operator 的控制器（Controller）则会不断地循环，驱动当前状态（Current State）无限趋近于期望状态（Desired State）。

这种方式的初期投入成本更高，需要熟悉 Go 语言和 Kubernetes 的 controller-runtime 库。但其带来的长期收益是巨大的：

自动化与自愈能力: Operator 能够处理复杂的故障场景，例如自动重新选举领导者、处理 ZooKeeper 连接抖动等。
声明式 API: 运维人员只需修改一个 YAML 文件来扩缩容或更新配置，而无需执行一系列 kubectl exec 命令。
封装复杂性: 所有与 ZooKeeper 交互、应用状态管理的逻辑都被封装在 Operator 内部，应用容器本身可以保持简洁。

考虑到系统的长期可维护性和稳定性，选择 Operator 模式是唯一专业的选择。它将运维逻辑从脆弱的脚本提升为健壮、可测试、版本化的软件资产，这正是构建一个可靠的分布式系统的基石。我们的目标是构建一个 Operator，它能管理一个 CRD EventSourcedApp，并自动配置 StatefulSet 以及与 ZooKeeper 的必要交互。

架构决策：Operator 的核心职责

在动手编码前，必须清晰地界定 Operator 的职责边界。一个常见的错误是让 Operator 做太多事情，比如深入到应用的业务逻辑。我们的 Operator 应该聚焦于基础设施层面的管理。

graph TD
    subgraph Kubernetes Cluster
        A[Admin/CI-CD] -- kubectl apply --> B(CR: EventSourcedApp);
        B -- watches --> C{EventSourcedApp Operator};
        C -- controls --> D[StatefulSet];
        D -- creates/manages --> E[Pod-0];
        D -- creates/manages --> F[Pod-1];
        D -- creates/manages --> G[Pod-2];
    end

    subgraph Application Logic
        E -- ZK Client --> H{ZooKeeper Cluster};
        F -- ZK Client --> H;
        G -- ZK Client --> H;
    end

    C -- Manages ZK Base Path --> H;
    C -- Reads Pod Status from --> H;
    C -- Updates --> I(CR Status: .status.leader);

    B -- reads/writes --> I;

    style C fill:#f9f,stroke:#333,stroke-width:2px

根据上图，Operator 的核心职责被定义为：

监听 EventSourcedApp CR 的变化: 这是所有操作的入口。
创建和管理 StatefulSet: 根据 CR 中定义的 spec.replicas 来确保对应数量的 Pod 正在运行。
初始化 ZooKeeper 环境: 在 ZooKeeper 中为该应用实例创建一个持久的根 ZNode，用于后续的协调工作。这是一个幂等操作。
状态同步: 从 ZooKeeper 读取应用的状态（例如，哪个 Pod 是当前的领导者），并将其写回到 EventSourcedApp CR 的 .status 字段中。这使得用户可以通过 kubectl get eventsourcedapp 直接查看到应用的内部状态。
不直接参与领导者选举: 领导者选举的逻辑由应用 Pod 自身实现。Operator 只负责提供 ZooKeeper 的连接信息，并监控选举结果。这种解耦是至关重要的，它让 Operator 关注于“部署”而非“运行”。

这个架构体现了事件溯源系统与 BASE 原则的天然契合。事件溯源本身通常与 CQRS 结合，读模型是最终一致的。Operator 的存在，确保了系统的核心组件（写入端）的基本可用（Basically Available）。即使在发生故障转移期间，系统可能会短暂地处于软状态（Soft State）（例如，没有领导者），但 Operator 的调谐循环会最终驱动系统恢复正常，达到最终一致性（Eventual Consistency）。

核心实现：CRD 与 Controller

首先，我们定义 EventSourcedApp 的 CRD。这个定义是 Operator 与用户交互的契约。

api/v1alpha1/eventsourcedapp_types.go

package v1alpha1

import (
	metav1 "k8s.io/apimachinery/pkg/apis/meta/v1"
)

// EventSourcedAppSpec defines the desired state of EventSourcedApp
type EventSourcedAppSpec struct {
	// Replicas is the number of desired instances.
	// +kubebuilder:validation:Minimum=1
	Replicas int32 `json:"replicas"`

	// Image is the container image to run for the application.
	Image string `json:"image"`

	// ZookeeperConnectString is the connection string for the Zookeeper cluster.
	// e.g., "zk-0.zookeeper:2181,zk-1.zookeeper:2181"
	ZookeeperConnectString string `json:"zookeeperConnectString"`
	
	// ZookeeperRootPath is the base path in Zookeeper for this application instance.
	// It must be unique per instance.
	// +kubebuilder:validation:Pattern=`^/.*`
	ZookeeperRootPath string `json:"zookeeperRootPath"`
}

// EventSourcedAppStatus defines the observed state of EventSourcedApp
type EventSourcedAppStatus struct {
	// Conditions represent the latest available observations of an object's state.
	Conditions []metav1.Condition `json:"conditions,omitempty"`

	// Leader is the hostname of the current leader pod.
	// Read from Zookeeper.
	Leader string `json:"leader,omitempty"`
	
	// ActiveReplicas is the number of ready pods.
	ActiveReplicas int32 `json:"activeReplicas"`
}

//+kubebuilder:object:root=true
//+kubebuilder:subresource:status
//+kubebuilder:printcolumn:name="Replicas",type="integer",JSONPath=".spec.replicas"
//+kubebuilder:printcolumn:name="Leader",type="string",JSONPath=".status.leader"
//+kubebuilder:printcolumn:name="Ready",type="string",JSONPath=".status.conditions[?(@.type=='Ready')].status"

// EventSourcedApp is the Schema for the eventsourcedapps API
type EventSourcedApp struct {
	metav1.TypeMeta   `json:",inline"`
	metav1.ObjectMeta `json:"metadata,omitempty"`

	Spec   EventSourcedAppSpec   `json:"spec,omitempty"`
	Status EventSourcedAppStatus `json:"status,omitempty"`
}

//+kubebuilder:object:root=true

// EventSourcedAppList contains a list of EventSourcedApp
type EventSourcedAppList struct {
	metav1.TypeMeta `json:",inline"`
	metav1.ListMeta `json:"metadata,omitempty"`
	Items           []EventSourcedApp `json:"items"`
}

func init() {
	SchemeBuilder.Register(&EventSourcedApp{}, &EventSourcedAppList{})
}

这个 CRD 定义了应用的副本数、镜像和 ZooKeeper 连接信息。.status 字段则用于反馈应用的实时状态，如当前的 Leader 是谁。

接下来是 Controller 的核心逻辑——Reconcile 函数。这是 Operator 的大脑，它会被 controller-runtime 在 CR 发生变化或定期触发。

internal/controller/eventsourcedapp_controller.go

package controller

import (
	"context"
	"fmt"
	"time"
    "path"

	"github.com/go-zookeeper/zk"
	appsv1 "k8s.io/api/apps/v1"
	corev1 "k8s.io/api/core/v1"
	apierrors "k8s.io/apimachinery/pkg/api/errors"
	metav1 "k8s.io/apimachinery/pkg/apis/meta/v1"
	"k8s.io/apimachinery/pkg/runtime"
	"k8s.io/apimachinery/pkg/types"
	ctrl "sigs.k8s.io/controller-runtime"
	"sigs.k8s.io/controller-runtime/pkg/client"
	"sigs.k8s.io/controller-runtime/pkg/log"

	esv1alpha1 "github.com/your-org/es-operator/api/v1alpha1"
)

// EventSourcedAppReconciler reconciles a EventSourcedApp object
type EventSourcedAppReconciler struct {
	client.Client
	Scheme *runtime.Scheme
}

//+kubebuilder:rbac:groups=es.your.domain,resources=eventsourcedapps,verbs=get;list;watch;create;update;patch;delete
//+kubebuilder:rbac:groups=es.your.domain,resources=eventsourcedapps/status,verbs=get;update;patch
//+kubebuilder:rbac:groups=es.your.domain,resources=eventsourcedapps/finalizers,verbs=update
//+kubebuilder:rbac:groups=apps,resources=statefulsets,verbs=get;list;watch;create;update;patch;delete

func (r *EventSourcedAppReconciler) Reconcile(ctx context.Context, req ctrl.Request) (ctrl.Result, error) {
	logger := log.FromContext(ctx)
	logger.Info("Reconciliation loop started")

	// 1. 获取 EventSourcedApp 实例
	var esApp esv1alpha1.EventSourcedApp
	if err := r.Get(ctx, req.NamespacedName, &esApp); err != nil {
		if apierrors.IsNotFound(err) {
			logger.Info("EventSourcedApp resource not found. Ignoring since object must be deleted.")
			return ctrl.Result{}, nil
		}
		logger.Error(err, "Failed to get EventSourcedApp")
		return ctrl.Result{}, err
	}

	// 2. 初始化 ZooKeeper 连接并确保根路径存在
    // 在生产环境中，ZK 客户端应该被更稳健地管理，例如作为 Reconciler 的一个字段，并处理重连逻辑。
	zkConn, _, err := zk.Connect([]string{esApp.Spec.ZookeeperConnectString}, time.Second*5)
	if err != nil {
		logger.Error(err, "Failed to connect to Zookeeper")
		// 更新状态，并重试
		// ... 这里可以添加状态更新逻辑
		return ctrl.Result{RequeueAfter: 10 * time.Second}, err
	}
	defer zkConn.Close()

	err = r.ensureZkPath(zkConn, esApp.Spec.ZookeeperRootPath)
	if err != nil {
		logger.Error(err, "Failed to ensure base path in Zookeeper")
		return ctrl.Result{RequeueAfter: 10 * time.Second}, err
	}

	// 3. 管理 StatefulSet
	sts := &appsv1.StatefulSet{}
	err = r.Get(ctx, types.NamespacedName{Name: esApp.Name, Namespace: esApp.Namespace}, sts)
	if err != nil && apierrors.IsNotFound(err) {
		// StatefulSet 不存在，创建它
		logger.Info("Creating a new StatefulSet", "StatefulSet.Namespace", esApp.Namespace, "StatefulSet.Name", esApp.Name)
		newSts := r.desiredStatefulSet(&esApp)
		if err := ctrl.SetControllerReference(&esApp, newSts, r.Scheme); err != nil {
			logger.Error(err, "Failed to set owner reference on StatefulSet")
			return ctrl.Result{}, err
		}
		if err := r.Create(ctx, newSts); err != nil {
			logger.Error(err, "Failed to create new StatefulSet", "StatefulSet.Namespace", newSts.Namespace, "StatefulSet.Name", newSts.Name)
			return ctrl.Result{}, err
		}
		// 创建成功后，重新排队以更新状态
		return ctrl.Result{Requeue: true}, nil
	} else if err != nil {
		logger.Error(err, "Failed to get StatefulSet")
		return ctrl.Result{}, err
	}

	// 4. 对比期望状态和当前状态，如果需要则更新 StatefulSet
	if *sts.Spec.Replicas != esApp.Spec.Replicas {
		logger.Info("Updating StatefulSet replica count", "current", *sts.Spec.Replicas, "desired", esApp.Spec.Replicas)
		sts.Spec.Replicas = &esApp.Spec.Replicas
		if err := r.Update(ctx, sts); err != nil {
			logger.Error(err, "Failed to update StatefulSet")
			return ctrl.Result{}, err
		}
	}
    // 其他需要同步的字段，如镜像版本，也可以在这里处理。

	// 5. 从 Zookeeper 获取 Leader 信息并更新 Status
	leaderPath := path.Join(esApp.Spec.ZookeeperRootPath, "leader")
	leaderData, _, err := zkConn.Get(leaderPath)
	if err != nil && err != zk.ErrNoNode {
		logger.Error(err, "Failed to get leader info from Zookeeper")
        // 即使获取失败，也不应该中断整个调谐循环。
	} else {
        leaderHostname := string(leaderData)
        if esApp.Status.Leader != leaderHostname {
            esApp.Status.Leader = leaderHostname
        }
	}
    
    esApp.Status.ActiveReplicas = sts.Status.ReadyReplicas
    // 更新 CR 的 status
    if err := r.Status().Update(ctx, &esApp); err != nil {
        logger.Error(err, "Failed to update EventSourcedApp status")
        return ctrl.Result{}, err
    }

	logger.Info("Reconciliation loop finished successfully")
	return ctrl.Result{}, nil
}

// ensureZkPath 确保 Zookeeper 中的路径存在，这是一个幂等操作。
func (r *EventSourcedAppReconciler) ensureZkPath(conn *zk.Conn, zkPath string) error {
	exists, _, err := conn.Exists(zkPath)
	if err != nil {
		return err
	}
	if !exists {
		// ZooKeeper 的 Create 函数不会递归创建，这里的实现做了简化。
		// 生产代码需要一个能够递归创建路径的函数。
		_, err := conn.Create(zkPath, []byte{}, 0, zk.WorldACL(zk.PermAll))
		if err != nil && err != zk.ErrNodeExists {
			return err
		}
	}
	return nil
}

// desiredStatefulSet 返回期望的 StatefulSet 定义
func (r *EventSourcedAppReconciler) desiredStatefulSet(app *esv1alpha1.EventSourcedApp) *appsv1.StatefulSet {
	labels := map[string]string{"app": app.Name}
	return &appsv1.StatefulSet{
		ObjectMeta: metav1.ObjectMeta{
			Name:      app.Name,
			Namespace: app.Namespace,
			Labels:    labels,
		},
		Spec: appsv1.StatefulSetSpec{
			Replicas: &app.Spec.Replicas,
			Selector: &metav1.LabelSelector{
				MatchLabels: labels,
			},
			ServiceName: app.Name, // 需要一个 Headless Service
			Template: corev1.PodTemplateSpec{
				ObjectMeta: metav1.ObjectMeta{
					Labels: labels,
				},
				Spec: corev1.PodSpec{
					Containers: []corev1.Container{{
						Name:  "es-app",
						Image: app.Spec.Image,
						Ports: []corev1.ContainerPort{{
							ContainerPort: 8080,
							Name:          "http",
						}},
						// 环境变量是向应用 Pod 传递配置的关键
						Env: []corev1.EnvVar{
							{
								Name: "POD_NAME",
								ValueFrom: &corev1.EnvVarSource{
									FieldRef: &corev1.ObjectFieldSelector{
										FieldPath: "metadata.name",
									},
								},
							},
							{
								Name:  "ZK_CONNECT_STRING",
								Value: app.Spec.ZookeeperConnectString,
							},
							{
								Name:  "ZK_ROOT_PATH",
								Value: app.Spec.ZookeeperRootPath,
							},
						},
					}},
				},
			},
		},
	}
}

// SetupWithManager sets up the controller with the Manager.
func (r *EventSourcedAppReconciler) SetupWithManager(mgr ctrl.Manager) error {
	return ctrl.NewControllerManagedBy(mgr).
		For(&esv1alpha1.EventSourcedApp{}).
		Owns(&appsv1.StatefulSet{}). // Operator 拥有 StatefulSet，会监听其变化
		Complete(r)
}

这段代码展示了调谐循环的核心步骤：

获取实例: 拉取当前需要处理的 EventSourcedApp 资源。
外部依赖检查: 连接 ZooKeeper 并确保应用所需的基础 ZNode 存在。这是一个典型的与外部系统交互的例子。这里的坑在于，ZooKeeper 连接可能会失败或超时，必须设计好重试逻辑（RequeueAfter）。
核心资源管理: 检查对应的 StatefulSet 是否存在。如果不存在，则根据 desiredStatefulSet 函数生成期望的配置并创建它。SetControllerReference 是关键，它建立了 CR 与 StatefulSet 之间的父子关系，确保当 CR 被删除时，由它创建的 StatefulSet 也会被 K8s 的垃圾回收机制清理。
状态同步: 如果 StatefulSet 已存在，则比较其 spec 与 CR 中的 spec 是否一致。例如，用户可能通过修改 CR 的 YAML 文件将副本数从3调整到5，Operator 在这里检测到差异并更新 StatefulSet。
状态反馈: 从 ZooKeeper 读取应用层面的状态（领导者信息），并连同 StatefulSet 的状态（就绪副本数）一起更新到 CR 的 .status 字段。这闭合了控制循环。

单元测试思路：
对 Reconciler 的测试可以使用 envtest 库，它能启动一个临时的 etcd 和 kube-apiserver。测试用例可以覆盖：

当 EventSourcedApp CR 被创建时，是否正确创建了 StatefulSet。
当 EventSourcedApp CR 的 replicas 字段被更新时，StatefulSet 的 replicas 是否也被更新。
模拟 ZooKeeper 客户端，测试当 Operator 从 ZooKeeper 读到 leader 信息时，CR 的 .status.leader 字段是否被正确更新。
当 EventSourcedApp CR 被删除时，StatefulSet 是否被级联删除。

当前方案的局限性与未来展望

这个 Operator 实现了一个基础但健壮的管理框架，然而在生产环境中，它还有一些需要完善的地方。
首先，当前对 ZooKeeper 的交互非常简单。生产级的 Operator 需要处理更复杂的 ZooKeeper 场景，例如会话过期的处理、ACL 的配置、以及更复杂的 ZNode 结构管理。此外，ZK 客户端的管理也过于粗糙，在 Reconciler 中每次都新建连接和关闭是低效的，应该在 Operator 启动时初始化一个共享的、带重连逻辑的客户端。

其次，升级逻辑尚未实现。当 spec.image 发生变化时，Operator 应该能协调 StatefulSet 的滚动更新。对于事件溯源应用，这可能不仅仅是简单的 Pod 替换，还可能涉及事件存储的 Schema 迁移或快照版本的兼容性问题。一个更高级的 Operator 需要能够编排这种复杂的、有状态的升级流程，例如，先升级从节点，验证无误后，再触发领导者切换，最后升级旧的领导者。

最后，Operator 对应用内部的健康状况感知有限。它目前只知道 Pod 是否 Ready。我们可以通过在 CRD 中定义更详细的健康检查策略，让 Operator exec 到 Pod 内部执行特定的健康检查命令，或者从 Pod 暴露的 /health 端点获取更丰富的状态信息，从而做出更智能的调度和修复决策。

尽管存在这些待办事项，但通过 Operator 模式，我们已经将一个复杂的、依赖外部协调的分布式系统，成功地封装成了一个 Kubernetes 原生的、声明式的资源。这极大地降低了运维该系统的复杂度，并为未来的自动化、智能化运维打下了坚实的基础。下一步的迭代方向将是深化其对应用生命周期事件的感知和处理能力，使其从一个“部署者”演进为一个真正的“智能管家”。

Go Zookeeper Kubernetes Event Sourcing BASE

为基于Quarkus的Trino查询网关实现深入引擎的端到端分布式追踪

2023-10-27 可观测性

Java Quarkus Presto / Trino Datadog Observability

基于关系型数据库构建可插拔式NLP处理引擎的整洁架构实践

2023-10-27 软件架构

SQL 软件工程与架构 NLP Clean Architecture Python