ERPC Solana 网络重大升级

ERPC Solana 网络重大升级

2026.02.07
由 ELSOUL LABO B.V.(总部:荷兰阿姆斯特丹,CEO:Fumitake Kawasaki)与 Validators DAO 运营的 ERPC,完成了对其 Solana 网络基础设施的重大升级。
此次升级已应用于 ERPC 提供的所有区域和所有共享端点(Solana RPC、Geyser gRPC 和 Shredstream)。我们将往往直接影响实际运营结果的基础设施行为作为整合系统进行更新,包括连接初始化、TLS 处理、缓存控制、HTTP/1.1 和 HTTP/2 传输、长连接行为,以及用于可观测性和故障排查的指标。
在维持日常响应性的基础上,我们还重新组织了底层网络行为,使其在容易导致结果退化的场景中——如峰值负载波动、持续运营下的不稳定性,以及断连和重连触发的级联——更不容易产生偏差或不稳定。因此,该环境现在更好地结构化,能够在实际 Solana 运营中同时维持性能和稳定性。
此外,我们已过渡到可以在完全零停机时间下应用网络配置变更和平台升级的运营架构。定价、规格、认证或速率限制均无变化,现有 ERPC 客户无需任何额外设置或运营变更即可享受升级带来的收益。

背景

在实际的 Solana 运营中,平均响应时间和正常时段延迟是关键的基线要求。同时,存在一些底层网络基础设施行为本身决定结果的场景——如负载集中时刻、长连接,以及断连和重连发生的阶段。
共享端点尤其需要同时适应短时间窗口内的交易提交突发和通过 WebSocket 及 gRPC 的持续连接。在这些条件下,基础设施层面的行为——连接初始化、TLS 握手、传输行为、缓存处理和从空闲状态恢复——直接反映到用户体验和执行结果中。
以平均响应性为明确基线,在峰值或持续运营期间,实际结果仍可能由不同因素决定。因此,实际运营要求日常可用性和容易出现故障的场景中的连续性同时实现。
ERPC 设计并运营自己的 Rust 高性能代理平台作为 Solana 通信的基础,维持在所有区域应用相同方法的架构,同时持续演进平台。此次升级将运营中观测到的问题作为统一系统重新审视——从连接初始化到长时间运行——并相应地重新组织整个网络基础。

ERPC 客户有何变化

通过此次更新,ERPC 客户首先会看到连接初始化行为的稳定化。在包括 TLS 的连接建立过程中,不匹配条件和不必要的重试不太可能发生,使交易和流更容易在起始时可靠地进入处理。
其次,我们重新组织了在峰值负载期间容易造成波动的基础设施行为。通过将不必要连接的早期过滤与 HTTP/1.1 和 HTTP/2 传输及超时一致性、连接池健康度、竞争下的缓存行为,以及用于可观测性和故障排查的指标的同步更新相结合,我们加强了即使在负载集中时也有助于防止行为偏差的条件。
对于长连接的 WebSocket 和 gRPC 流以及持续监控工作负载,连接连续性得到了改善。断连/重连/重新同步事件的频率——以及这些事件级联影响结果的可能性——已降低,使基于持续运行时间假设来构建运营变得更加容易。
缓存控制和传输行为的改进也减少了拥堵期间不必要的重新获取和浪费处理的可能性。带宽和处理余量更可能保持可用和稳定,扩展的指标和可观测性使根因识别和恢复时间线更容易缩短。
此外,通过实现零停机的配置变更和平台升级,我们建立了能够以高频率提升性能、稳定性和整体平台质量的运营条件。不暂停平台就能持续改进的能力进一步加强了客户的连续性。

改进详情

此次升级不是以特定功能名称或版本号驱动的发布来呈现的。相反,它将往往主导实际 Solana 结果的场景分解为以下层——连接初始化、TLS、L4/HTTP 边界、H1/H2 传输、缓存、可观测性、故障行为和长期运营先决条件——并更新平台使这些层之间不产生矛盾地连接。
以下,我们从对客户体验和运营结果的贡献角度解释所纳入的改进。

连接初始化和 TLS 处理的改进

我们扩展了连接建立期间处理的 TLS 上下文,并更新了结构使所需状态能够适当地保留和应用。这使得连接初始化时的不匹配条件和不必要重试不太可能发生。
我们还重新组织了 TLS 处理——包括证书验证和主机名验证——使安全要求能够在减少握手失败或处理不一致造成初始化损失级联影响结果的条件的同时得到满足。这不仅仅是安全增强;它有助于稳定从连接开始到进入 Solana 工作负载处理的行为。
我们进一步加强了使 TLS 相关行为更容易观测和排查的机制。在初始化主导结果的场景中,复现问题、识别原因和快速反映修复的能力成为维护体验质量的核心能力。

通过早期过滤不必要连接来保持余量

我们引入了在早期阶段过滤 TCP 连接的机制,更新了平台使非法或不必要的连接不太可能对合法流量施加压力。在共享端点中,连接请求可能因外部因素或暂时性偏差而激增。
早期过滤有助于确保合法连接不太可能在初始化时停滞,提高在峰值负载期间保持余量可用的可能性。因此,即使在负载集中场景中行为也不太可能出现偏差,稳定延迟分布的条件得到加强。

通过重新组织 L4/HTTP 边界来明确连接模型

网络基础设施不止于 HTTP。连接建立和连续性取决于 L4 条件,该层的波动会传播到更高层协议体验。
在此次更新中,我们抽象了 L4 流处理并重新组织了结构,使连接模型能够更明确地处理。这使平台在连接持续增长、客户端实现各异、长时间运行导致状态转换的场景中更容易维持一致行为。
重试行为也被重新组织,以减少短期波动级联到用户体验的模式。实际稳定性更多取决于防止故障级联,而非消除孤立故障。

HTTP/1.1 和 HTTP/2 传输及长时间运行行为的改进

我们添加了可以跨 HTTP/1.1 和 HTTP/2 一致跟踪传输数据量的测量。这使得更容易识别传输管道中停滞或瓶颈发生的位置,改善了故障排查和修复应用的速度。
我们还重新组织了 HTTP/2 body-write 超时行为,使不自然的停滞和挂起在集中负载或长时间流媒体期间不太可能发生。在长时间运行中,重要的不是理想状态下的峰值性能,而是在状态转换期间防止行为崩溃的能力。
空闲超时行为和连接池处理也已审查,消除了在持续运行时间中容易累积的不稳定因素。在 HTTP/1.1 方面,我们重新组织了持有不完整请求的连接的安全关闭行为,减少了资源使用和行为方面的波动源。

缓存控制和运营质量的改进

我们改善了跟踪资产未被缓存原因的能力,增加了缓存行为的可解释性。在实践中,主导因素不是缓存是否存在,而是在什么条件下被应用以及在什么条件下失效。
我们重新组织了锁定行为、过期处理和重新验证模式,使体验退化在峰值负载下发生竞争时不太可能级联。我们还组织了缓存资产数量增长时的驱逐控制,并优化了部分内容行为(包括 Range 请求),加强了在实际工作负载下减少不必要重新获取和延迟的条件。
这些改进减少了缓存行为成为异常值的情况,使客户不太可能需要围绕基础设施层面的不确定性来设计运营。

故障行为、日志和可观测性的改进

故障行为和日志已重新组织,使问题发生时更容易理解发生了什么。下游错误级联到缓存/传输行为并恶化体验的模式减少了,使爆炸半径更容易本地化。
可观测性和故障排查的改进不是为了宣称"零事故",而是为了在事故发生时缩短恢复时间。这降低了峰值负载和持续运营场景中的风险。

依赖项更新和安全修复作为长期运营先决条件

我们纳入了依赖项更新和安全修复,以维持长期平台运营的先决条件。这包括与最低支持 Rust 版本(MSRV)和 CI 对齐相关的更新,加强了持续演进平台所需的基础。
能够安全地持续更新,本身就是长期质量的要求。

向零停机运营的过渡

此前,网络配置变更或平台升级期间可能出现短暂停机。通过此次更新,我们已过渡到可以在完全零停机下应用这些操作的架构。
共享端点拥有持续连接和时机至关重要的连续时刻。即使是短暂的停机也可能触发断连、重连和重新同步级联,这一成本可能传播到结果中。零停机更新减少了这些级联的可能性,防止长时间运行的操作被碎片化。
同时,ERPC 现在具备了能够快速将观测到的问题反映到改进中的运营条件。更高的迭代频率使我们能够在生产运营中持续消除波动和边缘情况行为。

按服务的影响

Solana RPC(HTTP / WebSocket)

连接初始化、TLS、缓存控制和传输行为的改进影响数据读取和交易提交两方面。在维持日常可用性的同时,减少了在峰值负载期间使结果产生偏差的因素,加强了在拥堵期间保持余量的条件。

Geyser gRPC

长连接流媒体使用的连接连续性得到改善。HTTP/2 传输、超时一致性、连接池健康度和扩展的传输测量协同工作,降低了重连/重新同步成本传播到结果中的可能性。

Shredstream(Direct Shreds)

通过为持续交付设计的连接管理和初始化改进,在拥堵期间数据丢失或延迟的条件得到加强。检测和跟随的稳定连续性变得更容易维持。

连接研发与生产运营

包括 ERPC 在内的分布式系统基础已被认定为荷兰政府 WBSO 计划下的研发项目。建立了一个运营中观测到的问题可以作为研究课题纳入并通过验证和迭代加以改进的结构。
这一网络基础更新是在所有区域应用的此类迭代之一,反映到实际性能和稳定性中。保持运营和研发的连接是将生产中观测到的内容持续连接到下一次更新的先决条件,而不是停留在一次性改进。
在 ERPC 内部,实际使用模式、负载变动和故障模式行为被纳入反复的验证和改进周期中,逐步提高网络基础的质量。此次更新是在研发与生产运营的整合框架内执行的。

客户信息

此次更新已应用于所有区域和所有共享端点。现有 ERPC 客户无需更改配置或运营。定价、规格、认证或速率限制均无变化。
由于共享端点必须同时承受短暂的峰值和长连接,条件已重新组织,使行为在这些混合工作负载下不太可能出现偏差。即使在运营期间发生配置变更或平台更新,变更也会以零停机方式应用,因此客户无需为连接碎片化或重新同步进行预设。
有关架构、特定工作负载优化或运营反馈的问题,请通过 Validators DAO 官方 Discord 联系。
通过将生产中的观测和反馈持续连接到改进中,ERPC 已逐步提升了其基础质量。我们将继续以零停机积累改进,提供能够维持实际 Solana 运营结果的网络基础设施。
Validators DAO 官方 Discord:https://discord.gg/C7ZQSrCkYR ERPC 官方网站:https://erpc.global/en