百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

Undertow 可观测性最佳实践(可观测性定义)

myzbx 2025-07-28 19:08 6 浏览

Undertow 介绍

Undertow 是 Red Hat 开发的一款高性能、灵活的 Java Web 服务器,也是 WildFly 应用服务器的嵌入式组件。它支持非阻塞 I/O,基于 NIO 构建,并提供了 HTTP/2、WebSockets 和 Servlet 4.0 等现代 Web 技术支持。Undertow 以其轻量级、嵌入式友好 的特性而闻名,开发者可以轻松将其集成到自己的应用程序中,也可以作为独立服务器运行。它的模块化设计允许用户按需选择所需功能,从而实现低资源占用和高吞吐量。

Undertow 可观测性在现代应用中至关重要。APM 虽能展示 HTTP 请求的端到端耗时,但它们无法直接揭示 Undertow 内部处理请求的细节。

Undertow 线程池配置不当可能导致:

  • 请求排队:线程不足时,新请求等待处理,APM 中表现为 HTTP 请求耗时增加。
  • 资源浪费或瓶颈转移:线程过多会增加上下文切换开销,甚至将压力转嫁给下游服务。

因此,监控 Undertow 的 XNIO Worker 线程数、活跃线程数、任务队列大小等指标,能有效识别请求处理瓶颈,确保系统高效稳定运行。

观测云

观测云是一款专为 IT 工程师打造的全链路可观测产品,它集成了基础设施监控、应用程序性能监控和日志管理,为整个技术栈提供实时可观察性。这款产品能够帮助工程师全面了解端到端的用户体验追踪,了解应用内函数的每一次调用,以及全面监控云时代的基础设施。此外,观测云还具备快速发现系统安全风险的能力,为数字化时代提供安全保障。

部署 DataKit

DataKit 是一个开源的、跨平台的数据收集和监控工具,由观测云开发并维护。它旨在帮助用户收集、处理和分析各种数据源,如日志、指标和事件,以便进行有效的监控和故障排查。DataKit 支持多种数据输入和输出格式,可以轻松集成到现有的监控系统中。

登录观测云控制台,在「集成」 - 「DataKit」选择对应安装方式,当前采用 Linux 主机部署 DataKit。

采集器配置

DataKit 配置

DataKit 安装完成后,可以自定义开启采集器,本集成需要开启如下两个采集器。

开启 StatsD 采集器

# 开启采集器
cp /usr/local/datakit/conf.d/statsd/statsd.conf.sample /usr/local/datakit/conf.d/statsd/statsd.conf
# 重启 Datakit
datakit service -R

开启链路采集

# 开启采集器
cp /usr/local/datakit/conf.d/ddtrace/ddtrace.conf.sample /usr/local/datakit/conf.d/ddtrace/ddtrace.conf
# 重启 Datakit
datakit service -R

客户端配置

场景环境:

jdk: 1.8.0_361 
spring-boot: 2.7.12-SNAPSHOT
undertow:2.2.24.Final 

备注: 不同版本指标可能会有差异。

以 Java Demo 应用为例,使用 undertow 作为 web 容器配置。

##启用 Undertow pom 配置
<dependency>
   <groupId>org.springframework.boot</groupId>
   <artifactId>spring-boot-starter-web</artifactId>
   <exclusions>
      <exclusion>
         <groupId>org.springframework.boot</groupId>
         <artifactId>spring-boot-starter-tomcat</artifactId>
      </exclusion>
   </exclusions>
</dependency>
<dependency>
   <groupId>org.springframework.boot</groupId>
   <artifactId>spring-boot-starter-undertow</artifactId>
</dependency>

Demo 项目中 undertow 运行配置如下:

server.port=8080
server.undertow.threads.worker=10
server.undertow.threads.io=2

接入 APM ,配置采集 jmx ,应用启动增加如下参数,启动命令如下:

java \
-javaagent:/xxx/dd-java-agent.jar \
-Ddd.agent.port=9529 \
-Ddd.service=demo \
-Ddd.jmxfetch.check-period=1000 \
-Ddd.jmxfetch.enabled=true \
-Ddd.jmxfetch.config.dir=/xxx/ \
-Ddd.jmxfetch.config=undertow.yaml \
-jar xxxx.jar 

dd-java-agent.jar Guance 版下载地址:

wget -O dd-java-agent.jar 'https://static.guance.com/dd-image/dd-java-agent.jar'

其中 -Ddd.jmxfetch.config.dir 和 -Ddd.jmxfetch.config=undertow.yaml 需要把 undertow.yaml 放到 Java 启动可以读取到的地址。

undertow.yaml 内容如下,无需修改。

init_config:

instances:
  - jvm_direct: true
    name: undertow-monitoring
    collect_default_jvm_metrics: false
    collect_default_metrics: false
    refresh_beans: 60
    conf:
      - include:
          bean_regex: "org.xnio:type=Xnio,provider=\"nio\",worker=\"XNIO-.*\""
          attribute:
            IoThreadCount:
              metric_type: gauge
              alias: undertow.io.thread.count
      - include:
          bean_regex: "jboss.threads:name=\"XNIO-.*\",type=thread-pool"
          attribute:
            CorePoolSize:
              metric_type: gauge
              alias: undertow.core.pool.size
            MaximumPoolSize:
              metric_type: gauge
              alias: undertow.max.pool.size
            ActiveCount:
              metric_type: gauge
              alias: undertow.active.count
            LargestPoolSize:
              metric_type: gauge
              alias: undertow.largest.pool.size
            CompletedTaskCount:
              metric_type: gauge
              alias: undertow.completed.task.count
            PoolSize:
              metric_type: gauge
              alias: undertow.pool.size
            GrowthResistance:
              metric_type: gauge
              alias: undertow.growth.resistance
            MaximumQueueSize:
              metric_type: gauge
              alias: undertow.max.queue.size
            LargestQueueSize:
              metric_type: gauge
              alias: undertow.largest.queue.size
            SubmittedTaskCount:
              metric_type: gauge
              alias: undertow.submitted.task.count
            RejectedTaskCount:
              metric_type: gauge
              alias: undertow.rejected.task.count
            SpinMissCount:
              metric_type: gauge
              alias: undertow.spin.miss.count
            QueueSize:
              metric_type: gauge
              alias: undertow.queue.size
            KeepAliveTimeSeconds:
              metric_type: gauge
              alias: undertow.keep.alive.time.seconds

关键指标

指标集:undertow

指标

描述

用途

active_count

活跃线程数

当前线程池中正在执行任务的线程数量。

completed_task_count

已完成任务数

线程池自启动以来已完成的任务总数。

core_pool_size

核心线程池大小

线程池中始终保持活动的线程数,即使它们处于空闲状态。

io_thread_count

I/O 线程数

Undertow 底层 XNIO 框架用于处理网络 I/O 事件(如接受连接、读写数据)的线程数量。

keep_alive_time_seconds

线程保持活跃时间

当线程数超过核心线程数时,多余的空闲线程在被终止前可以等待的时间。

largest_pool_size

历史最大线程池大小

线程池自启动以来达到的最大线程数量。

largest_queue_size

历史最大队列大小

任务队列自启动以来达到的最大任务数量。

max_pool_size

最大线程池大小

线程池允许创建的最大线程数量。这是一个关键的配置参数,限制了并发处理能力。

max_queue_size

最大队列大小

任务队列可以容纳的最大任务数量。

pool_size

当前线程池大小

当前线程池中的总线程数量(包括活跃和空闲线程)。

queue_size

当前队列大小

当前在任务队列中等待被执行的任务数量。持续增长通常表示处理能力不足。

rejected_task_count

被拒绝任务数

由于线程池已满(线程数达到最大且队列已满)或拒绝策略触发,而被拒绝执行的任务数量。这是一个重要的过载指标。

场景视图

登录观测云控制台,点击「场景」 -「新建仪表板」,输入 “Undertow”, 选择 “Undertow监控视图”,点击 “确定” 即可添加视图。

监控器(告警)

Undertow 排队请求数监控

简要描述:检测指标 queue_size , 5分钟内超过100触发告警,如下图:

Undertow 线程池使用率监控

简要描述:检测指标 pool_size/max_pool_size , 5分钟内超过90% 触发告警,如下图:

总结

这些指标提供了 Undertow 线程池运行状态的全面视图,帮助开发者和运维人员监控和优化线程池的性能。通过合理配置和监控这些指标,可以确保线程池在高并发场景下高效运行,同时避免资源浪费和性能瓶颈。

相关推荐

别让水 “跑” 出卫生间!下沉设计打造滴水不漏的家

你是否遭遇过卫生间的水“偷偷溜”进客厅,导致木地板鼓起、墙角发霉的糟心事?又是否为卫生间门口反复渗漏,不得不一次次返工维修而头疼不已?在家庭装修中,卫生间防水堪称“兵家必争之地”,而卫生间门口下...

歼-10CE vs 阵风:谁才是空中霸主?全面性能对比解析

歼10CE与法国阵风战斗机性能深度对比分析一、总体定位与设计哲学歼10CE:单发中型多用途战斗机,侧重于空优(制空权争夺)和对地对海打击,具有较高的性价比和较强的多任务能力。法国阵风战斗机:双发中型多...

知名移植工作室肯定Switch2的图形性能,却被CPU拖了后腿

虽然Switch2发售多日,但没入手的玩家对其性能还是有顾虑。近日,知名移植工作室Virtuos的技术总监在接受采访时讨论了Switch2的性能,并给出了他们工作室的评价。简单来说,Switch2在D...

虹科实测 | CAN XL vs CAN FD传输性能深度对比:速率翻倍,抖动锐减!

导读在汽车电子与工业通信领域,CAN协议持续进化,推动着数据传输效率的提升。本次实测基于虹科PCAN-USBXL与虹科PCAN-USBProFD硬件,在同等严苛条件下对比CANXL与CANF...

1J117合金材料优异的耐腐蚀性、机械性能

1J117合金材料概述定义:1J117是一种不锈软磁精密合金,属于铁铬基合金,其圆棒产品具有特定的形状和尺寸,可满足各种工业应用中的特定需求。标准:技术条件标准为GB/T14986,品种规格标准...

据高管所称,Switch2能轻松移植XSS平台60帧游戏

任天堂,作为主机游戏界的御三家之一,一直注重游戏性而不注重更新升级硬件设备是其最大的特点。各位任豚们,忍受着任天堂早已落后硬件设备,真想感叹一句,天下苦任久矣!但Switch2的出现或许正在渐渐的改变...

FJK-110LED-HXJSN磁传感器有哪应用

作为一名从事电子技术相关工作的自媒体人,我经常会遇到各种传感器的应用问题。其中,FJK-110LED-HXJSN磁传感器是一款在工业自动化、智能设备等领域比较常见的磁场检测元件。今天我想和大家聊一聊这...

浅谈欧标方管200x200x5-12mm质S275JRH的优势与劣势

欧标方管200x200x5-12mm材质S275JRH是一种常见的结构用钢材,广泛应用于建筑、机械制造、桥梁、钢结构等领域。本文将对这种方管的优势与劣势进行浅谈,以帮助读者更好地了解其特性和适用场景。...

宽带拨号错误 651 全解析:故障定位与修复方案

在使用PPPoE拨号连接互联网时,错误651提示「调制解调器或其他连接设备报告错误」,通常表明从用户终端到运营商机房的链路中存在异常。以下从硬件、系统、网络三层维度展开排查:一、故障成因分类图...

模型微调:从理论到实践的深度解析

在人工智能领域,模型微调已成为提升模型性能、使其适应特定任务的关键技术。本文将全面系统地介绍模型微调的各个方面,帮助读者深入理解这一重要技术。一、什么是模型微调模型微调是指在已经训练好的预训练模型基础...

汉语拼音 z、c、s图文讲解(拼音字母表zcs教学视频)

以下是汉语拼音z、c、s的图文讲解,结合发音要领、书写规范及教学技巧:一、发音方法与口诀1.z的发音发音要领:舌尖轻抵上齿背,形成阻碍后稍放松,气流从窄缝中挤出,声带不振动(轻短音)。口诀:“写字写...

吴姗儒惹怒刘宇宁粉丝!吴宗宪护航「是综艺梗」叮咛女儿对话曝光

记者孟育民/台北报道Sandy吴姗儒在《小姐不熙娣》因为节目效果,将男星刘宇宁的头像踩在地上,引起粉丝怒火,节目发声明道歉后仍未平息,她也亲自发文郑重道歉:「我对刘宇宁本人完全没有任何恶意,却在综艺表...

苹果错误地发布了macOS Tahoe公开测试版 现已将其撤下

一些Beta测试人员下载了他们以为是macOSSequoia15.6RC的版本,但却错误地下载了macOSTahoe26公开测试版,后来苹果修复了该问题。苹果预计将于7月25...

make的多种用法!(make 的用法总结)

一、make的用法美make[meik]①V.制造;制定,拟定;使变得,使处于;造成,引起;整理(床铺);做,作出;强迫;挑选,任命…②n.(机器、设备等的)品牌,型号;结构,构造;通电,接电⑤[...

北顿尖刀哗变?俄第20近卫集团军损失惨重,拒绝执行指挥官命令?

【军武次位面】作者:太白近日,外国社交媒体“电报”上传出了一些消息,称俄罗斯在北顿涅兹克战场上的“尖刀”部队之一,俄第20近卫集团军因为损失惨重,已经出现了部分部队拒绝执行指挥官命令,甚至哗变的情况。...