概述

指标是 Hadoop 守护程序公开的统计信息,用于监控、性能调整和调试。默认情况下,有许多指标可用,它们对于故障排除非常有用。此页面显示可用指标的详细信息。

每个部分都描述了指标分组到的各个上下文。

Metrics 2.0 框架的文档在此处

jvm 上下文

JvmMetrics

每个指标记录都包含标签,例如 ProcessName、SessionID 和 Hostname,以及指标的其他信息。

名称 描述
MemNonHeapUsedM 当前使用的非堆内存(MB)
MemNonHeapCommittedM 当前已提交的非堆内存(MB)
MemNonHeapMaxM 非堆内存大小(MB)
MemHeapUsedM 当前堆内存使用量(MB)
MemHeapCommittedM 当前堆内存提交量(MB)
MemHeapMaxM 堆内存大小(MB)
MemMaxM 内存大小(MB)
ThreadsNew 当前 NEW 线程数
ThreadsRunnable 当前 RUNNABLE 线程数
ThreadsBlocked 当前 BLOCKED 线程数
ThreadsWaiting 当前 WAITING 线程数
ThreadsTimedWaiting 当前 TIMED_WAITING 线程数
ThreadsTerminated 当前 TERMINATED 线程数
GcInfo 按 GC 类型分组的 GC 总数和 GC 时间(毫秒)。 例如)GcCountPS Scavenge=6, GCTimeMillisPS Scavenge=40, GCCountPS MarkSweep=0, GCTimeMillisPS MarkSweep=0
GcCount GC 总数
GcTimeMillis GC 总时间(毫秒)
LogFatal FATAL 日志总数
LogError ERROR 日志总数
LogWarn WARN 日志总数
LogInfo INFO 日志总数
GcNumWarnThresholdExceeded GC 警告阈值超出的次数
GcNumInfoThresholdExceeded GC 信息阈值超出的次数
GcTotalExtraSleepTime GC 额外睡眠时间(毫秒)
GcTimePercentage 如果 dfs.namenode.gc.time.monitor.enable 设置为 true,则在观察窗口内 JVM 花费在 GC 暂停上的时间百分比 (0..100)。使用 dfs.namenode.gc.time.monitor.sleep.interval.ms 指定睡眠间隔(毫秒)。使用 dfs.namenode.gc.time.monitor.observation.window.ms 指定观察窗口(毫秒)。

rpc 上下文

rpc

每个指标记录都包含标签,例如主机名和端口(服务器绑定的编号)以及指标的其他信息。rpc.metrics.timeunit 配置可用于配置 RPC 指标的时间单位。RPC 指标使用的默认时间单位是毫秒(如下所述)。

名称 描述
ReceivedBytes 接收的字节总数
SentBytes 发送的字节总数
RpcQueueTimeNumOps RPC 调用总数
RpcQueueTimeAvgTime 平均队列时间(毫秒)
RpcLockWaitTimeNumOps RPC 调用总数(与 RpcQueueTimeNumOps 相同)
RpcLockWaitTimeAvgTime 等待获取锁的平均时间(毫秒)
RpcProcessingTimeNumOps RPC 调用总数(与 RpcQueueTimeNumOps 相同)
RpcProcessingAvgTime 平均处理时间(毫秒)
RpcAuthenticationFailures 身份验证失败总数
RpcAuthenticationSuccesses 身份验证成功总数
RpcAuthorizationFailures 授权失败总数
RpcAuthorizationSuccesses 授权成功总数
NumOpenConnections 当前打开的连接数
CallQueueLength 当前调用队列长度
numDroppedConnections 已断开连接的总数
rpcQueueTimenumsNumOps 如果将 rpc.metrics.quantile.enable 设置为 true,则显示 RPC 调用的总数(num 秒粒度)。numrpc.metrics.percentiles.intervals 指定。
rpcQueueTimenums50thPercentileLatency 如果将 rpc.metrics.quantile.enable 设置为 true,则显示 RPC 队列时间的第 50 个百分位数(以毫秒为单位,num 秒粒度)。numrpc.metrics.percentiles.intervals 指定。
rpcQueueTimenums75thPercentileLatency 如果将 rpc.metrics.quantile.enable 设置为 true,则显示 RPC 队列时间的第 75 个百分位数(以毫秒为单位,num 秒粒度)。numrpc.metrics.percentiles.intervals 指定。
rpcQueueTimenums90thPercentileLatency 如果将 rpc.metrics.quantile.enable 设置为 true,则显示 RPC 队列时间的第 90 个百分位数(以毫秒为单位,num 秒粒度)。numrpc.metrics.percentiles.intervals 指定。
rpcQueueTimenums95thPercentileLatency 如果将 rpc.metrics.quantile.enable 设置为 true,则显示 RPC 队列时间的第 95 个百分位数(以毫秒为单位,num 秒粒度)。numrpc.metrics.percentiles.intervals 指定。
rpcQueueTimenums99thPercentileLatency 如果将 rpc.metrics.quantile.enable 设置为 true,则显示 RPC 队列时间的第 99 个百分位数(以毫秒为单位,num 秒粒度)。numrpc.metrics.percentiles.intervals 指定。
rpcProcessingTimenumsNumOps 如果将 rpc.metrics.quantile.enable 设置为 true,则显示 RPC 调用的总数(num 秒粒度)。numrpc.metrics.percentiles.intervals 指定。
rpcProcessingTimenums50thPercentileLatency 如果将 rpc.metrics.quantile.enable 设置为 true,则显示 RPC 处理时间的第 50 个百分位数(以毫秒为单位,num 秒粒度)。numrpc.metrics.percentiles.intervals 指定。
rpcProcessingTimenums75thPercentileLatency 如果将 rpc.metrics.quantile.enable 设置为 true,则显示 RPC 处理时间的第 75 个百分位数(以毫秒为单位,num 秒粒度)。numrpc.metrics.percentiles.intervals 指定。
rpcProcessingTimenums90thPercentileLatency 如果将 rpc.metrics.quantile.enable 设置为 true,则显示 RPC 处理时间的第 90 个百分位数(以毫秒为单位,num 秒粒度)。numrpc.metrics.percentiles.intervals 指定。
rpcProcessingTimenums95thPercentileLatency 如果将 rpc.metrics.quantile.enable 设置为 true,则显示 RPC 处理时间的第 95 个百分位数(以毫秒为单位,num 秒粒度)。numrpc.metrics.percentiles.intervals 指定。
rpcProcessingTimenums99thPercentileLatency 如果将 rpc.metrics.quantile.enable 设置为 true,则显示以毫秒为单位的 RPC 处理时间的第 99 个百分位(num 秒粒度)。numrpc.metrics.percentiles.intervals 指定。
rpcLockWaitTimenumsNumOps 如果将 rpc.metrics.quantile.enable 设置为 true,则显示 RPC 调用的总数(num 秒粒度)。numrpc.metrics.percentiles.intervals 指定。
rpcLockWaitTimenums50thPercentileLatency 如果将 rpc.metrics.quantile.enable 设置为 true,则显示以毫秒为单位的 RPC 锁等待时间的第 50 个百分位(num 秒粒度)。numrpc.metrics.percentiles.intervals 指定。
rpcLockWaitTimenums75thPercentileLatency 如果将 rpc.metrics.quantile.enable 设置为 true,则显示以毫秒为单位的 RPC 锁等待时间的第 75 个百分位(num 秒粒度)。numrpc.metrics.percentiles.intervals 指定。
rpcLockWaitTimenums90thPercentileLatency 如果将 rpc.metrics.quantile.enable 设置为 true,则显示以毫秒为单位的 RPC 锁等待时间的第 90 个百分位(num 秒粒度)。numrpc.metrics.percentiles.intervals 指定。
rpcLockWaitTimenums95thPercentileLatency 如果将 rpc.metrics.quantile.enable 设置为 true,则显示以毫秒为单位的 RPC 锁等待时间的第 95 个百分位(num 秒粒度)。numrpc.metrics.percentiles.intervals 指定。
rpcLockWaitTimenums99thPercentileLatency 如果将 rpc.metrics.quantile.enable 设置为 true,则显示以毫秒为单位的 RPC 锁等待时间的第 99 个百分位(num 秒粒度)。numrpc.metrics.percentiles.intervals 指定。
TotalRequests RPC 服务器处理的请求总数。
TotalRequestsPerSeconds RPC 服务器每秒处理的请求总数。

RetryCache/NameNodeRetryCache

RetryCache 指标可用于监控 NameNode 故障转移。每个指标记录都包含 Hostname 标记。

名称 描述
CacheHit RetryCache 命中总数
CacheCleared RetryCache 清除总数
CacheUpdated RetryCache 更新总数

FairCallQueue

只有在启用 FairCallQueue 时,FairCallQueue 指标才会存在。每个指标都针对每个优先级级别存在。

名称 描述
FairCallQueueSize_pPriority 优先级队列中当前的调用数
FairCallQueueOverflowedCalls_pPriority 优先级队列中溢出的调用总数

DecayRpcSchedulerDetailed

只有在使用 DecayRpcScheduler(启用 FairCallQueue)时,DecayRpcSchedulerDetailed 指标才会存在。它是 FairCallQueue 指标的补充。对于每个优先级级别,都会公开 rpcqueue 和 rpcprocessing 详细指标。

名称 描述
DecayRPCSchedulerPriority.Priority.RpcQueueTime 每个优先级的 RpcQueueTime 指标
DecayRPCSchedulerPriority.Priority.RpcProcessingTime 每个优先级的 RpcProcessingTime 指标

rpcdetailed 上下文

RPC 层以统一的方式公开 rpcdetailed 上下文指标。针对每个 RPC,会根据其名称公开两个指标。名为 “(RPC 方法名称)NumOps” 的指标表示方法调用的总数,名为 “(RPC 方法名称)AvgTime” 的指标以毫秒为单位显示方法调用的平均周转时间。请注意,AvgTime 指标不包括用于获取数据结构锁所花费的时间(请参阅 RpcLockWaitTimeAvgTime)。

rpcdetailed

每个指标记录都包含标签(例如主机名和端口(服务器绑定的编号)),作为指标的附加信息。

未调用的 RPC 的指标不包含在指标记录中。

名称 描述
methodnameNumOps 调用该方法的次数总数
methodnameAvgTime 该方法的平均周转时间(以毫秒为单位)

dfs 上下文

namenode

每个指标记录都包含标签(例如进程名称、会话 ID 和主机名),作为指标的附加信息。

名称 描述
CreateFileOps 创建的文件总数
FilesCreated 通过创建或 mkdir 操作创建的文件和目录总数
FilesAppended 追加的文件总数
GetBlockLocations getBlockLocations 操作的总数
FilesRenamed 重命名操作的总数(不是重命名的文件/目录数)
GetListingOps 目录列表操作的总数
DeleteFileOps 删除操作的总数
FilesDeleted 通过删除或重命名操作删除的文件和目录总数
FileInfoOps getFileInfo 和 getLinkFileInfo 操作的总数
AddBlockOps 成功的 addBlock 操作的总数
GetAdditionalDatanodeOps getAdditionalDatanode 操作的总数
CreateSymlinkOps createSymlink 操作的总数
GetLinkTargetOps getLinkTarget 操作的总数
FilesInGetListingOps 通过目录列表操作列出的文件和目录总数
SuccessfulReReplications 成功的块重新复制的总数
NumTimesReReplicationNotScheduled 未能安排块重新复制的次数总数
TimeoutReReplications 超时块重新复制的总数
AllowSnapshotOps allowSnapshot 操作的总数
DisallowSnapshotOps disallowSnapshot 操作的总数
CreateSnapshotOps createSnapshot 操作的总数
DeleteSnapshotOps deleteSnapshot 操作的总数
RenameSnapshotOps renameSnapshot 操作的总数
ListSnapshottableDirOps snapshottableDirectoryStatus 操作的总数
SnapshotDiffReportOps getSnapshotDiffReport 操作的总数
TransactionsNumOps 日志事务总数
TransactionsAvgTime 日志事务平均时间(毫秒)
SyncsNumOps 日志同步总数
SyncsAvgTime 日志同步平均时间(毫秒)
SyncsTimenums(50/75/90/95/99)thPercentileLatency 日志同步时间(num 秒粒度)的第 50/75/90/95/99 个百分位(毫秒)。默认情况下,百分位测量处于关闭状态,不观察任何时间间隔。时间间隔由 dfs.metrics.percentiles.intervals 指定。
TransactionsBatchedInSync 同步中批处理的日志事务总数
TransactionsBatchedInSyncnums(50/75/90/95/99)thPercentileCount 批处理日志事务数(num 秒粒度)的第 50/75/90/95/99 个百分位。默认情况下,百分位测量处于关闭状态,不观察任何时间间隔。时间间隔由 dfs.metrics.percentiles.intervals 指定。
StorageBlockReportNumOps DataNode 中各个存储处理块报告的总数
StorageBlockReportAvgTime 处理块报告的平均时间(毫秒)
StorageBlockReportnums(50/75/90/95/99)thPercentileLatency 块报告处理时间(num 秒粒度)的第 50/75/90/95/99 个百分位(毫秒)。默认情况下,百分位测量处于关闭状态,不观察任何时间间隔。时间间隔由 dfs.metrics.percentiles.intervals 指定。
CacheReportNumOps DataNode 处理缓存报告的总数
CacheReportAvgTime 处理缓存报告的平均时间(毫秒)
CacheReportnums(50/75/90/95/99)thPercentileLatency 缓存报告处理时间(num 秒粒度)的第 50/75/90/95/99 个百分位(毫秒)。默认情况下,百分位测量处于关闭状态,不观察任何时间间隔。时间间隔由 dfs.metrics.percentiles.intervals 指定。
SafeModeTime FSNameSystem 启动与安全模式最后一次退出之间的时间间隔(毫秒)。(有时不等于安全模式中的时间,请参阅 HDFS-5156
FsImageLoadTime 启动时加载 FS 映像的时间(毫秒)
GetEditNumOps 从 SecondaryNameNode 下载编辑的总数
GetEditAvgTime 下载编辑的平均时间(毫秒)
GetImageNumOps 从 SecondaryNameNode 下载 fsimage 的总数
GetImageAvgTime 下载 fsimage 的平均时间(毫秒)
PutImageNumOps 上传到 SecondaryNameNode 的 fsimage 总数
PutImageAvgTime 上传 fsimage 的平均时间(毫秒)
TotalFileOps 执行的文件操作总数
NNStartedTimeInMillis NameNode 启动时间(毫秒)
GenerateEDEKTimeNumOps 生成 EDEK 的总数
GenerateEDEKTimeAvgTime 生成 EDEK 的平均时间(毫秒)
GenerateEDEKTimenums(50/75/90/95/99)thPercentileLatency 生成 EDEK 所花费的时间的 50/75/90/95/99th 百分位数(以毫秒为单位)(num 秒粒度)。默认情况下,百分位数测量处于关闭状态,通过不观察任何间隔。这些间隔由 dfs.metrics.percentiles.intervals 指定。
WarmUpEDEKTimeNumOps 预热 EDEK 的总数
WarmUpEDEKTimeAvgTime 预热 EDEK 的平均时间(以毫秒为单位)
WarmUpEDEKTimenums(50/75/90/95/99)thPercentileLatency 预热 EDEK 所花费时间的 50/75/90/95/99th 百分位数(以毫秒为单位)(num 秒粒度)。默认情况下,百分位数测量处于关闭状态,通过不观察任何间隔。这些间隔由 dfs.metrics.percentiles.intervals 指定。
ResourceCheckTimenums(50/75/90/95/99)thPercentileLatency NameNode 资源检查延迟的 50/75/90/95/99th 百分位数(以毫秒为单位)(num 秒粒度)。默认情况下,百分位数测量处于关闭状态,通过不观察任何间隔。这些间隔由 dfs.metrics.percentiles.intervals 指定。
EditLogTailTimeNumOps 备用 NameNode 尾随编辑日志的总次数
EditLogTailTimeAvgTime 备用 NameNode 尾随编辑日志所花费的平均时间(以毫秒为单位)
EditLogTailTimenums(50/75/90/95/99)thPercentileLatency 备用 NameNode 尾随编辑日志所花费时间的 50/75/90/95/99th 百分位数(以毫秒为单位)(num 秒粒度)。默认情况下,百分位数测量处于关闭状态,通过不观察任何间隔。这些间隔由 dfs.metrics.percentiles.intervals 指定。
EditLogFetchTimeNumOps 备用 NameNode 从日志节点获取远程编辑流的总次数
EditLogFetchTimeAvgTime 备用 NameNode 从日志节点获取远程编辑流所花费的平均时间(以毫秒为单位)
EditLogFetchTimenums(50/75/90/95/99)thPercentileLatency 备用 NameNode 从日志节点获取编辑流所花费时间的 50/75/90/95/99th 百分位数(以毫秒为单位)(num 秒粒度)。默认情况下,百分位数测量处于关闭状态,通过不观察任何间隔。这些间隔由 dfs.metrics.percentiles.intervals 指定。
NumEditLogLoadedNumOps 备用 NameNode 加载编辑的总次数
NumEditLogLoadedAvgCount 备用 NameNode 在每次编辑日志尾随中加载的平均编辑数
NumEditLogLoadednums(50/75/90/95/99)thPercentileCount 备用 NameNode 在每次编辑日志尾随中加载的编辑数的 50/75/90/95/99th 百分位数(num 秒粒度)。默认情况下,百分位数测量处于关闭状态,通过不观察任何间隔。这些间隔由 dfs.metrics.percentiles.intervals 指定。
EditLogTailIntervalNumOps 备用 NameNode 编辑日志尾随之间的总间隔数
EditLogTailIntervalAvgTime 备用 NameNode 编辑日志尾随之间的平均间隔时间(以毫秒为单位)
EditLogTailIntervalnums(50/75/90/95/99)thPercentileLatency 备用 NameNode 编辑日志尾随之间的时间的 50/75/90/95/99th 百分位数(以毫秒为单位)(num 秒粒度)。默认情况下,百分位数测量处于关闭状态,通过不观察任何间隔。这些间隔由 dfs.metrics.percentiles.intervals 指定。
PendingEditsCount 当前挂起的编辑数量

FSNamesystem

每个指标记录包含标签(如 HAState 和 Hostname)作为指标的附加信息。

名称 描述
MissingBlocks 当前丢失块的数量
ExpiredHeartbeats 已过期的检测信号总数
TransactionsSinceLastCheckpoint 自上次检查点以来的交易总数
TransactionsSinceLastLogRoll 自上次编辑日志滚动以来的交易总数
LastWrittenTransactionId 写入编辑日志的最后一个交易 ID
LastCheckpointTime 自上次检查点以来的纪元时间(以毫秒为单位)
CapacityTotal 以字节为单位的 DataNode 的当前原始容量
CapacityTotalGB 以 GB 为单位的 DataNode 的当前原始容量
CapacityUsed 以字节为单位的跨所有 DataNode 的当前已用容量
CapacityUsedGB 以 GB 为单位的跨所有 DataNode 的当前已用容量
CapacityRemaining 以字节为单位的当前剩余容量
CapacityRemainingGB 以 GB 为单位的当前剩余容量
CapacityUsedNonDFS 以字节为单位的 DataNode 当前用于非 DFS 用途的空间
TotalLoad 当前连接数
SnapshottableDirectories 当前可生成快照的目录数
快照 当前快照数
NumEncryptionZones 当前加密区域数
BlocksTotal 系统中当前已分配块数
FilesTotal 当前文件和目录数
PendingReplicationBlocks 当前待复制的块数
UnderReplicatedBlocks 当前复制不足的块数
CorruptBlocks 当前副本损坏的块数。
ScheduledReplicationBlocks 当前计划复制的块数
PendingDeletionBlocks 当前待删除的块数
ExcessBlocks 当前多余块数
PostponedMisreplicatedBlocks (仅限 HA)当前推迟复制的块数
PendingDataNodeMessageCount (仅限 HA)当前待处理块相关消息数,用于备用 NameNode 中的后期处理
MillisSinceLastLoadedEdits (仅限 HA)自备用 NameNode 加载编辑日志以来的时间(以毫秒为单位)。在活动 NameNode 中,设置为 0
BlockCapacity 当前块容量
NumLiveDataNodes 当前处于活动状态的数据节点数
NumDeadDataNodes 当前处于死亡状态的数据节点数
NumDecomLiveDataNodes 已退役且现在处于活动状态的数据节点数
NumDecomDeadDataNodes 已退役且现在处于死亡状态的数据节点数
NumDecommissioningDataNodes 处于退役状态的数据节点数
VolumeFailuresTotal 所有数据节点上的卷故障总数
EstimatedCapacityLostTotal 因卷故障导致的总容量损失估计值
StaleDataNodes 由于心跳延迟而标记为陈旧的数据节点当前数量
NumStaleStorages 标记为内容陈旧的存储数量(在接收到第一个块报告之前,NameNode 重新启动/故障转移后)
MissingReplOneBlocks 副本系数为 1 的缺失块当前数量
HighestPriorityLowRedundancyReplicatedBlocks 丢失风险最高的非损坏低冗余复制块当前数量(有 0 或 1 个副本)。将以最高优先级进行恢复。
HighestPriorityLowRedundancyECBlocks 丢失风险最高的非损坏低冗余 EC 块当前数量。将以最高优先级进行恢复。
NumFilesUnderConstruction 正在构建的文件当前数量
NumActiveClients 持有租约的活动客户端当前数量
HAState (仅限 HA)NameNode 的当前状态:初始化、活动、备用或停止状态
FSState 文件系统的当前状态:安全模式或操作模式
LockQueueLength 等待获取 FSNameSystem 锁的线程数量
ReadLockLongHoldCount 读锁已持有超过阈值的时间次数
WriteLockLongHoldCount 写锁已持有超过阈值的时间次数
TotalSyncCount 编辑日志执行的同步操作总数
TotalSyncTimes 各种编辑日志在同步操作中花费的总毫秒数
NameDirSize NameNode 名称目录大小(以字节为单位)
NumTimedOutPendingReconstructions 超时重建的数量。不是超时唯一块的数量。
NumInMaintenanceLiveDataNodes 处于维护状态的活动数据节点数量
NumInMaintenanceDeadDataNodes 处于维护状态的死数据节点数量
NumEnteringMaintenanceDataNodes 正在进入维护状态的数据节点数量
FSN(Read/Write)LockOperationNameNanosNumOps 按操作获取锁的总数
FSN(Read/Write)LockOperationNameNanosAvgTime 按操作持有锁的平均时间(以纳秒为单位)
FSN(读/写)LockOverallNanosNumOps 所有操作获取锁的总数
FSN(读/写)LockOverallNanosAvgTime 所有操作持有锁的平均时间(以纳秒为单位)

JournalNode

从 JournalNode 的角度来看,用于日志的服务器端指标。每个指标记录都包含 Hostname 标记作为附加信息以及指标。

名称 描述
Syncs60sNumOps 同步操作数(1 分钟粒度)
Syncs60s50thPercentileLatencyMicros 同步延迟的第 50 个百分位数(以微秒为单位)(1 分钟粒度)
Syncs60s75thPercentileLatencyMicros 同步延迟的第 75 个百分位数(以微秒为单位)(1 分钟粒度)
Syncs60s90thPercentileLatencyMicros 同步延迟的第 90 个百分位数(以微秒为单位)(1 分钟粒度)
Syncs60s95thPercentileLatencyMicros 同步延迟的第 95 个百分位数(以微秒为单位)(1 分钟粒度)
Syncs60s99thPercentileLatencyMicros 同步延迟的第 99 个百分位数(以微秒为单位)(1 分钟粒度)
Syncs300sNumOps 同步操作数(5 分钟粒度)
Syncs300s50thPercentileLatencyMicros 同步延迟的第 50 个百分位数(以微秒为单位)(5 分钟粒度)
Syncs300s75thPercentileLatencyMicros 同步延迟的第 75 个百分位数(以微秒为单位)(5 分钟粒度)
Syncs300s90thPercentileLatencyMicros 同步延迟的第 90 个百分位数(以微秒为单位)(5 分钟粒度)
Syncs300s95thPercentileLatencyMicros 同步延迟的第 95 个百分位数(以微秒为单位)(5 分钟粒度)
Syncs300s99thPercentileLatencyMicros 同步延迟的第 99 个百分位数(以微秒为单位)(5 分钟粒度)
Syncs3600sNumOps 同步操作数(1 小时粒度)
Syncs3600s50thPercentileLatencyMicros 同步延迟的第 50 个百分位数(以微秒为单位)(1 小时粒度)
Syncs3600s75thPercentileLatencyMicros 同步延迟的第 75 个百分位数(以微秒为单位)(1 小时粒度)
Syncs3600s90thPercentileLatencyMicros 同步延迟的第 90 个百分位数(以微秒为单位)(1 小时粒度)
Syncs3600s95thPercentileLatencyMicros 同步延迟的第 95 个百分位数(以微秒为单位)(1 小时粒度)
Syncs3600s99thPercentileLatencyMicros 微秒为单位的同步延迟的第 99 个百分位数(1 小时粒度)
NumTransactionsBatchedInSync60sNumOps 事务在同步操作中批处理的次数(1 分钟粒度)
NumTransactionsBatchedInSync60s50thPercentileLatencyMicros 同步批处理的事务的第 50 个百分位数(1 分钟粒度)
NumTransactionsBatchedInSync60s75thPercentileLatencyMicros 同步批处理的事务的第 75 个百分位数(1 分钟粒度)
NumTransactionsBatchedInSync60s90thPercentileLatencyMicros 同步批处理的事务的第 90 个百分位数(1 分钟粒度)
NumTransactionsBatchedInSync60s95thPercentileLatencyMicros 同步批处理的事务的第 95 个百分位数(1 分钟粒度)
NumTransactionsBatchedInSync60s99thPercentileLatencyMicros 同步批处理的事务的第 99 个百分位数(1 分钟粒度)
NumTransactionsBatchedInSync300sNumOps 事务在同步操作中批处理的次数(5 分钟粒度)
NumTransactionsBatchedInSync300s50thPercentileLatencyMicros 同步批处理的事务的第 50 个百分位数(5 分钟粒度)
NumTransactionsBatchedInSync300s75thPercentileLatencyMicros 同步批处理的事务的第 75 个百分位数(5 分钟粒度)
NumTransactionsBatchedInSync300s90thPercentileLatencyMicros 同步批处理的事务的第 90 个百分位数(5 分钟粒度)
NumTransactionsBatchedInSync300s95thPercentileLatencyMicros 同步批处理的事务的第 95 个百分位数(5 分钟粒度)
NumTransactionsBatchedInSync300s99thPercentileLatencyMicros 同步批处理的事务的第 99 个百分位数(5 分钟粒度)
NumTransactionsBatchedInSync3600sNumOps 事务在同步操作中批处理的次数(1 小时粒度)
NumTransactionsBatchedInSync3600s50thPercentileLatencyMicros 同步批处理的事务的第 50 个百分位数(1 小时粒度)
NumTransactionsBatchedInSync3600s75thPercentileLatencyMicros 同步批处理的事务的第 75 个百分位数(1 小时粒度)
NumTransactionsBatchedInSync3600s90thPercentileLatencyMicros 同步批处理的事务的第 90 个百分位数(1 小时粒度)
NumTransactionsBatchedInSync3600s95thPercentileLatencyMicros 同步批处理的事务的第 95 个百分位数(1 小时粒度)
NumTransactionsBatchedInSync3600s99thPercentileLatencyMicros 同步计数中批处理事务的第 99 个百分位(1 小时粒度)
BatchesWritten 自启动以来写入的批处理总数
TxnsWritten 自启动以来写入的事务总数
BytesWritten 自启动以来写入的字节总数
BatchesWrittenWhileLagging 此节点滞后时写入的批处理总数
LastWriterEpoch 当前写入者的纪元号
CurrentLagTxns 此 JournalNode 滞后的事务数
LastWrittenTxId 此 JournalNode 上存储的最高事务 ID
LastPromisedEpoch 此节点承诺不接受任何较低纪元的最后一个纪元号,如果未做出任何承诺,则为 0
LastJournalTimestamp 最后成功写入的事务的时间戳
TxnsServedViaRpc 通过 RPC 机制处理的事务数
BytesServedViaRpc 通过 RPC 机制处理的字节数
RpcRequestCacheMissAmountNumMisses 由于缓存中缺少数据而无法处理的 RPC 请求数
RpcRequestCacheMissAmountAvgTxns 请求未命中缓存的事务的平均数;例如,如果请求事务 ID 10,而缓存中最旧的事务是 ID 15,则会将值 5 添加到此平均值
RpcEmptyResponses 返回零编辑的 RPC 请求数

datanode

每个指标记录都包含标记,例如 SessionId 和 Hostname,作为指标的附加信息。

名称 描述
BytesWritten 写入 DataNode 的字节总数
BytesRead 从 DataNode 读取的字节总数
ReadTransferRateNumOps 数据读取传输的总数
ReadTransferRateAvgTime 从 DataNode 读取的字节的平均传输速率,以每秒字节数为单位。
ReadTransferRatenums(50/75/90/95/99)thPercentileRate 从 DataNode 读取的字节的传输速率的 50/75/90/95/99 个百分位,以每秒字节数为单位。
BlocksWritten 写入 DataNode 的块总数
BlocksRead 从 DataNode 读取的块总数
BlocksReplicated 复制的块总数
BlocksRemoved 删除的块总数
BlocksVerified 验证的块总数
BlockVerificationFailures 验证失败的总数
BlocksCached 缓存的块总数
BlocksUncached 未缓存的块总数
ReadsFromLocalClient 本地客户端的读取操作总数
ReadsFromRemoteClient 远程客户端的读取操作总数
WritesFromLocalClient 本地客户端的写入操作总数
WritesFromRemoteClient 远程客户端的写入操作总数
BlocksGetLocalPathInfo 获取块的本地路径名的操作总数
RamDiskBlocksWrite 写入内存的块总数
RamDiskBlocksWriteFallback 写入内存但未满足的块总数(故障转移到磁盘)
RamDiskBytesWrite 写入内存的字节总数
RamDiskBlocksReadHits 内存中块被读取的次数
RamDiskBlocksEvicted 内存中被驱逐的块总数
RamDiskBlocksEvictedWithoutRead 在内存中被驱逐但从未从内存中读取的块总数
RamDiskBlocksEvictionWindowMsNumOps 内存中被驱逐的块数
RamDiskBlocksEvictionWindowMsAvgTime 内存中块在被驱逐前停留的平均时间(以毫秒为单位)
RamDiskBlocksEvictionWindowsnums(50/75/90/95/99)thPercentileLatency 内存写入和驱逐之间延迟的第 50/75/90/95/99 个百分位数(num 秒粒度)。默认情况下,百分位数测量处于关闭状态,不观察任何间隔。这些间隔由 dfs.metrics.percentiles.intervals 指定。
RamDiskBlocksLazyPersisted 由惰性写入器写入磁盘的块总数
RamDiskBlocksDeletedBeforeLazyPersisted 在持久化到磁盘之前被应用程序删除的块总数
RamDiskBytesLazyPersisted 由惰性写入器写入磁盘的字节总数
RamDiskBlocksLazyPersistWindowMsNumOps 由惰性写入器写入磁盘的块数
RamDiskBlocksLazyPersistWindowMsAvgTime 由惰性写入器写入磁盘的块的平均时间(以毫秒为单位)
RamDiskBlocksLazyPersistWindowsnums(50/75/90/95/99)thPercentileLatency 内存写入和磁盘持久化之间延迟的第 50/75/90/95/99 个百分位数(num 秒粒度)。默认情况下,百分位数测量处于关闭状态,不观察任何间隔。这些间隔由 dfs.metrics.percentiles.intervals 指定。
FsyncCount fsync 的总数
VolumeFailures 发生的卷故障总数
ReadBlockOpNumOps 读取操作总数
ReadBlockOpAvgTime 读取操作的平均时间(以毫秒为单位)
WriteBlockOpNumOps 写入操作总数
WriteBlockOpAvgTime 写操作的平均时间(毫秒)
BlockChecksumOpNumOps 块校验和操作的总数
BlockChecksumOpAvgTime 块校验和操作的平均时间(毫秒)
CopyBlockOpNumOps 块复制操作的总数
CopyBlockOpAvgTime 块复制操作的平均时间(毫秒)
ReplaceBlockOpNumOps 块替换操作的总数
ReplaceBlockOpAvgTime 块替换操作的平均时间(毫秒)
HeartbeatsNumOps 心跳的总数
HeartbeatsAvgTime 心跳的平均时间(毫秒)
HeartbeatsForServiceId-NNIdNumOps 发送到特定服务 ID 和 NN ID 的心跳总数
HeartbeatsForServiceId-NNIdAvgTime 发送到特定服务 ID 和 NN ID 的心跳的平均时间(毫秒)
HeartbeatsTotalNumOps 心跳的总数,与 HeartbeatsNumOps 重复
HeartbeatsTotalAvgTime 心跳的平均总时间(毫秒)
HeartbeatsTotalForServiceId-NNIdNumOps 发送到特定服务 ID 和 NN ID 的心跳的总数,与 HeartbeatsForServiceId-NNIdNumOps 重复
HeartbeatsTotalForServiceId-NNIdAvgTime 发送到特定服务 ID 和 NN ID 的心跳的平均总时间(毫秒)
LifelinesNumOps 生命线消息的总数
LifelinesAvgTime 生命线消息处理的平均时间(毫秒)
LifelinesForServiceId-NNIdNumOps 发送到特定服务 ID 和 NN ID 的生命线消息的总数
LifelinesForServiceId-NNIdAvgTime 发送到特定服务 ID 和 NN ID 的生命线消息处理的平均时间(毫秒)
BlockReportsNumOps 块报告操作的总数
BlockReportsAvgTime 块报告操作的平均时间(毫秒)
BlockReportsServiceId-NNIdNumOps 发送到特定服务 ID 和 NN ID 的块报告操作的总数
BlockReportsServiceId-NNIdAvgTime 发送到特定服务 ID 和 NN ID 的块报告操作的平均时间(毫秒)
IncrementalBlockReportsNumOps 增量块报告操作总数
IncrementalBlockReportsAvgTime 增量块报告操作的平均时间(以毫秒为单位)
IncrementalBlockReportsServiceId-NNIdNumOps 针对特定 serviceId 和 nnId 的增量块报告操作总数
IncrementalBlockReportsServiceId-NNIdAvgTime 针对特定 serviceId 和 nnId 的增量块报告操作的平均时间(以毫秒为单位)
CacheReportsNumOps 缓存报告操作总数
CacheReportsAvgTime 缓存报告操作的平均时间(以毫秒为单位)
PacketAckRoundTripTimeNanosNumOps 确认往返总数
PacketAckRoundTripTimeNanosAvgTime 从发送确认到接收确认的平均时间,减去下行确认时间(以纳秒为单位)
PacketAckRoundTripTimeNanosnums(50/75/90/95/99)thPercentileLatency 从发送确认到接收确认的第 50/75/90/95/99 个百分位延迟,减去下行确认时间(以纳秒为单位)(num 秒粒度)。默认情况下,百分位测量处于关闭状态,不观察任何时间间隔。时间间隔由 dfs.metrics.percentiles.intervals 指定。
FlushNanosNumOps 刷新总数
FlushNanosAvgTime 刷新平均时间(以纳秒为单位)
FlushNanosnums(50/75/90/95/99)thPercentileLatency 第 50/75/90/95/99 个百分位刷新时间(以纳秒为单位)(num 秒粒度)。默认情况下,百分位测量处于关闭状态,不观察任何时间间隔。时间间隔由 dfs.metrics.percentiles.intervals 指定。
FsyncNanosNumOps fsync 的总数
FsyncNanosAvgTime fsync 平均时间(以纳秒为单位)
FsyncNanosnums(50/75/90/95/99)thPercentileLatency 第 50/75/90/95/99 个百分位 fsync 时间(以纳秒为单位)(num 秒粒度)。默认情况下,百分位测量处于关闭状态,不观察任何时间间隔。时间间隔由 dfs.metrics.percentiles.intervals 指定。
SendDataPacketBlockedOnNetworkNanosNumOps 发送数据包总数
SendDataPacketBlockedOnNetworkNanosAvgTime 发送数据包的平均等待时间(以纳秒为单位)
SendDataPacketBlockedOnNetworkNanosnums(50/75/90/95/99)thPercentileLatency 发送数据包的第 50/75/90/95/99 个百分位等待时间(以纳秒为单位)(num 秒粒度)。默认情况下,百分位测量处于关闭状态,不观察任何时间间隔。时间间隔由 dfs.metrics.percentiles.intervals 指定。
SendDataPacketTransferNanosNumOps 发送数据包总数
SendDataPacketTransferNanosAvgTime 发送数据包的平均传输时间(以纳秒为单位)
SendDataPacketTransferNanosnums(50/75/90/95/99)thPercentileLatency 发送数据包的第 50/75/90/95/99 个百分位传输时间(以纳秒为单位)(num 秒粒度)。默认情况下,百分位测量处于关闭状态,不观察任何时间间隔。时间间隔由 dfs.metrics.percentiles.intervals 指定。
TotalWriteTime 用于写入操作的总毫秒数
TotalReadTime 读取操作花费的总毫秒数
RemoteBytesRead 远程客户端读取的字节数
RemoteBytesWritten 远程客户端写入的字节数
BPServiceActorInfo 有关块池服务操作者的信息
BlocksInPendingIBR 待处理增量块报告 (IBR) 中的块数
BlocksReceivingInPendingIBR 待处理增量块报告 (IBR) 中处于接收状态的块数
BlocksReceivedInPendingIBR 待处理增量块报告 (IBR) 中处于已接收状态的块数
BlocksDeletedInPendingIBR 待处理增量块报告 (IBR) 中处于已删除状态的块数
EcReconstructionTasks 擦除编码重建任务的总数
EcFailedReconstructionTasks 擦除编码重建任务失败的总数
EcInvalidReconstructionTasks 擦除编码重建任务失效的总数
EcDecodingTimeNanos 解码任务花费的总纳秒数
EcReconstructionBytesRead 擦除编码工作程序读取的总字节数
EcReconstructionBytesWritten 擦除编码工作程序写入的总字节数
EcReconstructionRemoteBytesRead 擦除编码工作程序远程读取的总字节数

FsVolume

每个卷度量包含与数据节点卷 IO 相关的统计信息。默认情况下,每个卷度量处于关闭状态。可通过将 dfs.datanode .fileio.profiling.percentage.fraction 设置为介于 1 到 100 之间的整数值来启用它们。将此值设置为 0 表示未启用分析。但启用每个卷度量可能会影响性能。每个度量记录都包含标签(如主机名)作为附加信息以及度量。

名称 描述
TotalMetadataOperations 元数据操作的总数(单调递增)。元数据操作包括 stat、list、mkdir、delete、move、open 和 posix_fadvise。
MetadataOperationRateNumOps 度量间隔时间内的元数据操作数
MetadataOperationRateAvgTime 元数据操作的平均时间(以毫秒为单位)
MetadataOperationLatencynums(50/75/90/95/99)thPercentileLatency 元数据操作延迟的 50/75/90/95/99 百分位数(以毫秒为单位)(num 秒粒度)。默认情况下,百分位数测量处于关闭状态,不观察任何间隔。间隔由 dfs.metrics.percentiles.intervals 指定。
TotalDataFileIos 数据文件 IO 操作的总数(单调递增)
DataFileIoRateNumOps 度量间隔时间内的数据文件 IO 操作数
DataFileIoRateAvgTime 数据文件 IO 操作的平均时间(以毫秒为单位)
DataFileIoLatencynums(50/75/90/95/99)thPercentileLatency 数据文件 IO 操作延迟的 50/75/90/95/99 百分位数(以毫秒为单位)(num 秒粒度)。默认情况下,百分位数测量处于关闭状态,不观察任何间隔。间隔由 dfs.metrics.percentiles.intervals 指定。
FlushIoRateNumOps 度量指标时间间隔内的文件刷新 IO 操作数
FlushIoRateAvgTime 文件刷新 IO 操作的平均时间(毫秒)
FlushIoLatencynums(50/75/90/95/99)thPercentileLatency 文件刷新 IO 操作延迟的 50/75/90/95/99th 百分位数(num 秒粒度)。默认情况下,百分位数测量处于关闭状态,不观察任何间隔。这些间隔由 dfs.metrics.percentiles.intervals 指定。
SyncIoRateNumOps 度量指标时间间隔内的文件同步 IO 操作数
SyncIoRateAvgTime 文件同步 IO 操作的平均时间(毫秒)
SyncIoLatencynums(50/75/90/95/99)thPercentileLatency 文件同步 IO 操作延迟的 50/75/90/95/99th 百分位数(num 秒粒度)。默认情况下,百分位数测量处于关闭状态,不观察任何间隔。这些间隔由 dfs.metrics.percentiles.intervals 指定。
ReadIoRateNumOps 度量指标时间间隔内的文件读取 IO 操作数
ReadIoRateAvgTime 文件读取 IO 操作的平均时间(毫秒)
ReadIoLatencynums(50/75/90/95/99)thPercentileLatency 文件读取 IO 操作延迟的 50/75/90/95/99th 百分位数(num 秒粒度)。默认情况下,百分位数测量处于关闭状态,不观察任何间隔。这些间隔由 dfs.metrics.percentiles.intervals 指定。
WriteIoRateNumOps 度量指标时间间隔内的文件写入 IO 操作数
WriteIoRateAvgTime 文件写入 IO 操作的平均时间(毫秒)
WriteIoLatencynums(50/75/90/95/99)thPercentileLatency 文件写入 IO 操作延迟的 50/75/90/95/99th 百分位数(num 秒粒度)。默认情况下,百分位数测量处于关闭状态,不观察任何间隔。这些间隔由 dfs.metrics.percentiles.intervals 指定。
TransferIoRateNumOps 度量指标时间间隔内的文件传输 IO 操作数
TransferIoRateAvgTime 文件传输 IO 操作的平均时间(毫秒)
TransferIoLatencynums(50/75/90/95/99)thPercentileLatency 文件传输 IO 操作延迟的 50/75/90/95/99th 百分位数(num 秒粒度)。默认情况下,百分位数测量处于关闭状态,不观察任何间隔。这些间隔由 dfs.metrics.percentiles.intervals 指定。
NativeCopyIoRateNumOps 指标时间间隔内的文件 nativeCopy io 操作数
NativeCopyIoRateAvgTime 文件 nativeCopy io 操作的平均时间,单位为毫秒
NativeCopyIoLatencynums(50/75/90/95/99)thPercentileLatency 文件 nativeCopy io 操作延迟的 50/75/90/95/99 百分位数,单位为毫秒(num 秒粒度)。默认情况下,百分位数测量处于关闭状态,不观察任何时间间隔。时间间隔由 dfs.metrics.percentiles.intervals 指定。
TotalFileIoErrors 文件 io 错误操作的总数(单调递增)
FileIoErrorRateNumOps 指标时间间隔内的文件 io 错误操作数
FileIoErrorRateAvgTime 测量从操作开始到出现故障的平均时间,单位为毫秒

RBFMetrics

RBFMetrics 显示基于路由器的联合中子集群信息的聚合值指标。

名称 描述
NumFiles 当前文件和目录数
NumBlocks 当前已分配块数
NumOfBlocksPendingReplication 当前待复制的块数
NumOfBlocksUnderReplicated 当前复制不足的块数
NumOfBlocksPendingDeletion 当前待删除的块数
ProvidedSpace 联合集群中装载的远程存储总容量
NumInMaintenanceLiveDataNodes 处于维护状态的活动数据节点数量
NumInMaintenanceDeadDataNodes 处于维护状态的死数据节点数量
NumEnteringMaintenanceDataNodes 正在进入维护状态的数据节点数量
TotalCapacity DataNodes 的当前原始容量,单位为字节(长基本类型,可能溢出)
UsedCapacity 所有 DataNodes 的当前已用容量,单位为字节(长基本类型,可能溢出)
RemainingCapacity 当前剩余容量,单位为字节(长基本类型,可能溢出)
TotalCapacityBigInt DataNodes 的当前原始容量,单位为字节(使用 BigInteger)
UsedCapacityBigInt 所有 DataNodes 的当前已用容量,单位为字节(使用 BigInteger)
RemainingCapacityBigInt 当前剩余容量,单位为字节(使用 BigInteger)
NumOfMissingBlocks 当前丢失块的数量
NumLiveNodes 当前处于活动状态的数据节点数
NumDeadNodes 当前处于死亡状态的数据节点数
NumStaleNodes 由于心跳延迟而标记为陈旧的数据节点当前数量
NumDecomLiveNodes 已退役且现在处于活动状态的数据节点数
NumDecomDeadNodes 已退役且现在处于死亡状态的数据节点数
NumDecommissioningNodes 处于退役状态的数据节点数
Namenodes 所有名称节点的当前信息
Nameservices 每个已注册名称服务的当前信息
MountTable 联合文件系统的装载表
Routers 所有路由器的当前信息
NumNameservices 名称服务数
NumNamenodes 名称节点数
NumExpiredNamenodes 已过期名称节点数
NodeUsage DataNodes 使用情况的最大值、中位数、最小值和标准差

RouterRPCMetrics

RouterRPCMetrics 显示基于路由器的联合中 Router 组件的统计信息。

名称 描述
ProcessingOp Router 在内部处理的操作数
ProxyOp 路由器代理到名称节点的操作数
ProxyOpFailureStandby 无法到达 NN 的操作数
ProxyOpFailureCommunicate 命中备用 NN 的操作数
ProxyOpNotImplemented 未实现的操作数
RouterFailureStateStore 由于状态存储不可用而导致的失败请求数
RouterFailureReadOnly 由于只读挂载点而导致的失败请求数
RouterFailureLocked 由于路径锁定而导致的失败请求数
RouterFailureSafemode 由于安全模式而导致的失败请求数
ProcessingNumOps 路由器在指标的间隔时间内在内部处理的操作数
ProcessingAvgTime 路由器处理操作的平均时间(以纳秒为单位)
ProxyNumOps 路由器在指标的间隔时间内代理到名称节点的操作次数
ProxyAvgTime 路由器代理到名称节点的操作的平均时间(以纳秒为单位)

StateStoreMetrics

StateStoreMetrics 显示基于路由器的联合中状态存储组件的统计信息。

名称 描述
ReadsNumOps 指标间隔时间内状态存储的 GET 事务数
ReadsAvgTime 状态存储的 GET 事务的平均时间(以毫秒为单位)
WritesNumOps 指标间隔时间内状态存储的 PUT 事务数
WritesAvgTime 状态存储的 PUT 事务的平均时间(以毫秒为单位)
RemovesNumOps 指标间隔时间内状态存储的 REMOVE 事务数
RemovesAvgTime 状态存储的 REMOVE 事务的平均时间(以毫秒为单位)
FailuresNumOps 指标间隔时间内状态存储的失败事务数
FailuresAvgTime 状态存储的失败事务的平均时间(以毫秒为单位)
CacheBaseRecordSize 状态存储中要缓存的存储记录数

yarn 上下文

ClusterMetrics

ClusterMetrics 从 ResourceManager 的角度显示 YARN 集群的指标。每个指标记录包含 Hostname 标记作为附加信息以及指标。

名称 描述
NumActiveNMs 当前活动 NodeManager 的数量
numDecommissioningNMs 当前正在退役的 NodeManager 的数量
NumDecommissionedNMs 当前已退役的 NodeManager 的数量
NumShutdownNMs 当前正常关闭的 NodeManager 的数量。请注意,这不包括被强制终止的 NodeManager。
NumLostNMs 当前由于未发送心跳而丢失的 NodeManager 的数量。
NumUnhealthyNMs 当前不健康的 NodeManager 的数量
NumRebootedNMs 当前已重启的 NodeManager 的数量
AMLaunchDelayNumOps 已启动的 AM 的总数
AMLaunchDelayAvgTime RM 在 AM 容器分配后启动 AM 容器所花费的平均时间(以毫秒为单位)
AMRegisterDelayNumOps 已注册的 AM 总数
AMRegisterDelayAvgTime AM 容器启动后,AM 在 RM 中注册所花费的平均时间(以毫秒为单位)

QueueMetrics

QueueMetrics 从 ResourceManager 的角度显示应用程序队列。每个指标记录显示每个队列的统计信息,并包含标签,例如队列名称和 Hostname,以及指标的其他信息。

running_num 指标(例如 running_0)中,可以在 yarn-site.xml 中设置属性 yarn.resourcemanager.metrics.runtime.buckets 以更改存储桶。默认值为 60,300,1440

名称 描述
running_0 当前运行的应用程序数,其经过时间少于 60 分钟
running_60 当前运行的应用程序数,其经过时间在 60 到 300 分钟之间
running_300 当前运行的应用程序数,其经过时间在 300 到 1440 分钟之间
running_1440 当前运行的应用程序数,其经过时间超过 1440 分钟
AppsSubmitted 已提交的应用程序总数
AppsRunning 当前运行的应用程序数
AppsPending 尚未由任何容器分配的应用程序的当前数量
AppsCompleted 已完成的应用程序总数
AppsKilled 已终止的应用程序总数
AppsFailed 已失败的应用程序总数
AllocatedMB 当前已分配的内存(以 MB 为单位)
AllocatedVCores 当前已分配的 CPU(以虚拟核心数为单位)
AllocatedContainers 当前已分配的容器数
AggregateContainersAllocated 已分配的容器总数
aggregateNodeLocalContainersAllocated 已分配的节点本地容器总数
aggregateRackLocalContainersAllocated 已分配的机架本地容器总数
aggregateOffSwitchContainersAllocated 已分配的关闭开关容器总数
AggregateContainersReleased 已释放容器的总数
AvailableMB 当前以 MB 为单位的可用内存
AvailableVCores 当前以虚拟核心数为单位的可用 CPU
PendingMB 当前以 MB 为单位的内存请求,等待调度程序执行
PendingVCores 当前以虚拟核心数为单位的 CPU 请求,等待调度程序执行
PendingContainers 当前等待调度程序执行的容器数
ReservedMB 当前以 MB 为单位的已保留内存
ReservedVCores 当前以虚拟核心数为单位的已保留 CPU
ReservedContainers 当前的保留容器数
ActiveUsers 当前活动用户数
ActiveApplications 当前活动应用程序数
AppAttemptFirstContainerAllocationDelayNumOps 为所有尝试分配的第一个容器的总数
AppAttemptFirstContainerAllocationDelayAvgTime RM 为所有尝试分配第一个容器所花费的平均时间。对于托管的 AM,第一个容器是 AM 容器。因此,这表示分配 AM 容器的时间持续时间。对于非托管 AM,这是分配非托管 AM 请求的第一个容器的时间持续时间。
FairShareMB (仅限 FairScheduler)当前以 MB 为单位的公平份额内存
FairShareVCores (仅限 FairScheduler)当前以虚拟核心数为单位的公平份额 CPU
MinShareMB (仅限 FairScheduler)以 MB 为单位的最小份额内存
MinShareVCores (仅限 FairScheduler)以虚拟核心数为单位的最小份额 CPU
MaxShareMB (仅限 FairScheduler)以 MB 为单位的最大份额内存
MaxShareVCores (仅限 FairScheduler)以虚拟核心数为单位的最大份额 CPU

NodeManagerMetrics

NodeManagerMetrics 显示节点中容器的统计信息。每个指标记录都包含 Hostname 标记作为附加信息以及指标。

名称 描述
containersLaunched 已启动容器的总数
containersCompleted 成功完成容器的总数
containersFailed 失败容器的总数
containersKilled 已终止容器的总数
containersIniting 当前正在初始化的容器数
containersRunning 当前正在运行的容器数
allocatedContainers 当前已分配的容器数
allocatedGB 当前以 GB 为单位的已分配内存
availableGB 当前可用内存(GB)
allocatedVcores 当前已用 vcore
availableVcores 当前可用 vcore
containerLaunchDuration NM 启动容器的平均时间(毫秒)
badLocalDirs 当前错误本地目录数。目前,NM 进程无法读/写/执行的磁盘或磁盘已满被视为错误。
badLogDirs 当前错误日志目录数。目前,NM 进程无法读/写/执行的磁盘或磁盘已满被视为错误。
goodLocalDirsDiskUtilizationPerc 所有正常本地目录的当前磁盘利用率百分比
goodLogDirsDiskUtilizationPerc 所有正常日志目录的当前磁盘利用率百分比

ContainerMetrics

ContainerMetrics 显示容器的资源利用率统计信息。除了指标外,每条指标记录还包含标签(如 ContainerPid 和 Hostname)作为附加信息。

名称 描述
pMemLimitMBs 容器的物理内存限制(MB)
vMemLimitMBs 容器的虚拟内存限制(MB)
vCoreLimit 容器的 CPU 限制(vcore 数)
launchDurationMs 容器启动持续时间(毫秒)
localizationDurationMs 容器本地化持续时间(毫秒)
StartTime 容器启动时的毫秒时间
FinishTime 容器完成时的毫秒时间
ExitCode 容器退出代码
PMemUsageMBsNumUsage 已用物理内存指标总数
PMemUsageMBsAvgMBs 已用物理内存平均值(MB)
PMemUsageMBsStdevMBs 已用物理内存的标准差(MB)
PMemUsageMBsMinMBs 已用物理内存最小值(MB)
PMemUsageMBsMaxMBs 已用物理内存最大值(MB)
PMemUsageMBsIMinMBs 当前间隔中已用物理内存最小值(MB)(间隔时间由 yarn.nodemanager.container-metrics.period-ms 指定)
PMemUsageMBsIMaxMBs 当前间隔间隔时间由yarn.nodemanager.container-metrics.period-ms指定)中使用的最大物理内存(MB)
PMemUsageMBsINumUsage 当前间隔间隔时间由yarn.nodemanager.container-metrics.period-ms指定)中物理内存使用指标的总数
PCpuUsagePercentNumUsage 物理 CPU 内核使用百分比指标的总数
PCpuUsagePercentAvgPercents 物理 CPU 内核使用平均百分比
PCpuUsagePercentStdevPercents 物理 CPU 内核使用百分比的标准差
PCpuUsagePercentMinPercents 物理 CPU 内核使用最小百分比
PCpuUsagePercentMaxPercents 物理 CPU 内核使用最大百分比
PCpuUsagePercentIMinPercents 当前间隔间隔时间由yarn.nodemanager.container-metrics.period-ms指定)中使用的最小物理 CPU 内核百分比
PCpuUsagePercentIMaxPercents 当前间隔间隔时间由yarn.nodemanager.container-metrics.period-ms指定)中使用的最大物理 CPU 内核百分比
PCpuUsagePercentINumUsage 当前间隔间隔时间由yarn.nodemanager.container-metrics.period-ms指定)中物理 CPU 内核使用指标的总数
MilliVcoreUsageNumUsage vcore 使用指标的总数
MilliVcoreUsageAvgMilliVcores vcore 使用平均值的 1000 倍
MilliVcoreUsageStdevMilliVcores vcore 使用标准差的 1000 倍
MilliVcoreUsageMinMilliVcores vcore 使用最小值的 1000 倍
MilliVcoreUsageMaxMilliVcores vcore 使用最大值的 1000 倍
MilliVcoreUsageIMinMilliVcores 当前间隔间隔时间由yarn.nodemanager.container-metrics.period-ms指定)中使用的 vcore 使用平均值的 1000 倍
MilliVcoreUsageIMaxMilliVcores 当前间隔间隔时间由yarn.nodemanager.container-metrics.period-ms指定)中使用的 vcore 使用最大值的 1000 倍
MilliVcoreUsageINumUsage 当前间隔间隔时间由yarn.nodemanager.container-metrics.period-ms指定)中vcore 使用指标的总数
PMemUsageMBHistogramNumUsage 物理内存使用指标的总数(1 秒粒度)
PMemUsageMBHistogram50thPercentileMBs 物理内存使用中值(MB)(1 秒粒度)
PMemUsageMBHistogram75thPercentileMBs 物理内存使用第 75 个百分位(MB)(1 秒粒度)
PMemUsageMBHistogram90thPercentileMBs 物理内存使用第 90 个百分位(MB)(1 秒粒度)
PMemUsageMBHistogram95thPercentileMBs 1 秒粒度下已用物理内存的第 95 个百分位(以 MB 为单位)
PMemUsageMBHistogram99thPercentileMBs 1 秒粒度下已用物理内存的第 99 个百分位(以 MB 为单位)
PCpuUsagePercentHistogramNumUsage 已用物理 CPU 内核总数指标(1 秒粒度)
PCpuUsagePercentHistogram50thPercentilePercents 已用物理 CPU 内核百分比的第 50 个百分位(1 秒粒度)
PCpuUsagePercentHistogram75thPercentilePercents 已用物理 CPU 内核百分比的第 75 个百分位(1 秒粒度)
PCpuUsagePercentHistogram90thPercentilePercents 已用物理 CPU 内核百分比的第 90 个百分位(1 秒粒度)
PCpuUsagePercentHistogram95thPercentilePercents 已用物理 CPU 内核百分比的第 95 个百分位(1 秒粒度)
PCpuUsagePercentHistogram99thPercentilePercents 已用物理 CPU 内核百分比的第 99 个百分位(1 秒粒度)

ugi 上下文

UgiMetrics

UgiMetrics 与用户和组信息相关。每个指标记录都包含 Hostname 标记,以及指标的其他信息。

名称 描述
LoginSuccessNumOps 成功 Kerberos 登录的总数
LoginSuccessAvgTime 成功 Kerberos 登录的平均时间(以毫秒为单位)
LoginFailureNumOps 失败 Kerberos 登录的总数
LoginFailureAvgTime 失败 Kerberos 登录的平均时间(以毫秒为单位)
getGroupsNumOps 组解析的总数
getGroupsAvgTime 组解析的平均时间(以毫秒为单位)
getGroupsnumsNumOps 组解析的总数(num 秒粒度)。numhadoop.user.group.metrics.percentiles.intervals 指定。
getGroupsnums50thPercentileLatency 显示组解析时间(以毫秒为单位)的第 50 个百分位(num 秒粒度)。numhadoop.user.group.metrics.percentiles.intervals 指定。
getGroupsnums75thPercentileLatency 显示组解析时间(以毫秒为单位)的第 75 个百分位(num 秒粒度)。numhadoop.user.group.metrics.percentiles.intervals 指定。
getGroupsnums90thPercentileLatency 显示组解析时间(以毫秒为单位)的第 90 个百分位(num 秒粒度)。numhadoop.user.group.metrics.percentiles.intervals 指定。
getGroupsnums95thPercentileLatency 显示组解析时间(以毫秒为单位)的第 95 个百分位(num 秒粒度)。numhadoop.user.group.metrics.percentiles.intervals 指定。
getGroupsnums99thPercentileLatency 显示组解析时间第 99 个百分位(以毫秒为单位)(num 秒粒度)。numhadoop.user.group.metrics.percentiles.intervals 指定。

metricssystem 上下文

MetricsSystem

MetricsSystem 显示指标快照和发布的统计信息。每条指标记录包含 Hostname 标记作为附加信息以及指标。

名称 描述
NumActiveSources 当前活动指标源数
NumAllSources 指标源总数
NumActiveSinks 当前活动接收器数
NumAllSinks 接收器总数(但通常小于 NumActiveSinks,请参阅 HADOOP-9946
SnapshotNumOps 从指标源快照统计信息的总操作数
SnapshotAvgTime 从指标源快照统计信息的平均时间(以毫秒为单位)
PublishNumOps 向接收器发布统计信息的总操作数
PublishAvgTime 向接收器发布统计信息的平均时间(以毫秒为单位)
DroppedPubAll 放弃发布的总数
Sink_instanceNumOps instance 的接收器操作总数
Sink_instanceAvgTime instance 的接收器操作的平均时间(以毫秒为单位)
Sink_instanceDropped instance 的放弃接收器操作的总数
Sink_instanceQsize 接收器操作的当前队列长度

default 上下文

StartupProgress

StartupProgress 指标显示 NameNode 启动的统计信息。根据其名称,为每个启动阶段公开四个指标。启动阶段LoadingFsImageLoadingEditsSavingCheckpointSafeMode。每条指标记录包含 Hostname 标记作为附加信息以及指标。

名称 描述
ElapsedTime 总经过时间(以毫秒为单位)
PercentComplete NameNode 启动进度中完成的当前比率(最大值不是 100,而是 1.0)
phaseCount 阶段中已完成的步骤总数
phaseElapsedTime 阶段中总的经过时间(以毫秒为单位)
phaseTotal 阶段中的步骤总数
phasePercentComplete 阶段中已完成的当前速率(最大值不是 100,而是 1.0)