指标是 Hadoop 守护程序公开的统计信息,用于监控、性能调整和调试。默认情况下,有许多指标可用,它们对于故障排除非常有用。此页面显示可用指标的详细信息。
每个部分都描述了指标分组到的各个上下文。
Metrics 2.0 框架的文档在此处。
每个指标记录都包含标签,例如 ProcessName、SessionID 和 Hostname,以及指标的其他信息。
名称 | 描述 |
---|---|
MemNonHeapUsedM |
当前使用的非堆内存(MB) |
MemNonHeapCommittedM |
当前已提交的非堆内存(MB) |
MemNonHeapMaxM |
非堆内存大小(MB) |
MemHeapUsedM |
当前堆内存使用量(MB) |
MemHeapCommittedM |
当前堆内存提交量(MB) |
MemHeapMaxM |
堆内存大小(MB) |
MemMaxM |
内存大小(MB) |
ThreadsNew |
当前 NEW 线程数 |
ThreadsRunnable |
当前 RUNNABLE 线程数 |
ThreadsBlocked |
当前 BLOCKED 线程数 |
ThreadsWaiting |
当前 WAITING 线程数 |
ThreadsTimedWaiting |
当前 TIMED_WAITING 线程数 |
ThreadsTerminated |
当前 TERMINATED 线程数 |
GcInfo |
按 GC 类型分组的 GC 总数和 GC 时间(毫秒)。 例如)GcCountPS Scavenge=6, GCTimeMillisPS Scavenge=40, GCCountPS MarkSweep=0, GCTimeMillisPS MarkSweep=0 |
GcCount |
GC 总数 |
GcTimeMillis |
GC 总时间(毫秒) |
LogFatal |
FATAL 日志总数 |
LogError |
ERROR 日志总数 |
LogWarn |
WARN 日志总数 |
LogInfo |
INFO 日志总数 |
GcNumWarnThresholdExceeded |
GC 警告阈值超出的次数 |
GcNumInfoThresholdExceeded |
GC 信息阈值超出的次数 |
GcTotalExtraSleepTime |
GC 额外睡眠时间(毫秒) |
GcTimePercentage |
如果 dfs.namenode.gc.time.monitor.enable 设置为 true,则在观察窗口内 JVM 花费在 GC 暂停上的时间百分比 (0..100)。使用 dfs.namenode.gc.time.monitor.sleep.interval.ms 指定睡眠间隔(毫秒)。使用 dfs.namenode.gc.time.monitor.observation.window.ms 指定观察窗口(毫秒)。 |
每个指标记录都包含标签,例如主机名和端口(服务器绑定的编号)以及指标的其他信息。rpc.metrics.timeunit
配置可用于配置 RPC 指标的时间单位。RPC 指标使用的默认时间单位是毫秒(如下所述)。
名称 | 描述 |
---|---|
ReceivedBytes |
接收的字节总数 |
SentBytes |
发送的字节总数 |
RpcQueueTimeNumOps |
RPC 调用总数 |
RpcQueueTimeAvgTime |
平均队列时间(毫秒) |
RpcLockWaitTimeNumOps |
RPC 调用总数(与 RpcQueueTimeNumOps 相同) |
RpcLockWaitTimeAvgTime |
等待获取锁的平均时间(毫秒) |
RpcProcessingTimeNumOps |
RPC 调用总数(与 RpcQueueTimeNumOps 相同) |
RpcProcessingAvgTime |
平均处理时间(毫秒) |
RpcAuthenticationFailures |
身份验证失败总数 |
RpcAuthenticationSuccesses |
身份验证成功总数 |
RpcAuthorizationFailures |
授权失败总数 |
RpcAuthorizationSuccesses |
授权成功总数 |
NumOpenConnections |
当前打开的连接数 |
CallQueueLength |
当前调用队列长度 |
numDroppedConnections |
已断开连接的总数 |
rpcQueueTime numsNumOps |
如果将 rpc.metrics.quantile.enable 设置为 true,则显示 RPC 调用的总数(num 秒粒度)。num 由 rpc.metrics.percentiles.intervals 指定。 |
rpcQueueTime nums50thPercentileLatency |
如果将 rpc.metrics.quantile.enable 设置为 true,则显示 RPC 队列时间的第 50 个百分位数(以毫秒为单位,num 秒粒度)。num 由 rpc.metrics.percentiles.intervals 指定。 |
rpcQueueTime nums75thPercentileLatency |
如果将 rpc.metrics.quantile.enable 设置为 true,则显示 RPC 队列时间的第 75 个百分位数(以毫秒为单位,num 秒粒度)。num 由 rpc.metrics.percentiles.intervals 指定。 |
rpcQueueTime nums90thPercentileLatency |
如果将 rpc.metrics.quantile.enable 设置为 true,则显示 RPC 队列时间的第 90 个百分位数(以毫秒为单位,num 秒粒度)。num 由 rpc.metrics.percentiles.intervals 指定。 |
rpcQueueTime nums95thPercentileLatency |
如果将 rpc.metrics.quantile.enable 设置为 true,则显示 RPC 队列时间的第 95 个百分位数(以毫秒为单位,num 秒粒度)。num 由 rpc.metrics.percentiles.intervals 指定。 |
rpcQueueTime nums99thPercentileLatency |
如果将 rpc.metrics.quantile.enable 设置为 true,则显示 RPC 队列时间的第 99 个百分位数(以毫秒为单位,num 秒粒度)。num 由 rpc.metrics.percentiles.intervals 指定。 |
rpcProcessingTime numsNumOps |
如果将 rpc.metrics.quantile.enable 设置为 true,则显示 RPC 调用的总数(num 秒粒度)。num 由 rpc.metrics.percentiles.intervals 指定。 |
rpcProcessingTime nums50thPercentileLatency |
如果将 rpc.metrics.quantile.enable 设置为 true,则显示 RPC 处理时间的第 50 个百分位数(以毫秒为单位,num 秒粒度)。num 由 rpc.metrics.percentiles.intervals 指定。 |
rpcProcessingTime nums75thPercentileLatency |
如果将 rpc.metrics.quantile.enable 设置为 true,则显示 RPC 处理时间的第 75 个百分位数(以毫秒为单位,num 秒粒度)。num 由 rpc.metrics.percentiles.intervals 指定。 |
rpcProcessingTime nums90thPercentileLatency |
如果将 rpc.metrics.quantile.enable 设置为 true,则显示 RPC 处理时间的第 90 个百分位数(以毫秒为单位,num 秒粒度)。num 由 rpc.metrics.percentiles.intervals 指定。 |
rpcProcessingTime nums95thPercentileLatency |
如果将 rpc.metrics.quantile.enable 设置为 true,则显示 RPC 处理时间的第 95 个百分位数(以毫秒为单位,num 秒粒度)。num 由 rpc.metrics.percentiles.intervals 指定。 |
rpcProcessingTime nums99thPercentileLatency |
如果将 rpc.metrics.quantile.enable 设置为 true,则显示以毫秒为单位的 RPC 处理时间的第 99 个百分位(num 秒粒度)。num 由 rpc.metrics.percentiles.intervals 指定。 |
rpcLockWaitTime numsNumOps |
如果将 rpc.metrics.quantile.enable 设置为 true,则显示 RPC 调用的总数(num 秒粒度)。num 由 rpc.metrics.percentiles.intervals 指定。 |
rpcLockWaitTime nums50thPercentileLatency |
如果将 rpc.metrics.quantile.enable 设置为 true,则显示以毫秒为单位的 RPC 锁等待时间的第 50 个百分位(num 秒粒度)。num 由 rpc.metrics.percentiles.intervals 指定。 |
rpcLockWaitTime nums75thPercentileLatency |
如果将 rpc.metrics.quantile.enable 设置为 true,则显示以毫秒为单位的 RPC 锁等待时间的第 75 个百分位(num 秒粒度)。num 由 rpc.metrics.percentiles.intervals 指定。 |
rpcLockWaitTime nums90thPercentileLatency |
如果将 rpc.metrics.quantile.enable 设置为 true,则显示以毫秒为单位的 RPC 锁等待时间的第 90 个百分位(num 秒粒度)。num 由 rpc.metrics.percentiles.intervals 指定。 |
rpcLockWaitTime nums95thPercentileLatency |
如果将 rpc.metrics.quantile.enable 设置为 true,则显示以毫秒为单位的 RPC 锁等待时间的第 95 个百分位(num 秒粒度)。num 由 rpc.metrics.percentiles.intervals 指定。 |
rpcLockWaitTime nums99thPercentileLatency |
如果将 rpc.metrics.quantile.enable 设置为 true,则显示以毫秒为单位的 RPC 锁等待时间的第 99 个百分位(num 秒粒度)。num 由 rpc.metrics.percentiles.intervals 指定。 |
TotalRequests |
RPC 服务器处理的请求总数。 |
TotalRequestsPerSeconds |
RPC 服务器每秒处理的请求总数。 |
RetryCache 指标可用于监控 NameNode 故障转移。每个指标记录都包含 Hostname 标记。
名称 | 描述 |
---|---|
CacheHit |
RetryCache 命中总数 |
CacheCleared |
RetryCache 清除总数 |
CacheUpdated |
RetryCache 更新总数 |
只有在启用 FairCallQueue 时,FairCallQueue 指标才会存在。每个指标都针对每个优先级级别存在。
名称 | 描述 |
---|---|
FairCallQueueSize_p Priority |
优先级队列中当前的调用数 |
FairCallQueueOverflowedCalls_p Priority |
优先级队列中溢出的调用总数 |
只有在使用 DecayRpcScheduler(启用 FairCallQueue)时,DecayRpcSchedulerDetailed 指标才会存在。它是 FairCallQueue 指标的补充。对于每个优先级级别,都会公开 rpcqueue 和 rpcprocessing 详细指标。
名称 | 描述 |
---|---|
DecayRPCSchedulerPriority. Priority.RpcQueueTime |
每个优先级的 RpcQueueTime 指标 |
DecayRPCSchedulerPriority. Priority.RpcProcessingTime |
每个优先级的 RpcProcessingTime 指标 |
RPC 层以统一的方式公开 rpcdetailed 上下文指标。针对每个 RPC,会根据其名称公开两个指标。名为 “(RPC 方法名称)NumOps” 的指标表示方法调用的总数,名为 “(RPC 方法名称)AvgTime” 的指标以毫秒为单位显示方法调用的平均周转时间。请注意,AvgTime 指标不包括用于获取数据结构锁所花费的时间(请参阅 RpcLockWaitTimeAvgTime)。
每个指标记录都包含标签(例如主机名和端口(服务器绑定的编号)),作为指标的附加信息。
未调用的 RPC 的指标不包含在指标记录中。
名称 | 描述 |
---|---|
methodnameNumOps |
调用该方法的次数总数 |
methodnameAvgTime |
该方法的平均周转时间(以毫秒为单位) |
每个指标记录都包含标签(例如进程名称、会话 ID 和主机名),作为指标的附加信息。
名称 | 描述 |
---|---|
CreateFileOps |
创建的文件总数 |
FilesCreated |
通过创建或 mkdir 操作创建的文件和目录总数 |
FilesAppended |
追加的文件总数 |
GetBlockLocations |
getBlockLocations 操作的总数 |
FilesRenamed |
重命名操作的总数(不是重命名的文件/目录数) |
GetListingOps |
目录列表操作的总数 |
DeleteFileOps |
删除操作的总数 |
FilesDeleted |
通过删除或重命名操作删除的文件和目录总数 |
FileInfoOps |
getFileInfo 和 getLinkFileInfo 操作的总数 |
AddBlockOps |
成功的 addBlock 操作的总数 |
GetAdditionalDatanodeOps |
getAdditionalDatanode 操作的总数 |
CreateSymlinkOps |
createSymlink 操作的总数 |
GetLinkTargetOps |
getLinkTarget 操作的总数 |
FilesInGetListingOps |
通过目录列表操作列出的文件和目录总数 |
SuccessfulReReplications |
成功的块重新复制的总数 |
NumTimesReReplicationNotScheduled |
未能安排块重新复制的次数总数 |
TimeoutReReplications |
超时块重新复制的总数 |
AllowSnapshotOps |
allowSnapshot 操作的总数 |
DisallowSnapshotOps |
disallowSnapshot 操作的总数 |
CreateSnapshotOps |
createSnapshot 操作的总数 |
DeleteSnapshotOps |
deleteSnapshot 操作的总数 |
RenameSnapshotOps |
renameSnapshot 操作的总数 |
ListSnapshottableDirOps |
snapshottableDirectoryStatus 操作的总数 |
SnapshotDiffReportOps |
getSnapshotDiffReport 操作的总数 |
TransactionsNumOps |
日志事务总数 |
TransactionsAvgTime |
日志事务平均时间(毫秒) |
SyncsNumOps |
日志同步总数 |
SyncsAvgTime |
日志同步平均时间(毫秒) |
SyncsTime nums(50/75/90/95/99)thPercentileLatency |
日志同步时间(num 秒粒度)的第 50/75/90/95/99 个百分位(毫秒)。默认情况下,百分位测量处于关闭状态,不观察任何时间间隔。时间间隔由 dfs.metrics.percentiles.intervals 指定。 |
TransactionsBatchedInSync |
同步中批处理的日志事务总数 |
TransactionsBatchedInSync nums(50/75/90/95/99)thPercentileCount |
批处理日志事务数(num 秒粒度)的第 50/75/90/95/99 个百分位。默认情况下,百分位测量处于关闭状态,不观察任何时间间隔。时间间隔由 dfs.metrics.percentiles.intervals 指定。 |
StorageBlockReportNumOps |
DataNode 中各个存储处理块报告的总数 |
StorageBlockReportAvgTime |
处理块报告的平均时间(毫秒) |
StorageBlockReport nums(50/75/90/95/99)thPercentileLatency |
块报告处理时间(num 秒粒度)的第 50/75/90/95/99 个百分位(毫秒)。默认情况下,百分位测量处于关闭状态,不观察任何时间间隔。时间间隔由 dfs.metrics.percentiles.intervals 指定。 |
CacheReportNumOps |
DataNode 处理缓存报告的总数 |
CacheReportAvgTime |
处理缓存报告的平均时间(毫秒) |
CacheReport nums(50/75/90/95/99)thPercentileLatency |
缓存报告处理时间(num 秒粒度)的第 50/75/90/95/99 个百分位(毫秒)。默认情况下,百分位测量处于关闭状态,不观察任何时间间隔。时间间隔由 dfs.metrics.percentiles.intervals 指定。 |
SafeModeTime |
FSNameSystem 启动与安全模式最后一次退出之间的时间间隔(毫秒)。(有时不等于安全模式中的时间,请参阅 HDFS-5156) |
FsImageLoadTime |
启动时加载 FS 映像的时间(毫秒) |
GetEditNumOps |
从 SecondaryNameNode 下载编辑的总数 |
GetEditAvgTime |
下载编辑的平均时间(毫秒) |
GetImageNumOps |
从 SecondaryNameNode 下载 fsimage 的总数 |
GetImageAvgTime |
下载 fsimage 的平均时间(毫秒) |
PutImageNumOps |
上传到 SecondaryNameNode 的 fsimage 总数 |
PutImageAvgTime |
上传 fsimage 的平均时间(毫秒) |
TotalFileOps |
执行的文件操作总数 |
NNStartedTimeInMillis |
NameNode 启动时间(毫秒) |
GenerateEDEKTimeNumOps |
生成 EDEK 的总数 |
GenerateEDEKTimeAvgTime |
生成 EDEK 的平均时间(毫秒) |
GenerateEDEKTime nums(50/75/90/95/99)thPercentileLatency |
生成 EDEK 所花费的时间的 50/75/90/95/99th 百分位数(以毫秒为单位)(num 秒粒度)。默认情况下,百分位数测量处于关闭状态,通过不观察任何间隔。这些间隔由 dfs.metrics.percentiles.intervals 指定。 |
WarmUpEDEKTimeNumOps |
预热 EDEK 的总数 |
WarmUpEDEKTimeAvgTime |
预热 EDEK 的平均时间(以毫秒为单位) |
WarmUpEDEKTime nums(50/75/90/95/99)thPercentileLatency |
预热 EDEK 所花费时间的 50/75/90/95/99th 百分位数(以毫秒为单位)(num 秒粒度)。默认情况下,百分位数测量处于关闭状态,通过不观察任何间隔。这些间隔由 dfs.metrics.percentiles.intervals 指定。 |
ResourceCheckTime nums(50/75/90/95/99)thPercentileLatency |
NameNode 资源检查延迟的 50/75/90/95/99th 百分位数(以毫秒为单位)(num 秒粒度)。默认情况下,百分位数测量处于关闭状态,通过不观察任何间隔。这些间隔由 dfs.metrics.percentiles.intervals 指定。 |
EditLogTailTimeNumOps |
备用 NameNode 尾随编辑日志的总次数 |
EditLogTailTimeAvgTime |
备用 NameNode 尾随编辑日志所花费的平均时间(以毫秒为单位) |
EditLogTailTime nums(50/75/90/95/99)thPercentileLatency |
备用 NameNode 尾随编辑日志所花费时间的 50/75/90/95/99th 百分位数(以毫秒为单位)(num 秒粒度)。默认情况下,百分位数测量处于关闭状态,通过不观察任何间隔。这些间隔由 dfs.metrics.percentiles.intervals 指定。 |
EditLogFetchTimeNumOps |
备用 NameNode 从日志节点获取远程编辑流的总次数 |
EditLogFetchTimeAvgTime |
备用 NameNode 从日志节点获取远程编辑流所花费的平均时间(以毫秒为单位) |
EditLogFetchTime nums(50/75/90/95/99)thPercentileLatency |
备用 NameNode 从日志节点获取编辑流所花费时间的 50/75/90/95/99th 百分位数(以毫秒为单位)(num 秒粒度)。默认情况下,百分位数测量处于关闭状态,通过不观察任何间隔。这些间隔由 dfs.metrics.percentiles.intervals 指定。 |
NumEditLogLoadedNumOps |
备用 NameNode 加载编辑的总次数 |
NumEditLogLoadedAvgCount |
备用 NameNode 在每次编辑日志尾随中加载的平均编辑数 |
NumEditLogLoaded nums(50/75/90/95/99)thPercentileCount |
备用 NameNode 在每次编辑日志尾随中加载的编辑数的 50/75/90/95/99th 百分位数(num 秒粒度)。默认情况下,百分位数测量处于关闭状态,通过不观察任何间隔。这些间隔由 dfs.metrics.percentiles.intervals 指定。 |
EditLogTailIntervalNumOps |
备用 NameNode 编辑日志尾随之间的总间隔数 |
EditLogTailIntervalAvgTime |
备用 NameNode 编辑日志尾随之间的平均间隔时间(以毫秒为单位) |
EditLogTailInterval nums(50/75/90/95/99)thPercentileLatency |
备用 NameNode 编辑日志尾随之间的时间的 50/75/90/95/99th 百分位数(以毫秒为单位)(num 秒粒度)。默认情况下,百分位数测量处于关闭状态,通过不观察任何间隔。这些间隔由 dfs.metrics.percentiles.intervals 指定。 |
PendingEditsCount |
当前挂起的编辑数量 |
每个指标记录包含标签(如 HAState 和 Hostname)作为指标的附加信息。
名称 | 描述 |
---|---|
MissingBlocks |
当前丢失块的数量 |
ExpiredHeartbeats |
已过期的检测信号总数 |
TransactionsSinceLastCheckpoint |
自上次检查点以来的交易总数 |
TransactionsSinceLastLogRoll |
自上次编辑日志滚动以来的交易总数 |
LastWrittenTransactionId |
写入编辑日志的最后一个交易 ID |
LastCheckpointTime |
自上次检查点以来的纪元时间(以毫秒为单位) |
CapacityTotal |
以字节为单位的 DataNode 的当前原始容量 |
CapacityTotalGB |
以 GB 为单位的 DataNode 的当前原始容量 |
CapacityUsed |
以字节为单位的跨所有 DataNode 的当前已用容量 |
CapacityUsedGB |
以 GB 为单位的跨所有 DataNode 的当前已用容量 |
CapacityRemaining |
以字节为单位的当前剩余容量 |
CapacityRemainingGB |
以 GB 为单位的当前剩余容量 |
CapacityUsedNonDFS |
以字节为单位的 DataNode 当前用于非 DFS 用途的空间 |
TotalLoad |
当前连接数 |
SnapshottableDirectories |
当前可生成快照的目录数 |
快照 |
当前快照数 |
NumEncryptionZones |
当前加密区域数 |
BlocksTotal |
系统中当前已分配块数 |
FilesTotal |
当前文件和目录数 |
PendingReplicationBlocks |
当前待复制的块数 |
UnderReplicatedBlocks |
当前复制不足的块数 |
CorruptBlocks |
当前副本损坏的块数。 |
ScheduledReplicationBlocks |
当前计划复制的块数 |
PendingDeletionBlocks |
当前待删除的块数 |
ExcessBlocks |
当前多余块数 |
PostponedMisreplicatedBlocks |
(仅限 HA)当前推迟复制的块数 |
PendingDataNodeMessageCount |
(仅限 HA)当前待处理块相关消息数,用于备用 NameNode 中的后期处理 |
MillisSinceLastLoadedEdits |
(仅限 HA)自备用 NameNode 加载编辑日志以来的时间(以毫秒为单位)。在活动 NameNode 中,设置为 0 |
BlockCapacity |
当前块容量 |
NumLiveDataNodes |
当前处于活动状态的数据节点数 |
NumDeadDataNodes |
当前处于死亡状态的数据节点数 |
NumDecomLiveDataNodes |
已退役且现在处于活动状态的数据节点数 |
NumDecomDeadDataNodes |
已退役且现在处于死亡状态的数据节点数 |
NumDecommissioningDataNodes |
处于退役状态的数据节点数 |
VolumeFailuresTotal |
所有数据节点上的卷故障总数 |
EstimatedCapacityLostTotal |
因卷故障导致的总容量损失估计值 |
StaleDataNodes |
由于心跳延迟而标记为陈旧的数据节点当前数量 |
NumStaleStorages |
标记为内容陈旧的存储数量(在接收到第一个块报告之前,NameNode 重新启动/故障转移后) |
MissingReplOneBlocks |
副本系数为 1 的缺失块当前数量 |
HighestPriorityLowRedundancyReplicatedBlocks |
丢失风险最高的非损坏低冗余复制块当前数量(有 0 或 1 个副本)。将以最高优先级进行恢复。 |
HighestPriorityLowRedundancyECBlocks |
丢失风险最高的非损坏低冗余 EC 块当前数量。将以最高优先级进行恢复。 |
NumFilesUnderConstruction |
正在构建的文件当前数量 |
NumActiveClients |
持有租约的活动客户端当前数量 |
HAState |
(仅限 HA)NameNode 的当前状态:初始化、活动、备用或停止状态 |
FSState |
文件系统的当前状态:安全模式或操作模式 |
LockQueueLength |
等待获取 FSNameSystem 锁的线程数量 |
ReadLockLongHoldCount |
读锁已持有超过阈值的时间次数 |
WriteLockLongHoldCount |
写锁已持有超过阈值的时间次数 |
TotalSyncCount |
编辑日志执行的同步操作总数 |
TotalSyncTimes |
各种编辑日志在同步操作中花费的总毫秒数 |
NameDirSize |
NameNode 名称目录大小(以字节为单位) |
NumTimedOutPendingReconstructions |
超时重建的数量。不是超时唯一块的数量。 |
NumInMaintenanceLiveDataNodes |
处于维护状态的活动数据节点数量 |
NumInMaintenanceDeadDataNodes |
处于维护状态的死数据节点数量 |
NumEnteringMaintenanceDataNodes |
正在进入维护状态的数据节点数量 |
FSN(Read/Write)Lock OperationNameNanosNumOps |
按操作获取锁的总数 |
FSN(Read/Write)Lock OperationNameNanosAvgTime |
按操作持有锁的平均时间(以纳秒为单位) |
FSN(读/写)LockOverallNanosNumOps |
所有操作获取锁的总数 |
FSN(读/写)LockOverallNanosAvgTime |
所有操作持有锁的平均时间(以纳秒为单位) |
从 JournalNode 的角度来看,用于日志的服务器端指标。每个指标记录都包含 Hostname 标记作为附加信息以及指标。
名称 | 描述 |
---|---|
Syncs60sNumOps |
同步操作数(1 分钟粒度) |
Syncs60s50thPercentileLatencyMicros |
同步延迟的第 50 个百分位数(以微秒为单位)(1 分钟粒度) |
Syncs60s75thPercentileLatencyMicros |
同步延迟的第 75 个百分位数(以微秒为单位)(1 分钟粒度) |
Syncs60s90thPercentileLatencyMicros |
同步延迟的第 90 个百分位数(以微秒为单位)(1 分钟粒度) |
Syncs60s95thPercentileLatencyMicros |
同步延迟的第 95 个百分位数(以微秒为单位)(1 分钟粒度) |
Syncs60s99thPercentileLatencyMicros |
同步延迟的第 99 个百分位数(以微秒为单位)(1 分钟粒度) |
Syncs300sNumOps |
同步操作数(5 分钟粒度) |
Syncs300s50thPercentileLatencyMicros |
同步延迟的第 50 个百分位数(以微秒为单位)(5 分钟粒度) |
Syncs300s75thPercentileLatencyMicros |
同步延迟的第 75 个百分位数(以微秒为单位)(5 分钟粒度) |
Syncs300s90thPercentileLatencyMicros |
同步延迟的第 90 个百分位数(以微秒为单位)(5 分钟粒度) |
Syncs300s95thPercentileLatencyMicros |
同步延迟的第 95 个百分位数(以微秒为单位)(5 分钟粒度) |
Syncs300s99thPercentileLatencyMicros |
同步延迟的第 99 个百分位数(以微秒为单位)(5 分钟粒度) |
Syncs3600sNumOps |
同步操作数(1 小时粒度) |
Syncs3600s50thPercentileLatencyMicros |
同步延迟的第 50 个百分位数(以微秒为单位)(1 小时粒度) |
Syncs3600s75thPercentileLatencyMicros |
同步延迟的第 75 个百分位数(以微秒为单位)(1 小时粒度) |
Syncs3600s90thPercentileLatencyMicros |
同步延迟的第 90 个百分位数(以微秒为单位)(1 小时粒度) |
Syncs3600s95thPercentileLatencyMicros |
同步延迟的第 95 个百分位数(以微秒为单位)(1 小时粒度) |
Syncs3600s99thPercentileLatencyMicros |
微秒为单位的同步延迟的第 99 个百分位数(1 小时粒度) |
NumTransactionsBatchedInSync60sNumOps |
事务在同步操作中批处理的次数(1 分钟粒度) |
NumTransactionsBatchedInSync60s50thPercentileLatencyMicros |
同步批处理的事务的第 50 个百分位数(1 分钟粒度) |
NumTransactionsBatchedInSync60s75thPercentileLatencyMicros |
同步批处理的事务的第 75 个百分位数(1 分钟粒度) |
NumTransactionsBatchedInSync60s90thPercentileLatencyMicros |
同步批处理的事务的第 90 个百分位数(1 分钟粒度) |
NumTransactionsBatchedInSync60s95thPercentileLatencyMicros |
同步批处理的事务的第 95 个百分位数(1 分钟粒度) |
NumTransactionsBatchedInSync60s99thPercentileLatencyMicros |
同步批处理的事务的第 99 个百分位数(1 分钟粒度) |
NumTransactionsBatchedInSync300sNumOps |
事务在同步操作中批处理的次数(5 分钟粒度) |
NumTransactionsBatchedInSync300s50thPercentileLatencyMicros |
同步批处理的事务的第 50 个百分位数(5 分钟粒度) |
NumTransactionsBatchedInSync300s75thPercentileLatencyMicros |
同步批处理的事务的第 75 个百分位数(5 分钟粒度) |
NumTransactionsBatchedInSync300s90thPercentileLatencyMicros |
同步批处理的事务的第 90 个百分位数(5 分钟粒度) |
NumTransactionsBatchedInSync300s95thPercentileLatencyMicros |
同步批处理的事务的第 95 个百分位数(5 分钟粒度) |
NumTransactionsBatchedInSync300s99thPercentileLatencyMicros |
同步批处理的事务的第 99 个百分位数(5 分钟粒度) |
NumTransactionsBatchedInSync3600sNumOps |
事务在同步操作中批处理的次数(1 小时粒度) |
NumTransactionsBatchedInSync3600s50thPercentileLatencyMicros |
同步批处理的事务的第 50 个百分位数(1 小时粒度) |
NumTransactionsBatchedInSync3600s75thPercentileLatencyMicros |
同步批处理的事务的第 75 个百分位数(1 小时粒度) |
NumTransactionsBatchedInSync3600s90thPercentileLatencyMicros |
同步批处理的事务的第 90 个百分位数(1 小时粒度) |
NumTransactionsBatchedInSync3600s95thPercentileLatencyMicros |
同步批处理的事务的第 95 个百分位数(1 小时粒度) |
NumTransactionsBatchedInSync3600s99thPercentileLatencyMicros |
同步计数中批处理事务的第 99 个百分位(1 小时粒度) |
BatchesWritten |
自启动以来写入的批处理总数 |
TxnsWritten |
自启动以来写入的事务总数 |
BytesWritten |
自启动以来写入的字节总数 |
BatchesWrittenWhileLagging |
此节点滞后时写入的批处理总数 |
LastWriterEpoch |
当前写入者的纪元号 |
CurrentLagTxns |
此 JournalNode 滞后的事务数 |
LastWrittenTxId |
此 JournalNode 上存储的最高事务 ID |
LastPromisedEpoch |
此节点承诺不接受任何较低纪元的最后一个纪元号,如果未做出任何承诺,则为 0 |
LastJournalTimestamp |
最后成功写入的事务的时间戳 |
TxnsServedViaRpc |
通过 RPC 机制处理的事务数 |
BytesServedViaRpc |
通过 RPC 机制处理的字节数 |
RpcRequestCacheMissAmountNumMisses |
由于缓存中缺少数据而无法处理的 RPC 请求数 |
RpcRequestCacheMissAmountAvgTxns |
请求未命中缓存的事务的平均数;例如,如果请求事务 ID 10,而缓存中最旧的事务是 ID 15,则会将值 5 添加到此平均值 |
RpcEmptyResponses |
返回零编辑的 RPC 请求数 |
每个指标记录都包含标记,例如 SessionId 和 Hostname,作为指标的附加信息。
名称 | 描述 |
---|---|
BytesWritten |
写入 DataNode 的字节总数 |
BytesRead |
从 DataNode 读取的字节总数 |
ReadTransferRateNumOps |
数据读取传输的总数 |
ReadTransferRateAvgTime |
从 DataNode 读取的字节的平均传输速率,以每秒字节数为单位。 |
ReadTransferRate nums(50/75/90/95/99)thPercentileRate |
从 DataNode 读取的字节的传输速率的 50/75/90/95/99 个百分位,以每秒字节数为单位。 |
BlocksWritten |
写入 DataNode 的块总数 |
BlocksRead |
从 DataNode 读取的块总数 |
BlocksReplicated |
复制的块总数 |
BlocksRemoved |
删除的块总数 |
BlocksVerified |
验证的块总数 |
BlockVerificationFailures |
验证失败的总数 |
BlocksCached |
缓存的块总数 |
BlocksUncached |
未缓存的块总数 |
ReadsFromLocalClient |
本地客户端的读取操作总数 |
ReadsFromRemoteClient |
远程客户端的读取操作总数 |
WritesFromLocalClient |
本地客户端的写入操作总数 |
WritesFromRemoteClient |
远程客户端的写入操作总数 |
BlocksGetLocalPathInfo |
获取块的本地路径名的操作总数 |
RamDiskBlocksWrite |
写入内存的块总数 |
RamDiskBlocksWriteFallback |
写入内存但未满足的块总数(故障转移到磁盘) |
RamDiskBytesWrite |
写入内存的字节总数 |
RamDiskBlocksReadHits |
内存中块被读取的次数 |
RamDiskBlocksEvicted |
内存中被驱逐的块总数 |
RamDiskBlocksEvictedWithoutRead |
在内存中被驱逐但从未从内存中读取的块总数 |
RamDiskBlocksEvictionWindowMsNumOps |
内存中被驱逐的块数 |
RamDiskBlocksEvictionWindowMsAvgTime |
内存中块在被驱逐前停留的平均时间(以毫秒为单位) |
RamDiskBlocksEvictionWindows nums(50/75/90/95/99)thPercentileLatency |
内存写入和驱逐之间延迟的第 50/75/90/95/99 个百分位数(num 秒粒度)。默认情况下,百分位数测量处于关闭状态,不观察任何间隔。这些间隔由 dfs.metrics.percentiles.intervals 指定。 |
RamDiskBlocksLazyPersisted |
由惰性写入器写入磁盘的块总数 |
RamDiskBlocksDeletedBeforeLazyPersisted |
在持久化到磁盘之前被应用程序删除的块总数 |
RamDiskBytesLazyPersisted |
由惰性写入器写入磁盘的字节总数 |
RamDiskBlocksLazyPersistWindowMsNumOps |
由惰性写入器写入磁盘的块数 |
RamDiskBlocksLazyPersistWindowMsAvgTime |
由惰性写入器写入磁盘的块的平均时间(以毫秒为单位) |
RamDiskBlocksLazyPersistWindows nums(50/75/90/95/99)thPercentileLatency |
内存写入和磁盘持久化之间延迟的第 50/75/90/95/99 个百分位数(num 秒粒度)。默认情况下,百分位数测量处于关闭状态,不观察任何间隔。这些间隔由 dfs.metrics.percentiles.intervals 指定。 |
FsyncCount |
fsync 的总数 |
VolumeFailures |
发生的卷故障总数 |
ReadBlockOpNumOps |
读取操作总数 |
ReadBlockOpAvgTime |
读取操作的平均时间(以毫秒为单位) |
WriteBlockOpNumOps |
写入操作总数 |
WriteBlockOpAvgTime |
写操作的平均时间(毫秒) |
BlockChecksumOpNumOps |
块校验和操作的总数 |
BlockChecksumOpAvgTime |
块校验和操作的平均时间(毫秒) |
CopyBlockOpNumOps |
块复制操作的总数 |
CopyBlockOpAvgTime |
块复制操作的平均时间(毫秒) |
ReplaceBlockOpNumOps |
块替换操作的总数 |
ReplaceBlockOpAvgTime |
块替换操作的平均时间(毫秒) |
HeartbeatsNumOps |
心跳的总数 |
HeartbeatsAvgTime |
心跳的平均时间(毫秒) |
HeartbeatsFor ServiceId- NNIdNumOps |
发送到特定服务 ID 和 NN ID 的心跳总数 |
HeartbeatsFor ServiceId- NNIdAvgTime |
发送到特定服务 ID 和 NN ID 的心跳的平均时间(毫秒) |
HeartbeatsTotalNumOps |
心跳的总数,与 HeartbeatsNumOps 重复 |
HeartbeatsTotalAvgTime |
心跳的平均总时间(毫秒) |
HeartbeatsTotalFor ServiceId- NNIdNumOps |
发送到特定服务 ID 和 NN ID 的心跳的总数,与 HeartbeatsFor ServiceId- NNIdNumOps 重复 |
HeartbeatsTotalFor ServiceId- NNIdAvgTime |
发送到特定服务 ID 和 NN ID 的心跳的平均总时间(毫秒) |
LifelinesNumOps |
生命线消息的总数 |
LifelinesAvgTime |
生命线消息处理的平均时间(毫秒) |
LifelinesFor ServiceId- NNIdNumOps |
发送到特定服务 ID 和 NN ID 的生命线消息的总数 |
LifelinesFor ServiceId- NNIdAvgTime |
发送到特定服务 ID 和 NN ID 的生命线消息处理的平均时间(毫秒) |
BlockReportsNumOps |
块报告操作的总数 |
BlockReportsAvgTime |
块报告操作的平均时间(毫秒) |
BlockReports ServiceId- NNIdNumOps |
发送到特定服务 ID 和 NN ID 的块报告操作的总数 |
BlockReports ServiceId- NNIdAvgTime |
发送到特定服务 ID 和 NN ID 的块报告操作的平均时间(毫秒) |
IncrementalBlockReportsNumOps |
增量块报告操作总数 |
IncrementalBlockReportsAvgTime |
增量块报告操作的平均时间(以毫秒为单位) |
IncrementalBlockReports ServiceId- NNIdNumOps |
针对特定 serviceId 和 nnId 的增量块报告操作总数 |
IncrementalBlockReports ServiceId- NNIdAvgTime |
针对特定 serviceId 和 nnId 的增量块报告操作的平均时间(以毫秒为单位) |
CacheReportsNumOps |
缓存报告操作总数 |
CacheReportsAvgTime |
缓存报告操作的平均时间(以毫秒为单位) |
PacketAckRoundTripTimeNanosNumOps |
确认往返总数 |
PacketAckRoundTripTimeNanosAvgTime |
从发送确认到接收确认的平均时间,减去下行确认时间(以纳秒为单位) |
PacketAckRoundTripTimeNanos nums(50/75/90/95/99)thPercentileLatency |
从发送确认到接收确认的第 50/75/90/95/99 个百分位延迟,减去下行确认时间(以纳秒为单位)(num 秒粒度)。默认情况下,百分位测量处于关闭状态,不观察任何时间间隔。时间间隔由 dfs.metrics.percentiles.intervals 指定。 |
FlushNanosNumOps |
刷新总数 |
FlushNanosAvgTime |
刷新平均时间(以纳秒为单位) |
FlushNanos nums(50/75/90/95/99)thPercentileLatency |
第 50/75/90/95/99 个百分位刷新时间(以纳秒为单位)(num 秒粒度)。默认情况下,百分位测量处于关闭状态,不观察任何时间间隔。时间间隔由 dfs.metrics.percentiles.intervals 指定。 |
FsyncNanosNumOps |
fsync 的总数 |
FsyncNanosAvgTime |
fsync 平均时间(以纳秒为单位) |
FsyncNanos nums(50/75/90/95/99)thPercentileLatency |
第 50/75/90/95/99 个百分位 fsync 时间(以纳秒为单位)(num 秒粒度)。默认情况下,百分位测量处于关闭状态,不观察任何时间间隔。时间间隔由 dfs.metrics.percentiles.intervals 指定。 |
SendDataPacketBlockedOnNetworkNanosNumOps |
发送数据包总数 |
SendDataPacketBlockedOnNetworkNanosAvgTime |
发送数据包的平均等待时间(以纳秒为单位) |
SendDataPacketBlockedOnNetworkNanos nums(50/75/90/95/99)thPercentileLatency |
发送数据包的第 50/75/90/95/99 个百分位等待时间(以纳秒为单位)(num 秒粒度)。默认情况下,百分位测量处于关闭状态,不观察任何时间间隔。时间间隔由 dfs.metrics.percentiles.intervals 指定。 |
SendDataPacketTransferNanosNumOps |
发送数据包总数 |
SendDataPacketTransferNanosAvgTime |
发送数据包的平均传输时间(以纳秒为单位) |
SendDataPacketTransferNanos nums(50/75/90/95/99)thPercentileLatency |
发送数据包的第 50/75/90/95/99 个百分位传输时间(以纳秒为单位)(num 秒粒度)。默认情况下,百分位测量处于关闭状态,不观察任何时间间隔。时间间隔由 dfs.metrics.percentiles.intervals 指定。 |
TotalWriteTime |
用于写入操作的总毫秒数 |
TotalReadTime |
读取操作花费的总毫秒数 |
RemoteBytesRead |
远程客户端读取的字节数 |
RemoteBytesWritten |
远程客户端写入的字节数 |
BPServiceActorInfo |
有关块池服务操作者的信息 |
BlocksInPendingIBR |
待处理增量块报告 (IBR) 中的块数 |
BlocksReceivingInPendingIBR |
待处理增量块报告 (IBR) 中处于接收状态的块数 |
BlocksReceivedInPendingIBR |
待处理增量块报告 (IBR) 中处于已接收状态的块数 |
BlocksDeletedInPendingIBR |
待处理增量块报告 (IBR) 中处于已删除状态的块数 |
EcReconstructionTasks |
擦除编码重建任务的总数 |
EcFailedReconstructionTasks |
擦除编码重建任务失败的总数 |
EcInvalidReconstructionTasks |
擦除编码重建任务失效的总数 |
EcDecodingTimeNanos |
解码任务花费的总纳秒数 |
EcReconstructionBytesRead |
擦除编码工作程序读取的总字节数 |
EcReconstructionBytesWritten |
擦除编码工作程序写入的总字节数 |
EcReconstructionRemoteBytesRead |
擦除编码工作程序远程读取的总字节数 |
每个卷度量包含与数据节点卷 IO 相关的统计信息。默认情况下,每个卷度量处于关闭状态。可通过将 dfs.datanode .fileio.profiling.percentage.fraction
设置为介于 1 到 100 之间的整数值来启用它们。将此值设置为 0 表示未启用分析。但启用每个卷度量可能会影响性能。每个度量记录都包含标签(如主机名)作为附加信息以及度量。
名称 | 描述 |
---|---|
TotalMetadataOperations |
元数据操作的总数(单调递增)。元数据操作包括 stat、list、mkdir、delete、move、open 和 posix_fadvise。 |
MetadataOperationRateNumOps |
度量间隔时间内的元数据操作数 |
MetadataOperationRateAvgTime |
元数据操作的平均时间(以毫秒为单位) |
MetadataOperationLatency nums(50/75/90/95/99)thPercentileLatency |
元数据操作延迟的 50/75/90/95/99 百分位数(以毫秒为单位)(num 秒粒度)。默认情况下,百分位数测量处于关闭状态,不观察任何间隔。间隔由 dfs.metrics.percentiles.intervals 指定。 |
TotalDataFileIos |
数据文件 IO 操作的总数(单调递增) |
DataFileIoRateNumOps |
度量间隔时间内的数据文件 IO 操作数 |
DataFileIoRateAvgTime |
数据文件 IO 操作的平均时间(以毫秒为单位) |
DataFileIoLatency nums(50/75/90/95/99)thPercentileLatency |
数据文件 IO 操作延迟的 50/75/90/95/99 百分位数(以毫秒为单位)(num 秒粒度)。默认情况下,百分位数测量处于关闭状态,不观察任何间隔。间隔由 dfs.metrics.percentiles.intervals 指定。 |
FlushIoRateNumOps |
度量指标时间间隔内的文件刷新 IO 操作数 |
FlushIoRateAvgTime |
文件刷新 IO 操作的平均时间(毫秒) |
FlushIoLatency nums(50/75/90/95/99)thPercentileLatency |
文件刷新 IO 操作延迟的 50/75/90/95/99th 百分位数(num 秒粒度)。默认情况下,百分位数测量处于关闭状态,不观察任何间隔。这些间隔由 dfs.metrics.percentiles.intervals 指定。 |
SyncIoRateNumOps |
度量指标时间间隔内的文件同步 IO 操作数 |
SyncIoRateAvgTime |
文件同步 IO 操作的平均时间(毫秒) |
SyncIoLatency nums(50/75/90/95/99)thPercentileLatency |
文件同步 IO 操作延迟的 50/75/90/95/99th 百分位数(num 秒粒度)。默认情况下,百分位数测量处于关闭状态,不观察任何间隔。这些间隔由 dfs.metrics.percentiles.intervals 指定。 |
ReadIoRateNumOps |
度量指标时间间隔内的文件读取 IO 操作数 |
ReadIoRateAvgTime |
文件读取 IO 操作的平均时间(毫秒) |
ReadIoLatency nums(50/75/90/95/99)thPercentileLatency |
文件读取 IO 操作延迟的 50/75/90/95/99th 百分位数(num 秒粒度)。默认情况下,百分位数测量处于关闭状态,不观察任何间隔。这些间隔由 dfs.metrics.percentiles.intervals 指定。 |
WriteIoRateNumOps |
度量指标时间间隔内的文件写入 IO 操作数 |
WriteIoRateAvgTime |
文件写入 IO 操作的平均时间(毫秒) |
WriteIoLatency nums(50/75/90/95/99)thPercentileLatency |
文件写入 IO 操作延迟的 50/75/90/95/99th 百分位数(num 秒粒度)。默认情况下,百分位数测量处于关闭状态,不观察任何间隔。这些间隔由 dfs.metrics.percentiles.intervals 指定。 |
TransferIoRateNumOps |
度量指标时间间隔内的文件传输 IO 操作数 |
TransferIoRateAvgTime |
文件传输 IO 操作的平均时间(毫秒) |
TransferIoLatency nums(50/75/90/95/99)thPercentileLatency |
文件传输 IO 操作延迟的 50/75/90/95/99th 百分位数(num 秒粒度)。默认情况下,百分位数测量处于关闭状态,不观察任何间隔。这些间隔由 dfs.metrics.percentiles.intervals 指定。 |
NativeCopyIoRateNumOps |
指标时间间隔内的文件 nativeCopy io 操作数 |
NativeCopyIoRateAvgTime |
文件 nativeCopy io 操作的平均时间,单位为毫秒 |
NativeCopyIoLatency nums(50/75/90/95/99)thPercentileLatency |
文件 nativeCopy io 操作延迟的 50/75/90/95/99 百分位数,单位为毫秒(num 秒粒度)。默认情况下,百分位数测量处于关闭状态,不观察任何时间间隔。时间间隔由 dfs.metrics.percentiles.intervals 指定。 |
TotalFileIoErrors |
文件 io 错误操作的总数(单调递增) |
FileIoErrorRateNumOps |
指标时间间隔内的文件 io 错误操作数 |
FileIoErrorRateAvgTime |
测量从操作开始到出现故障的平均时间,单位为毫秒 |
RBFMetrics 显示基于路由器的联合中子集群信息的聚合值指标。
名称 | 描述 |
---|---|
NumFiles |
当前文件和目录数 |
NumBlocks |
当前已分配块数 |
NumOfBlocksPendingReplication |
当前待复制的块数 |
NumOfBlocksUnderReplicated |
当前复制不足的块数 |
NumOfBlocksPendingDeletion |
当前待删除的块数 |
ProvidedSpace |
联合集群中装载的远程存储总容量 |
NumInMaintenanceLiveDataNodes |
处于维护状态的活动数据节点数量 |
NumInMaintenanceDeadDataNodes |
处于维护状态的死数据节点数量 |
NumEnteringMaintenanceDataNodes |
正在进入维护状态的数据节点数量 |
TotalCapacity |
DataNodes 的当前原始容量,单位为字节(长基本类型,可能溢出) |
UsedCapacity |
所有 DataNodes 的当前已用容量,单位为字节(长基本类型,可能溢出) |
RemainingCapacity |
当前剩余容量,单位为字节(长基本类型,可能溢出) |
TotalCapacityBigInt |
DataNodes 的当前原始容量,单位为字节(使用 BigInteger) |
UsedCapacityBigInt |
所有 DataNodes 的当前已用容量,单位为字节(使用 BigInteger) |
RemainingCapacityBigInt |
当前剩余容量,单位为字节(使用 BigInteger) |
NumOfMissingBlocks |
当前丢失块的数量 |
NumLiveNodes |
当前处于活动状态的数据节点数 |
NumDeadNodes |
当前处于死亡状态的数据节点数 |
NumStaleNodes |
由于心跳延迟而标记为陈旧的数据节点当前数量 |
NumDecomLiveNodes |
已退役且现在处于活动状态的数据节点数 |
NumDecomDeadNodes |
已退役且现在处于死亡状态的数据节点数 |
NumDecommissioningNodes |
处于退役状态的数据节点数 |
Namenodes |
所有名称节点的当前信息 |
Nameservices |
每个已注册名称服务的当前信息 |
MountTable |
联合文件系统的装载表 |
Routers |
所有路由器的当前信息 |
NumNameservices |
名称服务数 |
NumNamenodes |
名称节点数 |
NumExpiredNamenodes |
已过期名称节点数 |
NodeUsage |
DataNodes 使用情况的最大值、中位数、最小值和标准差 |
RouterRPCMetrics 显示基于路由器的联合中 Router 组件的统计信息。
名称 | 描述 |
---|---|
ProcessingOp |
Router 在内部处理的操作数 |
ProxyOp |
路由器代理到名称节点的操作数 |
ProxyOpFailureStandby |
无法到达 NN 的操作数 |
ProxyOpFailureCommunicate |
命中备用 NN 的操作数 |
ProxyOpNotImplemented |
未实现的操作数 |
RouterFailureStateStore |
由于状态存储不可用而导致的失败请求数 |
RouterFailureReadOnly |
由于只读挂载点而导致的失败请求数 |
RouterFailureLocked |
由于路径锁定而导致的失败请求数 |
RouterFailureSafemode |
由于安全模式而导致的失败请求数 |
ProcessingNumOps |
路由器在指标的间隔时间内在内部处理的操作数 |
ProcessingAvgTime |
路由器处理操作的平均时间(以纳秒为单位) |
ProxyNumOps |
路由器在指标的间隔时间内代理到名称节点的操作次数 |
ProxyAvgTime |
路由器代理到名称节点的操作的平均时间(以纳秒为单位) |
StateStoreMetrics 显示基于路由器的联合中状态存储组件的统计信息。
名称 | 描述 |
---|---|
ReadsNumOps |
指标间隔时间内状态存储的 GET 事务数 |
ReadsAvgTime |
状态存储的 GET 事务的平均时间(以毫秒为单位) |
WritesNumOps |
指标间隔时间内状态存储的 PUT 事务数 |
WritesAvgTime |
状态存储的 PUT 事务的平均时间(以毫秒为单位) |
RemovesNumOps |
指标间隔时间内状态存储的 REMOVE 事务数 |
RemovesAvgTime |
状态存储的 REMOVE 事务的平均时间(以毫秒为单位) |
FailuresNumOps |
指标间隔时间内状态存储的失败事务数 |
FailuresAvgTime |
状态存储的失败事务的平均时间(以毫秒为单位) |
Cache BaseRecordSize |
状态存储中要缓存的存储记录数 |
ClusterMetrics 从 ResourceManager 的角度显示 YARN 集群的指标。每个指标记录包含 Hostname 标记作为附加信息以及指标。
名称 | 描述 |
---|---|
NumActiveNMs |
当前活动 NodeManager 的数量 |
numDecommissioningNMs |
当前正在退役的 NodeManager 的数量 |
NumDecommissionedNMs |
当前已退役的 NodeManager 的数量 |
NumShutdownNMs |
当前正常关闭的 NodeManager 的数量。请注意,这不包括被强制终止的 NodeManager。 |
NumLostNMs |
当前由于未发送心跳而丢失的 NodeManager 的数量。 |
NumUnhealthyNMs |
当前不健康的 NodeManager 的数量 |
NumRebootedNMs |
当前已重启的 NodeManager 的数量 |
AMLaunchDelayNumOps |
已启动的 AM 的总数 |
AMLaunchDelayAvgTime |
RM 在 AM 容器分配后启动 AM 容器所花费的平均时间(以毫秒为单位) |
AMRegisterDelayNumOps |
已注册的 AM 总数 |
AMRegisterDelayAvgTime |
AM 容器启动后,AM 在 RM 中注册所花费的平均时间(以毫秒为单位) |
QueueMetrics 从 ResourceManager 的角度显示应用程序队列。每个指标记录显示每个队列的统计信息,并包含标签,例如队列名称和 Hostname,以及指标的其他信息。
在 running_
num 指标(例如 running_0
)中,可以在 yarn-site.xml 中设置属性 yarn.resourcemanager.metrics.runtime.buckets
以更改存储桶。默认值为 60,300,1440
。
名称 | 描述 |
---|---|
running_0 |
当前运行的应用程序数,其经过时间少于 60 分钟 |
running_60 |
当前运行的应用程序数,其经过时间在 60 到 300 分钟之间 |
running_300 |
当前运行的应用程序数,其经过时间在 300 到 1440 分钟之间 |
running_1440 |
当前运行的应用程序数,其经过时间超过 1440 分钟 |
AppsSubmitted |
已提交的应用程序总数 |
AppsRunning |
当前运行的应用程序数 |
AppsPending |
尚未由任何容器分配的应用程序的当前数量 |
AppsCompleted |
已完成的应用程序总数 |
AppsKilled |
已终止的应用程序总数 |
AppsFailed |
已失败的应用程序总数 |
AllocatedMB |
当前已分配的内存(以 MB 为单位) |
AllocatedVCores |
当前已分配的 CPU(以虚拟核心数为单位) |
AllocatedContainers |
当前已分配的容器数 |
AggregateContainersAllocated |
已分配的容器总数 |
aggregateNodeLocalContainersAllocated |
已分配的节点本地容器总数 |
aggregateRackLocalContainersAllocated |
已分配的机架本地容器总数 |
aggregateOffSwitchContainersAllocated |
已分配的关闭开关容器总数 |
AggregateContainersReleased |
已释放容器的总数 |
AvailableMB |
当前以 MB 为单位的可用内存 |
AvailableVCores |
当前以虚拟核心数为单位的可用 CPU |
PendingMB |
当前以 MB 为单位的内存请求,等待调度程序执行 |
PendingVCores |
当前以虚拟核心数为单位的 CPU 请求,等待调度程序执行 |
PendingContainers |
当前等待调度程序执行的容器数 |
ReservedMB |
当前以 MB 为单位的已保留内存 |
ReservedVCores |
当前以虚拟核心数为单位的已保留 CPU |
ReservedContainers |
当前的保留容器数 |
ActiveUsers |
当前活动用户数 |
ActiveApplications |
当前活动应用程序数 |
AppAttemptFirstContainerAllocationDelayNumOps |
为所有尝试分配的第一个容器的总数 |
AppAttemptFirstContainerAllocationDelayAvgTime |
RM 为所有尝试分配第一个容器所花费的平均时间。对于托管的 AM,第一个容器是 AM 容器。因此,这表示分配 AM 容器的时间持续时间。对于非托管 AM,这是分配非托管 AM 请求的第一个容器的时间持续时间。 |
FairShareMB |
(仅限 FairScheduler)当前以 MB 为单位的公平份额内存 |
FairShareVCores |
(仅限 FairScheduler)当前以虚拟核心数为单位的公平份额 CPU |
MinShareMB |
(仅限 FairScheduler)以 MB 为单位的最小份额内存 |
MinShareVCores |
(仅限 FairScheduler)以虚拟核心数为单位的最小份额 CPU |
MaxShareMB |
(仅限 FairScheduler)以 MB 为单位的最大份额内存 |
MaxShareVCores |
(仅限 FairScheduler)以虚拟核心数为单位的最大份额 CPU |
NodeManagerMetrics 显示节点中容器的统计信息。每个指标记录都包含 Hostname 标记作为附加信息以及指标。
名称 | 描述 |
---|---|
containersLaunched |
已启动容器的总数 |
containersCompleted |
成功完成容器的总数 |
containersFailed |
失败容器的总数 |
containersKilled |
已终止容器的总数 |
containersIniting |
当前正在初始化的容器数 |
containersRunning |
当前正在运行的容器数 |
allocatedContainers |
当前已分配的容器数 |
allocatedGB |
当前以 GB 为单位的已分配内存 |
availableGB |
当前可用内存(GB) |
allocatedVcores |
当前已用 vcore |
availableVcores |
当前可用 vcore |
containerLaunchDuration |
NM 启动容器的平均时间(毫秒) |
badLocalDirs |
当前错误本地目录数。目前,NM 进程无法读/写/执行的磁盘或磁盘已满被视为错误。 |
badLogDirs |
当前错误日志目录数。目前,NM 进程无法读/写/执行的磁盘或磁盘已满被视为错误。 |
goodLocalDirsDiskUtilizationPerc |
所有正常本地目录的当前磁盘利用率百分比 |
goodLogDirsDiskUtilizationPerc |
所有正常日志目录的当前磁盘利用率百分比 |
ContainerMetrics 显示容器的资源利用率统计信息。除了指标外,每条指标记录还包含标签(如 ContainerPid 和 Hostname)作为附加信息。
名称 | 描述 |
---|---|
pMemLimitMBs |
容器的物理内存限制(MB) |
vMemLimitMBs |
容器的虚拟内存限制(MB) |
vCoreLimit |
容器的 CPU 限制(vcore 数) |
launchDurationMs |
容器启动持续时间(毫秒) |
localizationDurationMs |
容器本地化持续时间(毫秒) |
StartTime |
容器启动时的毫秒时间 |
FinishTime |
容器完成时的毫秒时间 |
ExitCode |
容器退出代码 |
PMemUsageMBsNumUsage |
已用物理内存指标总数 |
PMemUsageMBsAvgMBs |
已用物理内存平均值(MB) |
PMemUsageMBsStdevMBs |
已用物理内存的标准差(MB) |
PMemUsageMBsMinMBs |
已用物理内存最小值(MB) |
PMemUsageMBsMaxMBs |
已用物理内存最大值(MB) |
PMemUsageMBsIMinMBs |
当前间隔中已用物理内存最小值(MB)(间隔时间由 yarn.nodemanager.container-metrics.period-ms 指定) |
PMemUsageMBsIMaxMBs |
当前间隔(间隔时间由yarn.nodemanager.container-metrics.period-ms指定)中使用的最大物理内存(MB) |
PMemUsageMBsINumUsage |
当前间隔(间隔时间由yarn.nodemanager.container-metrics.period-ms指定)中物理内存使用指标的总数 |
PCpuUsagePercentNumUsage |
物理 CPU 内核使用百分比指标的总数 |
PCpuUsagePercentAvgPercents |
物理 CPU 内核使用平均百分比 |
PCpuUsagePercentStdevPercents |
物理 CPU 内核使用百分比的标准差 |
PCpuUsagePercentMinPercents |
物理 CPU 内核使用最小百分比 |
PCpuUsagePercentMaxPercents |
物理 CPU 内核使用最大百分比 |
PCpuUsagePercentIMinPercents |
当前间隔(间隔时间由yarn.nodemanager.container-metrics.period-ms指定)中使用的最小物理 CPU 内核百分比 |
PCpuUsagePercentIMaxPercents |
当前间隔(间隔时间由yarn.nodemanager.container-metrics.period-ms指定)中使用的最大物理 CPU 内核百分比 |
PCpuUsagePercentINumUsage |
当前间隔(间隔时间由yarn.nodemanager.container-metrics.period-ms指定)中物理 CPU 内核使用指标的总数 |
MilliVcoreUsageNumUsage |
vcore 使用指标的总数 |
MilliVcoreUsageAvgMilliVcores |
vcore 使用平均值的 1000 倍 |
MilliVcoreUsageStdevMilliVcores |
vcore 使用标准差的 1000 倍 |
MilliVcoreUsageMinMilliVcores |
vcore 使用最小值的 1000 倍 |
MilliVcoreUsageMaxMilliVcores |
vcore 使用最大值的 1000 倍 |
MilliVcoreUsageIMinMilliVcores |
当前间隔(间隔时间由yarn.nodemanager.container-metrics.period-ms指定)中使用的 vcore 使用平均值的 1000 倍 |
MilliVcoreUsageIMaxMilliVcores |
当前间隔(间隔时间由yarn.nodemanager.container-metrics.period-ms指定)中使用的 vcore 使用最大值的 1000 倍 |
MilliVcoreUsageINumUsage |
当前间隔(间隔时间由yarn.nodemanager.container-metrics.period-ms指定)中vcore 使用指标的总数 |
PMemUsageMBHistogramNumUsage |
物理内存使用指标的总数(1 秒粒度) |
PMemUsageMBHistogram50thPercentileMBs |
物理内存使用中值(MB)(1 秒粒度) |
PMemUsageMBHistogram75thPercentileMBs |
物理内存使用第 75 个百分位(MB)(1 秒粒度) |
PMemUsageMBHistogram90thPercentileMBs |
物理内存使用第 90 个百分位(MB)(1 秒粒度) |
PMemUsageMBHistogram95thPercentileMBs |
1 秒粒度下已用物理内存的第 95 个百分位(以 MB 为单位) |
PMemUsageMBHistogram99thPercentileMBs |
1 秒粒度下已用物理内存的第 99 个百分位(以 MB 为单位) |
PCpuUsagePercentHistogramNumUsage |
已用物理 CPU 内核总数指标(1 秒粒度) |
PCpuUsagePercentHistogram50thPercentilePercents |
已用物理 CPU 内核百分比的第 50 个百分位(1 秒粒度) |
PCpuUsagePercentHistogram75thPercentilePercents |
已用物理 CPU 内核百分比的第 75 个百分位(1 秒粒度) |
PCpuUsagePercentHistogram90thPercentilePercents |
已用物理 CPU 内核百分比的第 90 个百分位(1 秒粒度) |
PCpuUsagePercentHistogram95thPercentilePercents |
已用物理 CPU 内核百分比的第 95 个百分位(1 秒粒度) |
PCpuUsagePercentHistogram99thPercentilePercents |
已用物理 CPU 内核百分比的第 99 个百分位(1 秒粒度) |
UgiMetrics 与用户和组信息相关。每个指标记录都包含 Hostname 标记,以及指标的其他信息。
名称 | 描述 |
---|---|
LoginSuccessNumOps |
成功 Kerberos 登录的总数 |
LoginSuccessAvgTime |
成功 Kerberos 登录的平均时间(以毫秒为单位) |
LoginFailureNumOps |
失败 Kerberos 登录的总数 |
LoginFailureAvgTime |
失败 Kerberos 登录的平均时间(以毫秒为单位) |
getGroupsNumOps |
组解析的总数 |
getGroupsAvgTime |
组解析的平均时间(以毫秒为单位) |
getGroups numsNumOps |
组解析的总数(num 秒粒度)。num 由 hadoop.user.group.metrics.percentiles.intervals 指定。 |
getGroups nums50thPercentileLatency |
显示组解析时间(以毫秒为单位)的第 50 个百分位(num 秒粒度)。num 由 hadoop.user.group.metrics.percentiles.intervals 指定。 |
getGroups nums75thPercentileLatency |
显示组解析时间(以毫秒为单位)的第 75 个百分位(num 秒粒度)。num 由 hadoop.user.group.metrics.percentiles.intervals 指定。 |
getGroups nums90thPercentileLatency |
显示组解析时间(以毫秒为单位)的第 90 个百分位(num 秒粒度)。num 由 hadoop.user.group.metrics.percentiles.intervals 指定。 |
getGroups nums95thPercentileLatency |
显示组解析时间(以毫秒为单位)的第 95 个百分位(num 秒粒度)。num 由 hadoop.user.group.metrics.percentiles.intervals 指定。 |
getGroups nums99thPercentileLatency |
显示组解析时间第 99 个百分位(以毫秒为单位)(num 秒粒度)。num 由 hadoop.user.group.metrics.percentiles.intervals 指定。 |
MetricsSystem 显示指标快照和发布的统计信息。每条指标记录包含 Hostname 标记作为附加信息以及指标。
名称 | 描述 |
---|---|
NumActiveSources |
当前活动指标源数 |
NumAllSources |
指标源总数 |
NumActiveSinks |
当前活动接收器数 |
NumAllSinks |
接收器总数(但通常小于 NumActiveSinks ,请参阅 HADOOP-9946) |
SnapshotNumOps |
从指标源快照统计信息的总操作数 |
SnapshotAvgTime |
从指标源快照统计信息的平均时间(以毫秒为单位) |
PublishNumOps |
向接收器发布统计信息的总操作数 |
PublishAvgTime |
向接收器发布统计信息的平均时间(以毫秒为单位) |
DroppedPubAll |
放弃发布的总数 |
Sink_ instanceNumOps |
instance 的接收器操作总数 |
Sink_ instanceAvgTime |
instance 的接收器操作的平均时间(以毫秒为单位) |
Sink_ instanceDropped |
instance 的放弃接收器操作的总数 |
Sink_ instanceQsize |
接收器操作的当前队列长度 |
StartupProgress 指标显示 NameNode 启动的统计信息。根据其名称,为每个启动阶段公开四个指标。启动阶段为 LoadingFsImage
、LoadingEdits
、SavingCheckpoint
和 SafeMode
。每条指标记录包含 Hostname 标记作为附加信息以及指标。
名称 | 描述 |
---|---|
ElapsedTime |
总经过时间(以毫秒为单位) |
PercentComplete |
NameNode 启动进度中完成的当前比率(最大值不是 100,而是 1.0) |
phaseCount |
阶段中已完成的步骤总数 |
phaseElapsedTime |
阶段中总的经过时间(以毫秒为单位) |
phaseTotal |
阶段中的步骤总数 |
phasePercentComplete |
阶段中已完成的当前速率(最大值不是 100,而是 1.0) |