Linux のデフォルトチェックとポリシー

  • リリースバージョン: Xanadu
  • 更新日 2024年08月01日
  • 所要時間:23分
  • エージェントクライアントコレクター は、Linux メトリクスモニタリングのための以下のデフォルトのチェックとポリシーを提供します。

    Linux モニタリングメトリクスのチェック

    表 : 1. Linux メトリクスポリシー
    チェック メトリクス名 リソース 説明 単位 主なメトリクス 異常検出
    os.linux.metrics-process-usage proc.acc.running process-name この名前で実行されているプロセスの数 (acc) count
    proc.acc.cpuPercent process-name プロセスが使用する CPU の割合。 パーセント

    proc.acc.​memPercent

    process-name プロセスが使用するメモリの割合 パーセント
    os.linux.metrics-reboot-count-today reboot.count.today 本日実行した再起動の数 カウント
    os.linux.metrics-system-cpu cpu.total.user total ユーザーモードで実行中の通常のプロセス。cpu.total.user は cpuN.user メトリクスの合計です。 カウント
    cpu.total.nice total ユーザーモードで実行中の niced プロセス。cpu.total.nice は cpuN.nice メトリクスの合計です。 カウント
    cpu.total.system total CPU がカーネルの実行に費やした時間。cpu.total.system は cpuN.system メトリクスの合計です。
    cpu.total.idle total CPU がアイドル状態であった合計時間。cpu.total.idle は cpuN.idle メトリクスの合計です。
    cpu.total.iowait total CPU が IO 操作の完了を待機した合計時間。cpu.total.iowait は cpuN.iowait メトリクスの合計です。
    cpu.total.irq total プロセッサーが中断の処理に費やしている合計時間。cpu.total.irq は cpuN.irq メトリクスの合計です。
    cpu.total.softirq total ソフト中断要求の処理に費やされた時間。cpu.total.softirq は cpuN.softirq メトリクスの合計です。
    cpu.total.steal total ハイパーバイザーが別の仮想 CPU にサービスを提供することを仮想 CPU が待機していた合計時間。仮想マシンのみに適用されます。
    cpu.total.guest total CPU が仮想プロセッサーの実行に費やした合計時間。ハイパーバイザーのみに適用されます。
    cpu.total.guest_nice total nice ゲスト OS として CPU が実行に費やした合計時間。cpu.total.guset_nice は cpuN.guest_nice メトリクスの合計です。
    cpu.<cpu-core>.user cpu_core ユーザーモードで通常の処理にかかった時間
    cpu.<cpu-core>.nice cpu_core ユーザーモードで niced プロセスにかかった時間。
    cpu.<cpu-core>.system cpu_core カーネルモードで実行に費やした時間
    cpu.<cpu-core>.idle cpu_core 休暇で何をするともなく費やした時間。
    cpu.<cpu-core>.iowait cpu_core I/O の完了を待機して経過した時間。これもアイドル時間と見なされます。
    cpu.<cpu-core>.irq cpu_core ハードウェア中断の処理に費やされた時間
    cpu.<cpu-core>.softirq cpu_core ソフトウェア中断の処理に費やされた時間
    cpu.<cpu-core>.steal cpu_core 仮想環境で実行されている他のオペレーティングシステムによって占有された時間
    cpu.<cpu-core>.guest cpu_core カーネルの制御下で仮想 CPU またはゲスト OS の実行に費やされた時間
    cpu.<cpu-core>.guest_nice cpu_core nice ゲスト OS として CPU が実行に費やした合計時間。
    cpu.intr ブート時以降のサービスが中断されます。
    cpu.ctxt すべての CPU におけるコンテキストスイッチの合計数 カウント
    cpu.btime システムが起動した時間
    cpu.processes 作成されたプロセスとスレッドの数 (fork() および clone() システムコールによって作成されたプロセスとスレッドなどを含む) カウント
    cpu.procs_running すべての CPU で実行されているプロセスの合計数 カウント
    cpu.procs_blocked 現在ブロックされており、I/O の完了を待機しているプロセスの数 カウント
    cpu.cpu_count システム上の CPU 数 カウント
    cpu.<cpu-core>.cores cpu_core CPU コアの数 コア数
    os.linux.metrics-system-cpu-load load_avg.one 1 分間の平均システム負荷 スレッド数 はい はい
    load_avg.five 5 分間の平均システム負荷 スレッド数 はい はい
    load_avg.fifteen 15 分間の平均システム負荷 スレッド数 はい はい
    load_avg.norm.one CPU の数で正規化された 1 分間の平均システム負荷 スレッド数
    load_avg.norm.five CPU の数で正規化された 5 分間の平均システム負荷 スレッド数
    load_avg.norm.fifteen CPU の数で正規化された 15 分間の平均システム負荷 スレッド数
    os.linux.metrics-system-cpu-percentage cpu.avgutilization_​percentage 平均で使用された CPU の割合 パーセント
    cpu.user_​percentage ユーザーモードで通常のプロセスによって使用された CPU 時間の合計に対する割合 パーセント はい はい
    cpu.nice_​percentage ユーザーモードで niced プロセスによって使用された CPU 時間の合計に対する割合 パーセント はい はい

    cpu.system_​percentage

    CPU がカーネルの実行に費やした時間の割合 パーセント はい はい
    cpu.idle_percentage すべての CPU がアイドル状態であった時間の割合 パーセント はい はい

    cpu.iowait_​percentage

    すべての CPU が I/O の完了を待機した時間の割合 パーセント はい はい
    cpu.irq_percentage すべての CPU が中断を処理した時間の割合 パーセント はい はい

    cpu.softirq_​percentage

    すべての CPU がソフトウェア中断を処理した時間の割合 パーセント はい はい
    cpu.steal_​percentage すべての CPU が仮想ホストオペレーティングシステムにサービスを提供した時間の割合 パーセント はい はい
    cpu.guest_​percentage すべての CPU がゲストオペレーティングシステムにサービスを提供した時間の割合 パーセント はい はい
    os.linux.metrics-system-disk disk.<disk-name>.reads disk-name 正常に完了した読み取りの合計数 カウント はい はい
    disk.<disk-name>.readsMerged disk-name 結合された読み取りの合計数 カウント
    disk.<disk-name>.sectorsRead disk-name 正常に読み取られたセクターの合計数 カウント
    disk.<disk-name>.readTime disk-name すべての読み取りに費やされた合計ミリ秒数 ミリ秒
    disk.<disk-name>.writes disk-name 正常に完了した書き込みの合計数 カウント はい はい
    disk.<disk-name>.writesMerged disk-name 結合された書き込みの合計数 カウント
    disk.<disk-name>.sectorsWritten disk-name 正常に書き込まれたセクターの合計数 カウント
    disk.<disk-name>.writeTime disk-name すべての書き込みに費やされた合計ミリ秒数 その他
    disk.<disk-name>.ioInProgress disk-name 現在進行中の I/O の合計数 カウント
    disk.<disk-name>.ioTime I/O の合計所要時間。 ミリ秒 はい はい
    disk.<disk-name>.ioTimeWeighted disk-name I/O の合計所要時間。これにより、I/O 完了時間と累積する可能性のあるバックログの両方を簡単に測定できます。 ミリ秒
    os.linux.metrics-system-disk-capacity disk.<file-system-name>.total file-system-name ファイルシステムの合計サイズ バイト
    disk.<file-system-name>.used file-system-name ファイルシステム内の既存のファイルに割り当てられたスペースの合計量 バイト
    disk.<file-system-name>.avail file-system-name ファイルシステム内の利用可能なスペースの合計量 バイト
    disk.<file-system-name>.used_percentage file-system-name ファイルシステム上のすべてのファイルに現在割り当てられている利用可能なスペースの割合。 パーセント
    disk.<file-system-name>.itotal file-system-name ファイルシステム上の inode の合計数 カウント
    disk.<file-system-name>.iused file-system-name 使用されている inode の数。 カウント
    disk.<file-system-name>.iavail file-system-name 空き (未使用) inode の数。 カウント
    disk.<file-system-name>.iused_percentage file-system-name 使用済み inode の割合。 パーセント
    os.linux.metrics-system-disk-usage disk_usage.<disk>.total disk-name このディスク上の利用可能なスペースの合計量 バイト
    disk_usage.<disk>.used disk-name このディスクで使用されているスペースの合計量 バイト
    disk_usage.<disk>.avail disk-name このディスク上の利用可能なスペースの合計量 バイト
    disk_usage.<disk>.used_​percentage disk-name このディスクで使用されているスペースの割合 パーセント はい はい
    os.linux.metrics-system-memoryos.​linux.metrics-system-​memory-percent memory.total 使用可能な RAM の合計 KB
    memory.free 空き RAM の合計 KB
    memory.available スワップなしで新しいアプリケーションを起動するために使用できる推定メモリ量。 KB
    memory.buffers RAW ディスクブロックに使用される一時ストレージ KB
    memory.cached ディスクから読み取られたファイルのメモリ内キャッシュ (ページキャッシュ)。mem_swapcached は含まれません。 KB
    memory.swapTotal 利用可能なスワップスペースの合計量 KB はい はい
    memory.swapFree 現在使用されていないスワップスペースの量 はい はい
    memory.dirty ディスクへのライトバックを待機しているメモリ KB
    memory.swapUsed 使用中のスワップスペースの量 KB はい はい
    memory.used 使用中の RAM 容量 KB
    memory.​usedWOBuffersCaches 使用中のメモリ量 KB
    memory.​freeWOBuffersCaches /proc/meminfo からの MemAvailable の値 (存在する場合)。存在しない場合は、空き + バッファー + キャッシュメモリにフォールバックします。 KB
    memory.​swapUsedPercentage 使用されたスワップスペースの割合 パーセント
    memory_percent.​free 空き RAM の割合 パーセント はい はい
    memory_percent.​available 利用可能なメモリの割合 パーセント はい はい
    memory_percent.​buffers RAW ディスクブロックに使用されるメモリの割合 パーセント はい はい
    memory_percent.​cached ディスクから読み取られたファイルのメモリ内キャッシュで使用されるメモリの割合 パーセント はい はい
    memory_percent.​dirty ディスクへのライトバックを待機しているメモリの割合 パーセント はい はい
    memory_percent.​swapUsed 使用されたスワップスペースの割合 パーセント はい はい
    memory_percent.​usedWOBuffersCaches 使用されているメモリの割合 パーセント はい はい
    memory_percent.​freeWOBuffersCaches 利用可能なメモリの割合 パーセント はい はい
    os.linux.metrics-​system-uptime system.uptime(sec) システムが稼働中で利用可能な時間
    os.linux.metrics-​memory-vmstat vmstat.nr_free_pages システムで現在使用されていないページ ページ
    vmstat.nr_alloc_​batch 各 NUMA の各ドメインでメモリ不足が原因で他のドメインに割り当てられたページ ページ
    vmstat.nr_​inactive_anon 長期間アクセスされていない各 NUMA ノードの各ドメインのメモリページ ページ
    vmstat.nr_active_​anon 最近使用された匿名仮想メモリページ KB
    vmstat.nr_inactive_​file 各 NUMA の各ドメインで長期間アクセスされていないファイルに対応するメモリページ KB
    vmstat.nr_active_​file 最近アクセスしたファイルに対応するメモリページ ページ
    vmstat.nr_​unevictable 再利用不可能な (非) LRU リスト内のページ数 カウント
    vmstat.nr_​mlock 再利用不可能なページのクラスである VM_LOCKED VMA にマップされたページ ページ
    vmstat.nr_anon_​pages ファイルに含まれていないメモリマップ済みページ ページ
    vmstat.nr_​mapped メモリマップ済みページの数 カウント
    vmstat.nr_file_​pages
    vmstat.nr_​dirty ディスクへの書き込みを待機しているページ ページ
    vmstat.nr_​writeback 現在ディスクに書き込中のページ ページ
    vmstat.nr_slab_​reclaimable 再利用可能なカーネル slab メモリのページの使用率 ページ
    vmstat.nr_slab_​unreclaimable 再利用できないカーネル slab メモリのページの使用率 ページ
    vmstat.nr_page_table_​pages ページテーブルに割り当てられたページ ページ
    vmstat.nr_kernel_​stack カーネルスタックに割り当てられたメモリ量 KB
    vmstat.nr_unstable 各 NUMA ノードの各ドメイン内の不安定なページの数 カウント
    vmstat.nr_bounce
    vmstat.nr_vmscan_​write LRU のスキャン中にライトバックされたダーティページの数 カウント
    vmstat.nr_vmscan_​immediate_reclaim
    vmstat.nr_writeback_​temp
    vmstat.nr_isolated_​anon 各 NUMA ノードの各ドメインで隔離された匿名メモリページの数 カウント
    vmstat.nr_​isolated_file 各 NUMA ノードの各ドメインで隔離されたファイルストレージページのページ数 カウント
    vmstat.nr_shmem 共有メモリページの数 カウント
    vmstat.nr_dirtied 各 NUMA ノードの各ドメイン内のダーティページの数 カウント
    vmstat.nr_written
    vmstat.numa_hit このノードに正常に割り当てられたページ数 カウント
    vmstat.numa_miss 対象のノードのメモリ不足が原因でこのノードに割り当てられたページ数 カウント
    vmstat.numa_​foreign 最初にこのノードを対象としていたが、代わりに別のノードに割り当てられたページ数 カウント
    vmstat.numa_​interleave このノードに正常に割り当てられたインターリーブポリシーページの数 カウント
    vmstat.numa_local このノードのプロセスによって、このノードに正常に割り当てられたページ数 カウント
    vmstat.numa_other 別のノードのプロセスによって、このノードに割り当てられたページ数 カウント
    vmstat.workingset_​refault
    vmstat.workingset_​activate
    vmstat.workingset_​nodereclaim
    vmstat.nr_anon_transparent_​hugepages
    vmstat.nr_free_cma 各 NUMA の各ドメイン内の連続した空メモリ割り当てページ
    vmstat.nr_dirty_​threshold
    vmstat.nr_dirty_​background_threshold
    vmstat.pgpgin ディスクから取り込まれたページ数 カウント
    vmstat.pgpgout ディスクに書き込まれたページ数 カウント
    vmstat.pswpin スワップスペースから取り込まれたページ数 カウント
    vmstat.pswpout スワップスペースにスワップアウトされたページ数 カウント
    vmstat.pgalloc_dma
    vmstat.pgalloc_​dma32
    vmstat.pgalloc_​normal
    vmstat.pgalloc_​movable
    vmstat.pgfree 前回の起動以降の空きページ数 カウント
    vmstat.pgactivat 前回の起動以降のページのアクティブ化の数 カウント
    vmstat.pgdeactivate 前回の起動以降のページの非アクティブ化の数 カウント
    vmstat.pgfault 前回の起動以降のマイナー障害の数 ページ
    vmstat.pgmajfault 前回の起動以降のメジャー障害の数 ページ
    vmstat.pglazyfreed
    vmstat.pgrefill_dma
    vmstat.pgrefill_dma32
    vmstat.pgrefill_normal 前回の起動以降のページの再入力数 カウント
    vmstat.pgrefill_​movable
    vmstat.pgsteal_​kswapd_dma
    vmstat.pgsteal_​kswapd_dma32
    vmstat.pgsteal_​kswapd_normal
    vmstat.pgsteal_​kswapd_movable
    vmstat.pgsteal_​direct_dma
    vmstat.pgsteal_​direct_dma32
    vmstat.pgsteal_​direct_normal
    vmstat.pgsteal_​direct_movable
    vmstat.pgscan_​kswapd_dma
    vmstat.pgscan_​kswapd_dma32
    vmstat.pgscan_​kswapd_normal 起動以降に kswapd によってスキャンされたページ数 カウント
    vmstat.pgscan_​kswapd_movable
    vmstat.pgscan_​direct_dma
    vmstat.pgscan_​direct_dma32
    vmstat.pgscan_​direct_normal 起動以降に再利用されたページ数 カウント
    vmstat.pgscan_​direct_movable
    vmstat.pgscan_​direct_throttle
    vmstat.zone_​reclaim_failed
    vmstat.pginodesteal
    vmstat.slabs_scanned
    vmstat.kswapd_​inodesteal
    vmstat.kswapd_low_​wmark_hit_quickly
    vmstat.kswapd_high_​wmark_hit_quickly
    vmstat.pageoutrun kswapd がページ再利用を呼び出した回数 カウント
    vmstat.allocstall ページ再利用が直接呼び出された回数 (メモリ不足) カウント
    vmstat.pgrotated
    vmstat.drop_​pagecache
    vmstat.drop_​slab
    vmstat.numa_pte_​updates
    vmstat.numa_huge_​pte_updates
    vmstat.numa_hint_​faults
    vmstat.numa_hint_​faults_local
    vmstat.numa_pages_​migrated
    vmstat.pgmigrate_​success
    vmstat.pgmigrate_fail
    vmstat.compact_​migrate_scanned
    vmstat.compact_​free_scanned
    vmstat.compact_​isolated
    vmstat.compact_​stall 大容量ページを解放して使用できるようにメモリ圧縮を実行するために、プロセスが停止する回数 カウント
    vmstat.compact_fail システムがメモリの圧縮を試みたが失敗した回数 カウント
    vmstat.compact_​success システムがメモリを圧縮して大容量ページを解放した回数 カウント
    vmstat.htlb_buddy_​alloc_success
    vmstat.htlb_buddy_​alloc_fail
    vmstat.unevictable_​pgs_culled
    vmstat.unevictable_​pgs_scanned
    vmstat.unevictable_​pgs_rescued
    vmstat.unevictable_​pgs_mlocked
    vmstat.unevictable_​pgs_munlocked
    vmstat.unevictable_​pgs_cleared
    vmstat.unevictable_​pgs_stranded
    vmstat.thp_fault_alloc ページフォールトを処理するために正常に割り当てられた大容量ページの数 カウント
    vmstat.thp_fault_​fallback 大容量ページの割り当てに失敗して、代わりに小容量ページの使用にフォールバックしたページフォールトの数 カウント
    vmstat.thp_collapse_alloc データを格納するために、折りたたまれて 1 つの大容量ページに正常に割り当てられたページ範囲の数 カウント
    vmstat.thp_collapse_​alloc_failed 折りたたまれて 1 つの大容量ページに割り当てようとして失敗したページ範囲の数 カウント
    vmstat.thp_split 大容量ページからベースページに分割する数 カウント
    vmstat.thp_zero_​page_alloc 大容量ゼロページの割り当てに成功した数 カウント
    vmstat.thp_zero_​page_alloc_failed カーネルが大容量ゼロページの割り当てに失敗し、小容量ページの使用にフォールバックする回数 カウント
    vmstat.balloon_inflate
    vmstat.balloon_​deflate
    vmstat.balloon_​migrate
    os.linux.metrics-process-status proc.<process>.VmSize process-name プロセスによって使用される仮想メモリの合計量 KB
    proc.<process>.VmRSS process-name プロセスによって使用されるスワップされていない物理メモリ KB
    proc.<process>.VmSwap process-name 使用されているスワップスペースの合計量 KB

    Linux ネットワーク監視チェック

    注:
    以前のバージョンからアップグレードする場合は、このテーブルのチェックを Linux メトリクスポリシーに手動で追加します。
    表 : 2. Linux メトリクスポリシー
    タイプ チェック 説明 使用方法と使用例 収集されるメトリクス 主なメトリクス
    メトリクス os.linux.metrics-network-interface Linux サーバーのすべてのネットワークインターフェイス関連のメトリクスを取得します。
    使用法:
    • -x, excludeinterface:除外するインターフェイスのリスト (カンマ区切り)
    • -i, includeinterface:含めるインターフェイスのリスト (カンマ区切り)
    • -I, includeinterfaceregex:含めるインターフェイスと一致する正規表現
    • -X, excludeinterfaceregex:除外するインターフェイスと一致する正規表現

    使用例:command: metrics-network-interface.rb

    • rxBytes (主なメトリクス)
    • rxPackets (主なメトリクス)
    • rxErrors
    • rxDrops (主なメトリクス)
    • rxFifo
    • rxFrame
    • rxCompressed
    • rxMulticast
    • rxBytes (主なメトリクス)
    • rxPackets (主なメトリクス)
    • rxErrors
    • rxDrops (主なメトリクス)
    • rxFifo
    • rxColls
    • rxCarrier
    • rxCompressed
    はい
    メトリクス os.linux.metrics-netstat-tcp netstat から TCP ソケット状況のメトリクスを取得します。短時間の TCP 接続が多数発生する、トラフィックの多い Web サーバーまたはプロキシサーバーで役立ちます。
    使用法:
    • -p, port:メトリクスの受信に使用するポート。値の範囲 = 1 ~ 65535。
    • -t, type:メトリクスの受信に使用するポートタイプ。値 = local または remote。デフォルト = local
    • -d, disabletcp6:tcp6 チェックを無効にします。値を入力して disabletcp6 = true を設定します。

    使用例:metrics-netstat-tcp.rb

    • tcp.UNKNOWN
    • tcp.ESTABLISHED
    • tcp.SYN_SENT
    • tcp.SYN_RECV
    • tcp.FIN_WAIT1
    • tcp.FIN_WAIT2
    • tcp.TIME_WAIT
    • tcp.CLOSE
    • tcp.CLOSE_WAIT
    • tcp.LAST_ACK
    • tcp.LISTEN
    • tcp.CLOSING
    いいえ