常用监控命令总结
很早就想写一下,但最近太忙了,还要准备下CET-4悲催的日子...哈哈...
创新互联公司长期为近1000家客户提供的网站建设服务,团队从业经验10年,关注不同地域、不同群体,并针对不同对象提供差异化的产品和服务;打造开放共赢平台,与合作伙伴共同营造健康的互联网生态环境。为黔江企业提供专业的网站建设、成都做网站,黔江网站改版等技术服务。拥有10多年丰富建站经验和众多成功案例,为您定制开发。
先写点,慢慢写吧...
一:
A:ps -l 查看属于自己这次登录的PID与相关信息列出来(只与自己的bash有关)
F:代表这个进程标志(process flags),说明这个进程的权限,常见号码有:
1,若为4表示此进程的权限为root;
2,若为1则表示此子进程仅可进行复制(fork)而无法执行(exec);
S:代表这个进程的状态(STAT),主要的状态有:
R(Running):该进程正在运行中;
S(Sleep):该进程目前正在睡眠状态(idle),但可以被唤醒(signal);
D:不可被唤醒的状态,通常这个进程可能在等待I/O的情况(ex>打印);
T:停止状态(stop),可能是在工作控制(后台暂停)或出错(traced)状态;
Z(Zombie):“僵尸”状态,该进程已经终止但却无法被删除至内存外。
UID/PID/PPID:代表此进程被该UID所拥有的/进程的PID号码/此进程的父进程PID号码。
C:代表CPU使用率,单位为百分比。
PRI/IN:Priority/Nice的缩写,代表此进程被CPU所执行的优先级,数值越小代表此进程越快被CPU执行。
ADDR/SZ/WCHAN:都与内存有关,ADDR是kernel function,指出该进程在内存的哪个部分,如果是个running的进程,一般会显示“—”。SZ代表此进程用掉多少内存。WCHAN表示目前进程是否在运行中,同样,若为“—”表示正在运行中。
TTY:登录者的终端位置,若为远程登录使用动态终端接口(pts/n)。
TIME:使用CPU的时间,注意,是此进程实际花费CPU运行的时间,而不是系统时间。
CMD:就是command的缩写,造成此程序的触发进程的命令为何。
B: ps aux 查看系统所有进程数据(静态)
USER:该进程属于哪个用户账号的;
PID:该进程的进程标识符;
%CPU:该进程使用掉的CPU资源百分比;
%MEM:该进程所占用的物理内存百分比;
VSZ:该进程所占用的虚拟内存量(KB);
RSS:该进程所占用的固定的内存量(KB);
TTY:该进程在哪个终端机上面运行,若与终端机无关则显示?另外,tty1~tty6是本机上面的登录者程序,若为pts/0等的,则表示为由网络连接进主机的进程;
STAT:该进程目前的状态,状态显示与ps -l的S标识相同(R/S/T/Z);
TIME:该进程实际使用CPU的时间;
COMMAND:该进程的实际命令。
二:top (动态)
统计信息区前五行是系统整体的统计信息。
第一行是任务队列信息,同 uptime 命令的执行结果。其内容如下:
02:44:02 当前时间
up 21 days ,2:12 开机到目前为止所经过的时间
3 users 当前登录用户数
0.56, 0.23, 0.32 系统负载,即任务队列的平均长度。三个数值分别为1分钟、5分钟、15分钟前到现在的平均值。
第二行为进程信息,内容如下:
Tasks: 113 total 进程总数
1 running 正在运行的进程数
112sleeping 睡眠的进程数
0 stopped 停止的进程数
0 zombie 僵尸进程数
第三行为CPU信息,当有多个CPU时,这些内容可能会超过两行。内容如下:
Cpu(s): 0.0%us 用户空间占用CPU百分比
0.0% sy 内核空间占用CPU百分比
0.0% ni 用户进程空间内改变过优先级的进程占用CPU百分比
0.0% id 空闲CPU百分比
0.0% wa 等待输入输出(IO)的CPU时间百分比
0.0% hi cpu处理硬件中断的时间;
0.0% si cpu处理软中断的时间;
0.0% st 在虚拟环境下,处理其他作业系统占用的 cpu 时间
第四行为内存信息,内容如下:
Mem: 1034872k total 物理内存总量
974264k used 使用的物理内存总量
60608k free 空闲内存总量
226140k buffers 用作内核缓存的内存量
第五行为SWAP信息
Swap: 1534072k total 交换区总量
0used 使用的虚拟内存总量
1534072k free 空闲交换区总量
548268k cached 缓冲的交换区总量。
第六行往后是进程列表,常见的这几列的意义分别为:
PID(进程号), USER(运行用户),PR(优先级),NI(任务nice值),VIRT(虚拟内存用量),RES(物理内存用量), SHR(共享内存用量),S(进程状态),%CPU(CPU占用比),%MEM(内存占用比),TIME+(累计CPU占用时间)。
除了这些信息之外,top还提供了很多命令能帮我们更好的解读这些信息,例如按”M”键可以按内存用量进行排序;
按”P”可以按CPU使用量进行排序,这样一来对于分析系统瓶颈很有帮助;此外,按“f”可以进入交互页面,选择指定的列显示;
”r”可以改变一个进程的nice值;”k”可以向一个进程发信号;
”z”可以使用彩色显示。进程信息区统计信息区域的下方显示了各个进程的详细信息。
首先来认识一下各列的含义。
序号 列名 含义
a PID 进程id
b PPID 父进程id
c RUSER Real user name
d UID 进程所有者的用户id
e USER 进程所有者的用户名
f GROUP 进程所有者的组名
g TTY 启动进程的终端名。不是从终端启动的进程则显示为 ?
h PR 优先级
i NI nice值。负值表示高优先级,正值表示低优先级
j P 最后使用的CPU,仅在多CPU环境下有意义
k %CPU 上次更新到现在的CPU时间占用百分比
l TIME 进程使用的CPU时间总计,单位秒
m TIME+ 进程使用的CPU时间总计,单位1/100秒
n %MEM 进程使用的物理内存百分比
o VIRT 进程使用的虚拟内存总量,单位kb。VIRT=SWAP+RES
p SWAP 进程使用的虚拟内存中,被换出的大小,单位kb。
q RES 进程使用的、未被换出的物理内存大小,单位kb。RES=CODE+DATA
r CODE 可执行代码占用的物理内存大小,单位kb
s DATA 可执行代码以外的部分(数据段+栈)占用的物理内存大小,单位kb
t SHR 共享内存大小,单位kb
u nFLT 页面错误次数
v nDRT 最后一次写入到现在,被修改过的页面数。
w S 进程状态。
x COMMAND 命令名/命令行
y WCHAN 若该进程在睡眠,则显示睡眠中的系统函数名
z Flags 任务标志,参考 sched.h
D=不可中断的睡眠状态
R=运行
S=睡眠
T=跟踪/停止
Z=僵尸进程
默认情况下仅显示比较重要的 PID、USER、PR、NI、VIRT、RES、SHR、S、% CPU、%MEM、TIME+、COMMAND 列。可以通过下面的快捷键来更改显示内容。
更改显示内容通过 f 键可以选择显示的内容。按 f 键之后会显示列的列表,按 a-z 即可显示或隐藏对应的列,最后按回车键确定。
三:last 列出目前与过去登入系统的用户相关信息。
参 数:
- R: 省略 hostname 的栏位
-n:指定输出记录的条数。
-f file:指定用文件file作为查询用的log文件。
-t tty:只显示指定的虚拟控制台上登录情况。
-h 节点:只显示指定的节点上的登录情况。
-i IP:只显示指定的IP上登录的情况。
-1:用IP来显示远端地址。
-y:显示记录的年、月、日。
-ID:知道查询的用户名。
-x:显示系统关闭、用户登录和退出的历史。
补充说明:单独执行last指令,它会读取/var/log/wtmp,并把该给文件的内容记录的登入系统的用户名单全部显示出来。
last用了显示用户登录情况,以下是直接显示固定行数的记录
四:free
free -m 大小以M来显示
说明:
第1行 :
total 内存总数: 1034872
used 已经使用的内存数: 973820
free 空闲的内存数: 161502
shared 当前已经废弃不用,总是0
buffers 内存数: 226260
cached 内存数: 548892
第2行:
-/+ buffers/cache的意思相当于:
-buffers/cache 的内存数:198668 (等于第1行的 used - buffers - cached)
+buffers/cache 的内存数: 836204(等于第1行的 free + buffers + cached)
第3行:
total 交换分区总数: 1534072
used 已经使用的: 0
free 空闲的数: 1534072
五:Linux iostat监测IO状态
1,iostat 无参数
以上显示分为上下两个部 分,上半部分显示CPU的信息,下面的数 据 显示存储设备的相关数据,它的数据意义如下:
tps:平均每秒钟的传送次数,与数据传输“次数”相关,非容 量
kB_read/s:启动到现在的平均读取单位
kB_wrtn/s:启动到现在的平均写入单位
kB_read:启动到现在总共 读出来的文件 单位
kB_wrtn: 启动到现在总共写入的文件单位
2,iostat -d -k 1 2
参数 -d 表示,显示设备(磁盘)使用状态;-k某些使用block为单位的列强制使用Kilobytes为单位;1 2表示,数据显示每隔1秒刷新一次,共显
示10次。
tps:该设备每秒的传输次数(Indicate the number of transfers per second that were issued to the device.)。“一次传输”意思是“一
次I/O请求”。多个逻辑请求可能会被合并为“一次I/O请求”。“一次传输”请求的大小是未知的。
kB_read/s:每秒从设备(drive expressed)读取的数据量;kB_wrtn/s:每秒向设备(drive expressed)写入的数据量;kB_read:读取的总数据
量;kB_wrtn:写入 的总数量数据量;这些单位都为Kilobytes。
上面的例子中,我们可以看到磁盘sda以及它的各个分区的统计数据,当时统计的磁盘总TPS是39.29,下面是各个分区的TPS。(因为是瞬间 值,所
以总TPS并不严格等于各个分区TPS的总和)
3,-x 参数
使用-x参数我们可以获得更多统计信息。
rrqm/s:每秒这个设备相关的读取请求有多少被Merge了(当系统调用需要读取数据的 时候,VFS将请求发到各个FS,如果FS发现不同的读取请求读
取的是相同Block的数据,FS会将这个请求合并Merge);wrqm/s:每秒这个 设备相关的写入请求有多少被Merge了。
rsec/s:每秒读取的扇区数;wsec/: 每秒写入的扇区数。r/s:The number of read requests that were issued to the device per second;
w/s:The number of write requests that were issued to the device per second;
await:每一个IO请求的处理的平均时间(单位是微秒)。这里可以理解为IO的响应时 间,一般地系统IO响应时间应该低于5ms,如果大于10ms就比
较大了。
%util:在统计时间内所有处理IO时间,除以总共统计时间。例如,如果统计间隔1秒,该 设备有0.8秒在处理IO,而0.2秒闲置,那么该设备的%
util = 0.8/1 = 80%,所以该参数暗示了设备的繁忙程度。一般地,如果该参数是100%表示设备已经接近满负荷运行了(当然如果是多磁盘,即
使%util是100%,因 为磁盘的并发能力,所以磁盘使用未必就到了瓶颈)。
4,-c 参数
iostat还可以用来获取cpu部分状态值:
5,常见用法
iostat -d -k 1 10 #查看TPS和吞吐量信息
iostat -d -x -k 1 10 #查看设备使用率(%util)、响应时间(await)
iostat -c 1 10 #查看cpu状态
第六:vmstat
rocs
r 列表示运行和等待cpu时间片的进程数,如果长期大于1,说明cpu不足,需要增加cpu。
b 列表示在等待资源的进程数,比如正在等待I/O、或者内存交换等。
memory
swpd 切换到内存交换区的内存数量(k表示)。如果swpd的值不为0,或者比较大,比如超过了100m,只要si、so的值长期为0,系统性能还是正常
free 当前的空闲页面列表中内存数量(k表示)
buff 作为buffer cache的内存数量,一般对块设备的读写才需要缓冲。
cache: 作为page cache的内存数量,一般作为文件系统的cache,如果cache较大,说明用到cache的文件较多,如果此时IO中bi比较小,说明文件系统效率比较好。
swap
si 由内存进入内存交换区数量。
so由内存交换区进入内存数量。
IO
bi 从块设备读入数据的总量(读磁盘)(每秒kb)。
bo 块设备写入数据的总量(写磁盘)(每秒kb)
这里我们设置的bi+bo参考值为1000,如果超过1000,而且wa值较大应该考虑均衡磁盘负载,可以结合iostat输出来分析。
system 显示采集间隔内发生的中断数
in 列表示在某一时间间隔中观测到的每秒设备中断数。
cs列表示每秒产生的上下文切换次数,如当 cs 比磁盘 I/O 和网络信息包速率高得多,都应进行进一步调查。
cpu 表示cpu的使用状态
us 列显示了用户方式下所花费 CPU 时间的百分比。us的值比较高时,说明用户进程消耗的cpu时间多,但是如果长期大于50%,需要考虑优化用户的程序。
sy 列显示了内核进程所花费的cpu时间的百分比。这里us + sy的参考值为80%,如果us+sy 大于 80%说明可能存在CPU不足。
wa 列显示了IO等待所占用的CPU时间的百分比。这里wa的参考值为30%,如果wa超过30%,说明IO等待严重,这可能是磁盘大量随机访问造成的,也可能磁盘或者磁盘访问控制器的带宽瓶颈造成的(主要
是块操作)。
id 列显示了cpu处在空闲状态的时间百分比
st 在虚拟环境下,处理其他作业系统占用的 cpu 时间
第七:mpstat
%user 在internal时间段里,用户态的CPU时间(%),不包含 nice值为负 进程 (usr/total)*100
%nice 在internal时间段里,nice值为负进程的CPU时间(%) (nice/total)*100
%sys 在internal时间段里,核心时间(%) (system/total)*100
%iowait 在internal时间段里,硬盘IO等待时间(%) (iowait/total)*100
%irq 在internal时间段里,硬中断时间(%) (irq/total)*100
%soft 在internal时间段里,软中断时间(%) (softirq/total)*100
%steal在虚拟环境下,处理其他作业系统占用的 cpu 时间
%idle 在internal时间段里,CPU除去等待磁盘IO操作外的因为任何原因而空闲的时间闲置时间(%)(idle/total)*100
%intr/s 在internal时间段里,每秒CPU接收的中断的次数intr/total)*100
当前文章:常用监控命令总结
标题网址:http://ybzwz.com/article/ggsicg.html