系统故障分析包括日志文件分析、系统启动类故障排除和文件系统类故障排除。
日志文件分析日志的功能日志用于记录系统、程序运行中发生的各种事件。通过阅读日志,有助于诊断和解决系统故障1。
日志文件的分类1.内核及系统日志:由系统服务syslog统一进行管理,日志格式基本相似。
2.用户日志:记录系统用户登录及退出系统的相关信息。
3.程序日志:由各种应用程序独立管理的日志文件,记录格式不统一1。
主要日志文件介绍内核及公共消息日志:/var/log/messages;
计划任务日志:/var/log/cron;
系统引导日志:/var/log/dmesg;
邮件系统日志:/var/log/maillog;
用户登录日志:/var/log/lastlog、/var/log/secure、/var/log/wtmp、/var/run/btmp1。
日志消息的级别0 EMERG(紧急):会导致主机系统不可用的情况;
1 ALERT(警告):必须马上采取措施解决的问题;
2 CRIT(严重):比较严重的情况;
3 ERR(错误):运行出现错误;
4 WARNING(提醒):可能会影响系统功能的事件;
5 NOTICE(注意):不会影响系统但值得注意;
6 INFO(信息):一般信息;
7 DEBUG(调试):程序或系统调试信息等1。
用户日志分析日志保存了用户登录、退出系统等相关信息。
/var/log/lastlog:最近的用户登录事件;
/var/log/wtmp:用户登录、注销及系统开、关机事件;
/var/run/utmp:当前登录的每个用户的详细信息;
/var/log/secure:与用户验证相关的安全性事件;
分析工具:users 、who、w、last、lastb1。
程序日志分析由相应的应用程序独立进行管理,如下:
Web服务:/var/log/httpd/access_log、error_log;
代理服务:/var/log/squid/access.log、cache.log、squid.out、store.log;
FTP服务:/var/log/xferlog。
分析工具:文本查看、grep过滤检索、Webmin管理套件中查看;awk、sed等文本过滤、格式化编辑工具;Webalizer、Awstats等专用日志分析工具1。
日志管理策略1.及时作好备份和归档;
2.延长日志保存期限;
3.控制日志访问权限:日志中可能会包含各类敏感信息,如账户、口令等;
4.集中管理日志:便于日志信息的统一收集、整理和分析;杜绝日志信息的意外丢失、恶意篡改或删除。
应用示例:调整syslogd服务设置,建立集中管理的日志服务器;将客户机B中crond服务产生的日志消息,自动发送到服务器A的/var/log/cron文件中1。
系统启动类故障分析MBR扇区故障故障原因:病毒、木马等造成的破坏;不正确的分区操作、磁盘读写误操作。
故障现象:找不到引导程序,启动中断;无法加载操作系统,开机后黑屏。
解决思路:应提前作好备份文件;以RHEL5安装光盘引导进入急救模式;从备份文件中恢复。
应用示例:
1.备份MBR扇区数据:dd if=/dev/sda of=/backup/sda.mbr.bak bs=512 count=1;
2.模拟MBR被破坏的故障:dd if=/dev/zero of=/dev/sda bs=512 count=1;
3.RHEL5光盘引导,进入急救模式:boot: linux rescue;
4.从备份文件中恢复MBR扇区:dd if=/tempdir/sda.mbr.bak of=/dev/sda bs=512 count=11。
GRUB引导故障故障原因:MBR中的GRUB引导程序遭到破坏;grub.conf文件丢失、引导配置有误。
故障现象:系统引导停滞,显示“grub>”提示符。
解决思路:尝试手动输入引导命令;进入急救模式,从备份中恢复 grub.conf;向MBR扇区中重建grub程序。
应用示例:在“grub>”提示符后,手动输入引导命令;成功进入系统后,恢复或重建 grub.conf 配置文件1。
/etc/inittab文件丢失故障原因:inittab文件被误删除,或者存在配置错误。
故障现象:启动中提示 “INIT: No inittab file found”;系统停滞,无法完成初始化。
解决思路:进入急救模式,从备份文件中恢复;或者,在急救模式中重新安装 initscripts 软件包即rpm -ivh --replacepkgs initscripts-8.45.14.EL.i386.rpm1。
遗忘root用户的密码故障原因:遗忘root用户的密码。
故障现象:无法进行需要root权限的管理操作;若没有其他可用帐号,将无法登录系统。
解决思路:引导进入单用户模式,然后重设密码;grub > kernel ... single 或 s 或 1;或进入急救模式,然后重设密码1。
文件系统类故障分析修复文件系统故障原因:非正常关机、突然断电、设备读写失误等;文件系统的超级块(super-block)信息被破坏。
故障现象:无法向分区中读取或写入数据;启动后提示“Give root password for maintenance” 。
解决思路:根据提示输入root口令,进入修复状态;使用fsck命令进行修复2。
磁盘资源耗尽故障故障原因:磁盘空间已被大量的数据占满,空间耗尽;虽然还有可用空间,但文件数i节点耗尽 。
故障现象:无法写入新的文件,提示“… : 设备上没有空间”;部分程序无法运行,甚至系统无法启动。
解决思路:清理磁盘空间,删除无用、冗余的文件;转移或删除占用大量i节点的琐碎文件;进入单用户模式、急救模式进行修复;为用户设置磁盘配额2。
检测磁盘环境故障原因:磁盘设备中存在坏道(逻辑的或物理的)。
故障现象:读取磁盘中的数据时,磁盘设备发出异常声响;访问磁盘中的某个文件时,反复读取且出错,提示文件损坏;对于新建立的分区无法完成格式化;系统使用该磁盘时频繁死机。
解决思路:检测硬盘中是否存在坏道;修复硬盘,或更换新的硬盘2。