㈠ Linux网络异常排查思路与方法
处理问题时必定不能盲狙,将所有解决办法都试上一遍。这生产环境中,解决出现的问题是最优先的事情,当然前提是这问题会影响用户的使用或即将影响到的。
处理每个问题必然可按具体问题进行分类,根据每一类按对应的解决思路来执行。
但像处理一个网络问题的时候,上至系统防火墙的配置、下至硬件故障。如果处理一个问题都按固定流程来进行的话,那必然效率将非常低下。下为处理网络故障的一般流程。
1、网络硬件问题检查。 (机率较低)
2、检查网卡能否正常工作。 (较高、主要表现为人为配置错误)
3、检查局域网之间联机是否正常。(非常高)
4、检查DNS是否设定正确。 (较低)
5、服务是否正常打开。 (低)
6、检查访问权限是否打开。 (较高)
假如从1至6是标准的处理网络问题的流程,这样的处理方式效率低下。处理问题可以有整体的流程,但是实际操作中可先对出现机率更高的步骤进行检查、或采取2分法缩小产生问题的范围,虽然上述较的两个方法不一定对所有问题都试用,但对于大多数的网络问题来说处理效率有者显着的提升。
个人总结的情况如下。
1、lsmod | grep ip 查看相关的网卡模块是否已加载
2、ifconfig -a 能使用该命令查找到对应网卡配置信息,则说明网卡驱动程序正常
3、使用ping命令、依次ping自己、ping局域网主机、ping网关
ping自己异常,问题:服务异常、网卡配置未生效
ping局域网主机异常,问题:配置文件有误、网卡配置未生效、网线损坏
ping网关异常,问题:配置文件有误、网卡配置未生效
4、当前3步还不能正常上外网的话。所有route查看默认路由表。
处理方法:删除不必要的路由信息,并保证默认路由是从对应网关地址出去的。
5、临时停止iptables服务、SELinux服务、NetworkManager服务
6、如能上网但访问域名有异常时,那将需要检查/etc/hosts、/etc/resolv.conf两个配置
7、假如以上6步检查完毕之后,还发现不能上网。有如下可能。
7.1、主机MAC地址被路由器禁止上网
7.2、外网服务异常。如宽带账号欠费、光纤被挖断等物理攻击。
㈡ linux系统重启网卡后网络不通(NetworkManager篇)
<div style="font-weight: 400;"> <span></span> <h1>个人博客:<a href="https://www.oschina.net/action/GoToLink?url=https%3A%2F%2Fwww.mianshi.host" target="_blank" rel="nofollow">点击这里进入</a></h1> <span></span> <h3>一.故障现象</h3> <blockquote> <p>RHEL7.6系统,使用nmcli绑定双网卡后,再使用以下命令重启network服务后主机网络异常,导致无法通过ssh远程登录系统。</p> </blockquote> <p> <code># systemctl restart network</code></p><span></span> <h3>二.理论知识</h3> <blockquote> <p>Network service的制御网络接口配置信息改动后,网络服务必须从新启动,来激活网络新配置的使得配置生效,这部分操作和从新启动系统时时一样的作用。制御(控制)是/etc/init.d/network这个文件,可以用这个文件后面加上下面的参数来操作网络服务。例如: <code># /etc/init.d/network restart</code> 同样也可以用service这个命令来操作网络服务例如: <code># service network restart</code> <code># systemctl restart network</code> (NetworManager)是检测网络、自动连接网络的程序。无论是无线还是有线连接,它都可以令您轻松管理。对于无线网络,网络管理器可以自动切换到最可靠的无线网络。利用网络管理器的程序可以自由切换在线和离线模式。网络管理器可以优先选择有线网络,支持 VPN。网络管理器最初由 Redhat 公司开发,现在由 GNOME 管理</p> </blockquote><span></span> <h3>三.环境分析</h3> <blockquote> <p>系统版本:Red Hat Enterprise Linux Server release 7.6 内核版本:3.10.0-957.el7.x86_64 硬件类型:Huawei 2288H V5 首先检查系统网络配置,该系统配置两块bonding设备,分别是: bond0:业务网络 bond1: Oracle RAC心跳网络 分析系统日志,当重启network服务时(systemctl restart network),系统messages日志中无明显异常,测试发现,当停止NetworkManager服务后,问题现象消失,即执行如下操作:</p> </blockquote> <p> <code># systemctl stop NetworkManager</code></p> <blockquote> <p>此时再次重启network服务:</p> </blockquote> <p> <code># systemctl restart network</code></p> <blockquote> <p>可以很快ping通bond0的业务地址10.116.6.194。 进一步分析发现,如果不停止NetworkManager服务,而是修改网卡配置文件,在bonding网卡和组成bonding的slave网卡的配置文件中增加一行配置,也可以解决该问题。</p> </blockquote> <p> <code>NM_CONTROLLED=no</code></p> <blockquote> <p>参考红帽RHEL7配置网卡bonding的官方文档: <a href="https://www.oschina.net/action/GoToLink?url=https%3A%2F%2Faccess.redhat.com%2Fdocumentation%2Fen-us%2Fred_hat_enterprise_linux%2F7%2Fhtml%2Fnetworking_guide%2Fsec-network_bonding_using_the_command_line_interface" target="_blank" rel="nofollow">https://access.redhat.com/documentation/en-us/red_hat_enterprise_linux/7/html/networking_guide/sec-network_bonding_using_the_command_line_interface</a> 可以看到,官方文档的配置示例中设置了NM_CONTROLLED=”no”: <img src="https://upload-images.jianshu.io/upload_images/24736011-d9a54d4b359b41d0.png" alt=""> <img src="https://upload-images.jianshu.io/upload_images/24736011-466df81c683a5113.png" alt=""></p> </blockquote><span></span> <h3>四.原厂问题建议</h3> <blockquote> <p>该问题是由于NetworkManager服务引起,可以通过如下两种方法解决:</p> </blockquote> <ul> <li>在网卡配置文件中增加参数NM_CONTROLLED=no(“no”的引号可以不写),设置后重启network服务生效。设置NM_CONTROLLED=no的目的是将网络设备脱离NetworkManager服务的管理,设置后该网络设备仅由network服务管理,不受NetworkManager服务控制,因而nmcli命令对该网络设备不再生效;</li> <li>停止并禁用NetworkManager服务,停用后所有网络设备由network服务管理,不能通过nmcli命令来管理网络设备:</li> </ul> <p> <code># systemctl stop NetworkManager</code> <code># systemctl disable NetworkManager</code></p><span></span> <h3>五.解决方案</h3> <blockquote> <p>据上所述,可关闭NetworkManager服务或在BOND配置文件中添加参数,但因环境需要,需使用nmcli命令,故无法关闭NetworkManager,在多轮测试中进行思考,既然NetManager与network服务冲突,但nmcli命令属于NetworkManager,systemctl一般用来管理network,考虑两者管理命令可能也存在冲突后进行了一波测试,使用NetworkManager的nmcli进行网卡的重启操作,使用以下命令后,网络可以即刻ping通并通过SSH连接</p> </blockquote> <p> <code># nmcli connection down 网口名称</code> <code># nmcli connection up 网口名称</code></p><span></span> <h3>六.结论</h3> <blockquote> <p>因NetworkManager与network服务存在冲突,且双网卡绑定时所使用的的nmcli进行绑定,nmcli归属于NetworkManager,故重启网卡时应用nmcli命令up/down,不应使用systemctl进行网卡重启</p> </blockquote>㈢ linux信号32异常退出
linux信号32异常退出原因:
1、磁盘故障:I/O错误通常是由磁盘或文件系统中出现的问题引起的。这会导致Linux无法正常读取或写入数据。例如,一个坏簇或黑板区可以阻止你访问文件系统中的一些文件。
2、网络问题:如果尝试从网络文件共享中读取文件然后遇到错误32,这可能表明服务器端出现了故障或者是网络连接存在问题。
3、权限问题:如果试图访问一个受保护的文件,而没有足够的权限,那么会发生此错误。这通常是由于没有正确的用户权限,而导致Linux无法访问该文件。
㈣ linux 发送流量异常
1. 使用iftop工具查出来是哪些个IP地址在请求主机的带宽资源,找出耗带宽的元兇
2. 找出耗带宽的IP地址或者段,分析是out方向还是in方向,使用iptables规则来进行控制
具体的详细操作方法如下;
一但出现带宽被恶意请求,在带宽被请满的情况下基本上很难通过网络登入到服务器上进行操作跟维护,这时我们需要通过阿里云提供的“连接管理终端”服务来登入系统
一般建议在主机正常的时候直接在服务器内部安装好iftop工具,这样出现恶意请求的时候直接可以使用该工具来进行排查,下面介绍下iftop的2中安装方法
1.使用yum 安装iftop工具
使用yum安装的话比较简单,只要直接执行 yum install iftop –y命令即可,如果没问题的话系统就会自动执行安装,但是有使用yum可能安装不了,这时就需要使用编译安装了
2.编译安装iftop工具
(1)下载iftop工具的源码包;
http://oss.aliyuncs.com/aliyunecs/iftop-0.17.tar.gz
(2)CentOS下安装所需的依赖包
yum install flex byacc libpcap ncursesncurses-devel libpcap-devel
(3 解压缩下载的iftop文件
tarzxvf iftop-0.17.tar.gz
(4 进入到解压的的iftop目录中
cdiftop-0.17
配置并制定安装目录为/usr/local/iftop目录下
(5./configure –prefix=/usr/local/iftop
(6)编译并安装
make && make install
安装完成以后直接使用/usr/local/iftop/sbin/iftop 启动iftop程序查看流量使用情况,如果想使用iftop的方式直接开启程序,需要将iftop的程序添加到环境变量中即可
结合使用iptables服务来限制恶意请求的流量;
iftop –i eth1 查看eth1这块外网网卡的流量使用情况
通过上面这张信息很清楚的看到,121.199这台服务器一直往192.230.123.101 这个地址发送流量,而且出去产生的流量相当大,几乎把整个出网带宽都给耗尽了
查到了恶意请求的原因跟目标主机以后,我们就可以使用iptables服务来对这种恶意行为进行限制了,因为从查看到的数据看主要的流量是从out方向出去的,那就直接在OUT方向设置策略
Iptables -A OUTPUT -d 192.230.123.101 –j REJECT
这里可能还会发现一个情况就是禁用了这个1个IP以后可能这个段的其它IP地址都有可能马上就接上继续请求,那就可以针对一个段来进行限制
iptables-A OUTPUT -d 192.230.0.0/16 -j REJECT
策略加上以后可以再使用iftop –i eth1 来查看流量的请求情况;
可以查看到流量已经恢复了正常,之前的恶意请求的地址都已经被防火墙给屏蔽了,效果比较好
另外iftop还有很多的参数可以实现比较多的功能,有时间的话可以研究研究,对排查网络流量攻击以及掌控流量使用很有帮助的