「必看」Linux 运维工程师打怪升级篇

「必看」Linux 运维工程师打怪升级篇

做运维就像游戏打怪升级，升级后知识体系和运维体系也相对变化挺大，学习了很多新的知识点。运维工程师是从一个呆逼进化为苦逼再成长为牛逼的过程，前提在于你要能忍能干能拼，还要具有敏锐的嗅觉感知前方潮流变化。如：今年大数据，人工智能比较火。。。(相对表示就是 python 比较火）

拓扑详见：

中级篇

从我后面面试经历和面试别人的经历。有些人认为，其实运维就是部署某个软件，设置些基础功能，就算会运维了。

举个例子：安装LAMP，LNMP，就感觉部署方法我都掌握了。其实网上大多数都有一键安装脚本啥的根本没有啥技术含量，在面试官眼里，这些都不是你的亮点。基本到了公司一般环境架构都是部署好的，很少需要你去变动环境架构。就算你安装好

LNMP 架构你熟悉里面的原理吗，熟悉 Nginx 优化吗，熟悉 MySQL 优化吗？

再举个例子：我面试遇到的问题，面试官问你既然熟悉 LNMP 架构，那么 Nginx 反向代理的作用。

你应该不是说出懂这个软件和配置，你尽可能的说怎么优化，怎么深入提高网站性能。

1、使用反向代理可以理解为7层应用层的负载均衡，使用负载均衡之后可以非常便捷的横向扩展服务器集群，实现集群整体并发能力、抗压能力的提高。

2、通常反向代理服务器会带有本地 Cache 功能，通过静态资源的 Cache，有效的减少后端服务器所承载的压力，从而提高性能。

下面说说运维在工作中需要掌握的核心技术

注意，这是在工作中掌握的，在学习中很难掌握。

1、第一条最主要的排错

● 分析部分程序不能运行或没有按预想结果运行的原因，对程序运行跟踪，查看系统调用的过程。

● 较深入的系统瓶颈点分析。

查看剩余内存：

free -m#-/+ buffers/cache: 6458 1649#6458M为真实使用内存 1649M为真实剩余内存(剩余内存+缓存+缓冲器)#linux会利用所有的剩余内存作为缓存，所以要保证linux运行速度，就需要保证内存的缓存大小

系统信息：

uname -a # 查看Linux内核版本信息cat /proc/version # 查看内核版本cat /etc/issue # 查看系统版本lsb_release -a # 查看系统版本需安装 centos-releaselocale -a # 列出所有语系locale # 当前环境变量中所有编码hwclock # 查看时间who # 当前在线用户w # 当前在线用户whoami # 查看当前用户名logname # 查看初始登陆用户名uptime # 查看服务器启动时间sar -n DEV 1 10 # 查看网卡网速流量dmesg # 显示开机信息lsmod # 查看内核模块

硬件信息：

more /proc/cpuinfo # 查看cpu信息lscpu # 查看cpu信息cat /proc/cpuinfo | grep name | cut -f2 -d: | uniq -c # 查看cpu型号和逻辑核心数getconf LONG_BIT # cpu运行的位数cat /proc/cpuinfo | grep 'physical id' |sort| uniq -c # 物理cpu个数cat /proc/cpuinfo | grep flags | grep ' lm ' | wc -l # 结果大于0支持64位cat /proc/cpuinfo|grep flags # 查看cpu是否支持虚拟化 pae支持半虚拟化 IntelVT 支持全虚拟化more /proc/meminfo # 查看内存信息dmidecode # 查看全面硬件信息dmidecode | grep "Product Name" # 查看服务器型号dmidecode | grep -P -A5 "Memorys+Device" | grep Size | grep -v Range # 查看内存插槽cat /proc/mdstat # 查看软raid信息cat /proc/scsi/scsi # 查看Dell硬raid信息(IBM、HP需要官方检测工具)lspci # 查看硬件信息lspci|grep RAID # 查看是否支持raidlspci -vvv |grep Ethernet # 查看网卡型号lspci -vvv |grep Kernel|grep driver # 查看驱动模块modinfo tg2 # 查看驱动版本(驱动模块)ethtool -i em1 # 查看网卡驱动版本ethtool em1

● 使用分析系统分析web日志。（如逆火软件，）

● 分析系统性能瓶颈点（IO/memory/cpu,常用工具，top命令中shift组合键的特殊用Sar/vmstat/iostat/ipcs）

日志管理常用命令：

history # 历时命令默认1000条HISTTIMEFORMAT="%Y-%m-%d %H:%M:%S " # 让history命令显示具体时间history -c # 清除记录命令cat $HOME/.bash_history # 历史命令记录文件lastb -a # 列出登录系统失败的用户相关信息清空二进制日志记录文件 echo > /var/log/btmplast # 查看登陆过的用户信息清空二进制日志记录文件 echo > /var/log/wtmp 默认打开乱码who /var/log/wtmp # 查看登陆过的用户信息lastlog # 用户最后登录的时间tail -f /var/log/messages # 系统日志tail -f /var/log/secure # ssh日志

2、优化

优化可以说是运维最吃香的技能，基本会优化的运维普遍工资很高，而且优化是要承担风险的，并不是网上搜个文章改一下配置文件或者参数就叫优化了，这样很容易造成宕机。

优化是根据实际的现场环境硬件各个参数进行部分优化，提高软件性能和网站性能。这个我只能讲半知半解，当时优化mysql和tomcat参数也是根据网上文章和官网文档查找参数在虚拟机上测试然后查看性能。

成本优化，性能优化。这里我给出 tomcat 优化 jvm 参数（做过相应测试才放到现场环境的）：（记住无监控不调优）

-标准参数，所有jvm都应该支持

-X 非标，每个jvm实现都不同

-XX 不稳定参数，下一版本可能会取消

serial collector 单线程序列化

parallel collector 多线程

启动 jvisualvm.exe 监控 dump 内存溢出

-Xms:初始堆大小

-Xmx:最大堆大小

-Xss:线程栈大小

-XX:NewSize=n:设置年轻代大小

-XX:NewRatio=n:设置年轻代和年老代的比值，如3, 标示年轻代：年老代比值1:3,年轻代占整个年轻代年老代和的1/4

-XX:SurvivorRatio=n:年轻代中的eden区与2个Survivor区的比值。

-XX:MaxPermSize=n:设置持久代大小

收集器设置

-XX:+UseSerialGC：设置串行收集器

-XX:+UseParallelGC:设置并行收集器

-XX:+UseConcMarkSweepGC:设置并发收集器

回收统计信息

-XX:+PrintGC

-XX:+PrintGCDetails

-Xloggc:filename

tocmat 优化确认有几个 jvm 虚拟机

set JAVA_OPTS=

-Xms4g

-Xmx4g

-Xss512k

-XX:+AggressiveOpts 进攻型的优化选项,所有优化项都加上

-XX:+UseBiasedLocking 优化锁，基本都要选上，偏执锁

-XX:permSize=64m 原始区大小，最大300m 类多就设置大一点

-XX:MaxPermSize=300m

-XX:+DisableExplicitGC //System.gc() 不显示调用gc

-XX:+UseConcMarkSweepGC 使用cms缩短相应时间，并发收集，低停顿

-XX:+UseParNewGC 并行收集新生代的垃圾

-XX:+CMSParallelRemarkEnabled 在使用UseParNewGC的情况下，尽量减少mark的时间

-XX:+UseCMSCompactAtFullCollection 使用并发收集器时，开启对年老代的压缩，使碎片减少

-XX:LargePageSizelnBytes=128m 内存分页大小对性能的提升

-XX:+UseFastAccessorMethods get/set方法转成本地代码

-Djava awt headless=true 修复linux下tomcat处理图标时可能产生的bug

tomcat 前任何参数没参加大概每秒605 调优后大概每秒435 接近3倍的结果

3、开发技能

优选 shell 和 python，现在 shell 无法满足你的需求或者效率很低，那么选择自动化 python 是最好的选择。现在普遍招聘需求要求，会写 shell 或者 python，perl 脚本，个人选择还是选 python。

python 这门语言上手比较快，容易理解。

python

在服务器管理工具上非常丰富，配置管理(saltstack) 批量执行( fabric, saltstack) 监控(Zenoss,nagios 插件) 虚拟化管理( python-libvirt) 进程管理 (supervisor) 云计算(openstack)...... 还有大部分系统 C 库都有 python 绑定。

对于流程确定的事情，最终一定是纳入系统管理的体系，写成程序，成为系统的一部分。而不是无法复用游离与整体的各种脚本。

随着云计算时代的来临，中小型公司，不需要运维了。大型公司，没有工程开发能力的运维，是没有竞争力的。

最重要的学好 python 可以涨工资，可以涨工资，可以涨工资。（重要的事情说三遍。）

目前本人也是在学 python，正在把以前 shell 脚本的实例转换成 python 脚本。

4、意识篇

1) 安全意识：

运维人员的权限很大，所以一定要保证帐号/私钥的安全。

● 最好使用加密工具存储。比如truecrypt，lpassword

● 基于本地存储。切勿用网盘，也不建议用lastpass等

● ssh私钥添加密码

2) 磨刀意识：

关于任何操作配置，最好先搞明白操作或配置的原理，然后再去操作。应一句话叫做“磨刀不误砍柴功”，而且对于类似的操作可以举一反三。

3) 计划意识：

复杂的变更操作比如多台主机以及牵涉到san存储，最好先作操作计划，写计划文档，详细致每条命令，然后请高手帮忙审核。这样能最大程度使整个操作过程安全。如果是重要的客户业务系统，操作最好有回退方案，而一旦变更失败，客户可以在短时间内将业务回退。

4) 记录分享意识：

遇到自己认为较特殊的案例时，记得要写案例过程及分析的文档。也方便自己以后翻看，或者和其他兄弟分享，作知识的传播以便于大家以后都能少走弯路。

5) 监控意识：

运维来说，监控是非常重要的，监控是发现系统各种异常的眼睛，所以运维应该和监控紧密配合。

6) 业务意识：

尽量了解维护的各主机上业务类型，以及各主机业务之间的关联性。因为任何维护工作都是为主机能提供业务服务的，当某业务中断，能最快的知道与此业务相关的主机群，从而缩小故障排查范围，最快定位故障。

附上运维思路拓扑图：

3、开发技能

优选 shell 和 python，现在 shell 无法满足你的需求或者效率很低，那么选择自动化 python 是最好的选择。现在普遍招聘需求要求，会写 shell 或者 python，perl 脚本，个人选择还是选 python。

python 这门语言上手比较快，容易理解。

python

在服务器管理工具上非常丰富，配置管理(saltstack) 批量执行( fabric, saltstack) 监控(Zenoss,nagios 插件) 虚拟化管理( python-libvirt) 进程管理 (supervisor) 云计算(openstack)...... 还有大部分系统 C 库都有 python 绑定。

对于流程确定的事情，最终一定是纳入系统管理的体系，写成程序，成为系统的一部分。而不是无法复用游离与整体的各种脚本。

随着云计算时代的来临，中小型公司，不需要运维了。大型公司，没有工程开发能力的运维，是没有竞争力的。

最重要的学好 python 可以涨工资，可以涨工资，可以涨工资。（重要的事情说三遍。）

目前本人也是在学 python，正在把以前 shell 脚本的实例转换成 python 脚本。

4、意识篇

1) 安全意识：

运维人员的权限很大，所以一定要保证帐号/私钥的安全。

● 最好使用加密工具存储。比如truecrypt，lpassword

● 基于本地存储。切勿用网盘，也不建议用lastpass等

● ssh私钥添加密码

2) 磨刀意识：

关于任何操作配置，最好先搞明白操作或配置的原理，然后再去操作。应一句话叫做“磨刀不误砍柴功”，而且对于类似的操作可以举一反三。

3) 计划意识：

复杂的变更操作比如多台主机以及牵涉到san存储，最好先作操作计划，写计划文档，详细致每条命令，然后请高手帮忙审核。这样能最大程度使整个操作过程安全。如果是重要的客户业务系统，操作最好有回退方案，而一旦变更失败，客户可以在短时间内将业务回退。

4) 记录分享意识：

遇到自己认为较特殊的案例时，记得要写案例过程及分析的文档。也方便自己以后翻看，或者和其他兄弟分享，作知识的传播以便于大家以后都能少走弯路。

5) 监控意识：

运维来说，监控是非常重要的，监控是发现系统各种异常的眼睛，所以运维应该和监控紧密配合。

6) 业务意识：

尽量了解维护的各主机上业务类型，以及各主机业务之间的关联性。因为任何维护工作都是为主机能提供业务服务的，当某业务中断，能最快的知道与此业务相关的主机群，从而缩小故障排查范围，最快定位故障。

附上运维思路拓扑图：

意识是很重要，并不是你技术很牛，学的技术很多很熟，就不代表你不需要运维意识，其实领导很看重运维意识的，例如有没有做好备份，权限分配问题，平台测试情况，故障响应时间等，这些都是意识，而不是你学了很多技术自认大牛了，平台发现故障你又没什么大不子，以为很简单的问题喜欢处理就处理，不需要向其它部门反馈等，领导不是看你的技术如何，而是看你的运维意识如何，你没运维意识，技术再牛也没用，只会让其它部门的人跟你不协调。

转载于：https://mbd.baidu.com/newspage/data/landingshare?pageType=1&isBdboxFrom=1&context=%20%7B%22nid%22%3A%22news_10707237857143559312%22%2C%22sourceFrom%22%3A%22bjh%22%7D
相关阅读:
redis 定义序列号
 mac下搭建phalcon扩展以及phalcon-devtools扩展
 rabbitmq集群架构(转载)
mysql下limit分页优化思路
 ffmpeg图片格式转换,webp转换成jpg,webp转换成png,jpg转换成png,jpg转换成webp,png转换成webp,png转换成jpg
sed替换多个字符串在一条命令里面
 CentOS7减轻DDOS攻击,使用fail2ban预防CC攻击
 ffmpeg改变jpg,png,webp图片大小
 wget下载github的releases的软件
 CentOS6.5设置IPTables防火墙
原文地址：https://www.cnblogs.com/rui517hua20/p/11280143.html