职位描述:
1.负责云平台集群的大规模、高可用和稳定性运维工作;
2.深入研究高性能计算业务运维相关技术,优化服务架构,设计实现可支撑大规模分布式集群的运维平台与工具;
3.深入了解容量规划和集群性能优化,参与运维系统的架构设计与实施,主导系统架构可运维设计方案;
4.负责实施项目的服务器部署、系统环境搭建、数据备份、日志分配、系统监控、性能优化、故障排除、系统巡检、生产问题排查等,并配合各相关部门完成运维工作;
5.协助第三方运维公司完成企业内部的机房、服务器、网络、PC和桌面的运维,处理终端软硬件问题。
任职要求:
1.3年以上互联网行业业务运维经验;
2.具有扎实的计算机专业基础知识,精通python/ruby/shell等脚本语言,且有运维产品化开发经验;
3.熟悉systemtap、perf、oprofile 等分析调试工具;
4.精通linux操作系统, 熟悉网络基础知识、熟悉TCP/IP的工作原理,会配交换机或路由器,快熟分析网络信息;
5.熟悉AWS/腾讯云/阿里云相关产品的运维,能借用公有云提供的服务构建自动化运维平台;
6.喜欢探索、专研新的运维技术方向,对docker, k8s保持敏感。