Loading...
正在寻找新机会

Rich Zhu

资深运维架构师 / SRE / DevOps

AI+智能运维体系 · 亿级流量实战专家 · 安全/稳定/成本 三维精控

0年+
行业经验
0台+
服务器规模
0万+UV
日请求量
0→1
架构从零搭建经验
R

个人信息

资深运维架构师 · SRE专家

K8S/云原生 AIOps CI/CD 安全架构
北京航空航天大学 · 计算机科学与技术 · 工学 学士学位
1991年11月 · 男 · 汉族
英语可日常工作交流
新加坡 / 日本 / 香港 / 远程

核心优势

深耕运维领域14年,融合技术与管理,打造稳定、高效、安全的技术体系

AIOps智能运维

基于AmazonQ 开发企业AI平台,实现业务数据观测、故障分析、性能诊断。结合Thanos+AI建立数据模型,实现异常预测与秒级告警,推动运维从被动响应走向智能预防。

自研自动化平台

自主研发高效CI/CD系统,取代Jenkins等工具。集成数据分析、权限管理、缓存加速等功能,经受多次安全渗透测试验证。

安全架构专家

从架构设计源头防漏洞,建立可视化安全监控。成功应对公司资金安全、员工恶意操作等高危事件,守护企业核心资产。

大规模实战经验

新浪、阿里(哈啰)背景,5000+台服务器运维经验,支撑日请求4000万UV的高并发业务。深刻理解大型企业架构与业务。

成本精准管控

数据化监控多业务成本支出,合理评估人员扩张与技术投入。以灵活、可扩展、安全、稳定为导向,大幅降低IT成本。

一体化运维平台

设计开发统一运维平台,实现多云与自建机房管理。集成资产管理、监控、域名、工单、SSO等多个子系统。

业务架构实战

具备业务架构设计和开发能力,主导高并发IM系统架构设计,稳定支撑全公司消息体系及第三方消息交互。

技术产品化思维

从用户需求出发,结合技术可行性,推动多款高效产品落地。将复杂技术需求转化为简洁易用的解决方案。

基础设施即代码(IaC)

基于Terraform/Ansible实现基础设施自动化管理,版本化控制服务器配置,实现基础设施快速复制与灵活扩展。

工作经历

从一线运维到技术总监,持续积累大规模系统运维与团队管理经验

开云/亚博 技术中心
资深高级架构师
2023.11 — 至今
  • 跨部门协同:统筹运维、域名、业务、安全、运维开发等多组协作,推动需求工具化、工具平台化
  • 平台研发:主导自研CMDB、域名管理系统(150万+域名)、CDN系统、SSO统一平台、审批系统等核心基础设施
  • 自建CDN系统:自研CDN开发,设计实现缓存系统架构、多级缓存预热流程,支撑大规模内容分发需求
  • 自建WAF安全防护:自研WAF系统,集成常见WAF规则,自研慢攻击/CC攻击识别库,设计开发JA3指纹逻辑,结合AI实现针对特定JA3指纹的自动封禁,有效应对生产环境CC攻击
  • 智能监控:设计开发边缘节点拨测系统,实时检测域名可用性,第一时间排查域名被墙、业务故障等问题,保障业务连续性
  • 自研打包/发布系统:自研打包发布系统,整合替代Jenkins/Ansible/ArgoCD等工具,集成审计与权限管理,大幅降低维护成本
  • AIOps落地:基于Amazon Q构建企业AI平台,实现业务数据观测、故障分析、性能诊断;部署Thanos+AI实现多集群监控与异常预测
  • 代码安全审计:部署SonarQube/Strix安全扫描工具,对项目代码进行漏洞检测、风险代码识别,保障代码质量与安全合规
  • 内部风控体系:研发操作日志分析系统,结合AI Agent实时分析所有服务器的异常操作日志,监控内部员工操作行为,精准识别异常与恶意操作
AIOps 平台研发 自建CDN 自建WAF 150万+域名 CI/CD
VimWorld (美企远程)
架构师
2021.9 — 2023.11
  • 区块链节点运维:负责VeChain、ETH、TRON等多链节点的部署、维护与监控,保障区块链服务稳定运行
  • ELK日志系统:搭建ELK日志系统与监控中心,实现全链路日志采集、分析与可视化
  • 自研钱包维护:负责自研区块链钱包与生产业务维护,快速定位排查线上故障
  • CICD设计实施:基于GitLab CI + ArgoCD设计实施完整CI/CD流程,实现自动化部署
  • 架构规划:主导制定运维SOP及技术基础架构标准,负责中间件选型与验收
  • 智能运维:推动AIOps项目立项,搭建大数据平台,将AI对抗测试接入生产业务
区块链节点 ELK GitLab CI ArgoCD AIOps
哈啰出行
SRE 工程师 P7
2019.8 — 2021.9
  • 规模化运维:负责5000+台服务器运维,支撑日请求4000W次的高并发业务
  • 自研运维平台:主导自动化平台开发,实现服务器自动化初始化、应用一键部署、组件批量管理、CMDB资产自动同步等功能
  • CI/CD流水线:完善CI/CD流程,实现代码自动构建、镜像推送、满带灰度发布,显著提升自动化覆盖率
  • 成本控制:基于数据指标执行精准扩容/缩容,有效控制公司IT成本
  • K8S与云原生:维护300+节点K8S集群,结合CEPH存储,对接自动化需求
5000+服务器 K8S 自研运维平台 CI/CD
日日煮
高级运维工程师
2016.8 — 2019.8
  • K8S集群建设:自建Kubernetes集群部署与维护,实现容器化编排与管理
  • 生产业务运维:负责生产环境业务维护,快速定位分析解决故障及突发情况
  • CICD流程设计:设计实施完整CI/CD流程,推动程序架构优化与容器化落地
  • 中间件运维:负责Canal、Redis、MySQL、ClickHouse、RocketMQ、Kafka等中间件部署与维护
  • DevOps平台:负责DevOps平台基础组件构建,推进自动化运维平台开发 (Golang/Vue)
  • 安全加固:负责业务安全评估与加固,保障业务7x24小时稳定运行
K8S Golang 中间件 CI/CD 容器化
GoldenTek Inc.
业务运维工程师组长
2014 — 2016.7
  • 自动化运维平台:开发自动化运维平台 (Python + Element UI),实现发版、回滚、重启等管控功能
  • 数据库运维:负责MySQL、MongoDB、PostgreSQL等数据库集群部署、主从复制、备份恢复与性能优化
  • 缓存中间件:负责Redis集群、Memcached部署与维护,保障缓存服务高可用
  • 消息队列:负责RabbitMQ、ActiveMQ消息队列部署与日常维护,保障消息服务稳定
  • 监控与安全:部署细颗粒度监控系统(Zabbix/Nagios),负责异常流量与网络攻击处理
Python MySQL Redis RabbitMQ 监控系统
新浪 Show
业务运维工程师
2011.4 — 2014
  • 负责华东华北5大机房日常巡检与服务器维护
  • 负责直播业务的高并发流量应对与故障处理
  • 编写Shell/Python脚本实现细颗粒度监控告警
  • 推进虚拟化技术并交付业务使用
直播运维 Shell 虚拟化