从疲于奔命”救火”到自动化运维 – eBay Hadoop集群自动化运维实践
李健
eBay Cloud Services高级软件工程师兼 eBay Hadoop Service China Team Leader。2010 年加入eBay,参与了Hadoop 集群硬件与系统监控,报警,集群扩容与管理,自动化运维等多个重要项目。现在专注于Hadoop 集群的自动化运维,负责Hadoop Robot 这一集群自动化运维系统。
葛京
eBay Sr. Manager
供职于Ebay分析平台基础架构部门,负责管理Hadoop运维和相关项目的开发工作。
演讲主题:从疲于奔命”救火”到自动化运维 – eBay Hadoop集群自动化运维实践
主题摘要:
1.传统的单点运维工作模式很难适应Hadoop这一分布式场景,在集群上应用不断出错的压力下客户是不可能给运维人员足够时间去一个个故障点做排查,运维人员一直在疲于奔命的救火试图尽快定位并快速解决问题,有时候定位的“坏节点“有可能只是受害者,下线该节点只能解决表象问题并不能解决本质问题。如何第一时间发现本质问题并将该问题节点下线?
2.有些时候应用出错跟Hadoop平台无关而与应用本身有直接关系,运维人员如何快速地摆脱“黑锅”并拿出证据以说服客户?
3.坏节点下线后还需要将其修复并最终加回上线,如何自动化这一流程以确保运维人员关注更重要的事情?
4.如何一键式的安装与配置hadoop节点并保持跟其他同类型节点高度一致?
5.如何确保加回来的节点在硬件,系统和软件层面是可信的绝对健康?
6.如何可视化的展现集群各机架节点健康状态?
7.如何确保运维流程标准化?
针对这些痛点,我们开发了Hadoop Robot这一eBay hadoop集群自动化运维系统,它有效地确保廉价的Hadoop集群服务器硬件不会影响集群和应用的性能,并提供了一整套由异常发现,节点下线,节点修复,下点上线的自动化运维解决方案,级大地节约了人力并确保集群的高可用性。 Hadoop Robot同时也是hadoop集群action API center,直接处理多种Hadoop集群硬件,系统与应用问题,并且提供统一的Hadoop管理员操作界面,本演讲主题包含以下部分:
1.eBay Hadoop平台概况
2.我们遇到的实际问题(包含硬件,系统与hadoop三个角度进行详细分享)。
3.Hadoop Robot系统介绍与其带来的价值。
听众受益:
1.了解eBay如何运维大规模Hadoop集群的实战经验以集思广益,少陷坑,少走弯路。
2.了解eBay 在硬件,系统与hadoop层面上的监控细节与自动化运维实战经验。
3.Ansible在国内的分享较少,本演讲将介绍eBay是如何基于ansible实现一键式的安装与配置hadoop节点。
4.了解eBay如何确保Hadoop节点是100%健康的。
5.了解自动化运维带来的价值。
PPT下载:event.chinahadoop.com/download.php?r_id=1&t=ppt&f=18-pm-36-lijian-gejing.pdf
音频下载:event.chinahadoop.com/download.php?r_id=1&t=audio&f=18-pm-36-lijian-gejing.mp3
中国Hadoop大数据峰会2016上海站现已启动,议题征集中。
征集但不限于下列内容:
大数据生态系统 大数据安全;存储;YARN;HDFS命名空间等;
大数据与工业4.0 电力、电网、能源、炼钢等;
大数据与电子商务 国内互联网主流电商企业应用与架构分享
金融大数据 银行、证券、个人征信、企业征信、量化投资与大数据
智慧城市与大数据 交通、医疗、安防、税务工商、旅游等
计算引擎与实时计算 Spark、Tez、Impala、Flink、Google Mesa、Storm、Fafka等
大数据即服务 Azure、AWS、阿里云、Docker/Container、Mesos等
NewSQL/NoSQL HBase/Druid;MongoDB/CouchDB;VoltDB;SequaioDB;Hana等
数据挖掘与图计算 R语言、GraphLab、GraphX、OrientDB等
数据仓库与可视化 EBay Kylin、LinkedIn Cubert、QlikView、Tableaue等
大数据创业与融投资 分享大数据领域的创业团队和故事
1 条回复
[…] […]