博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
【云和恩墨大讲堂电子期刊】挑战者:Google成功的背后
阅读量:5932 次
发布时间:2019-06-19

本文共 1914 字,大约阅读时间需要 6 分钟。

致亲爱的读者:

在商业竞争中,进攻常常也是最好的防守。Google从小到大一直贯彻这个原则。Google在规模很小的时候,受到很多比自己大的公司的围攻,死守是没有出路的。因此它把自己放在一个挑战者的位置,不断挑战对手,也挑战自己。在商业竞争中,Google常常是两眼盯着前方向前冲,而不左顾右盼它的对手。

这段话摘自《浪潮之巅》,也是我认为对于Google成功的背后最好的阐释。Google公司从一开始就以挑战者的身份出现在人们的视野中,它不仅在技术和商业上挑战比自己更大更强的公司,而且在理念上挑战传统。它的成功在于

它并不应对竞争,而是在引领行业的发展。

最近我们分享了很多关于Google的案例,通过这些案例我们看到一个成功的企业自信从容的姿态,也看到了作为挑战者的它强大的灵魂。

我相信很多人看到也感知着Google的成功。成功的因素有很多,也许有英雄逢时的缘故,有浪潮的推动,但我一直相信,没有任何人和企业的成功是偶然的,如果有不确定的因素会存在,我想那便是越努力越幸运。

Google所拥有的成功,在表面上是各种英明的商业决策和智慧的l领导者的综合因素,事实上,远远不只是这样。接下来我们将结合Google运维的核心思想剖析Google背后成功的原因。

一、安全意识与防范

一切都有可能而且将会发生故障。Google在这一点上,绝对不是说说而已。

愿望不是一个策略”,这是Google  SRE 的口号,很好地总结了他们对灾难预案与演习的态度。SRE 的文化是永远保持警惕,不停地提出疑问:什么可能出现故障?在故障导致服务停止或者数据丢失之前我们如何避免?

这样的安全意识在行动上最主要的表现是:

1、细节的设计与关注:

Jeff Stevenson回忆起在美国海军的任职经历,所有人对某些小任务执行过程中出现的粗心情况可能会导致大型潜艇事故的情况非常了解(例如,润滑油的及时补充)。

非常小的一个错误都可能产生极为严重的后果。

系统相互连接紧密,所以一个区域的事故可能会导致多个相关系统出现故障。核动力海军对日常常规维护非常重视,以确保小问题不 会发展成大事故。

在我们多年的运维经验上,我们也意识到很多重大的问题或是故障往往来源于细节的设计不合理或是对看似无关紧要的小问题的疏忽。在eygle写的《一文中提出了很多在运维中药时刻谨记的事项,事实上这些问题可能是众所周知的,但常常得不到DBA们的重视。

2、灾难的预案与演习

Google 的灾难恢复团队在模拟与线上灾难演习方面与其他行业的关注点非常类似。

利用某种灾难情景可能导致的故障的严重程度来决定是使用模拟方式,还是线上方式进行演习。

这些情景会制造得非常逼真,救生员一般无法区分真实和虚构的紧急事故。

我们经常强调,备份重于一切。而在今年年初发生了很多事故,除了少数的没有备份之外,大部分都是有做备份的,大家可能还记得的事件,这听起来不大真实,但我这样的事情并不是绝无仅有,事实上很多企业认为只要做了备份,似乎就万无一失了,很少有人做有下行校验,更谈不上针对可能会发生的故障做预案演习。参考:。

二、自动化运维及工作负载的管理

Google SRE本质上还是软件工程师,他们对重复性的、被动性的工作十分反感。在他们的文化中强调避免反复执行一项重复性的工作。

事实上自动化和智能化运维是当下不可避免的趋势。只有将DBA和系统运维者从繁冗重复的工作中解救出来,才能在更有价值的事情上发挥价值。

在过去几十年的运维发展的历程中,有很多有经验的老运维,他们就像是运维工作中的数据库,熟悉大部分的故障场景和处理方案,但新运维仍要不断重复地去摸索,这就是资源的浪费。通过自动化运维工具的实现,能够将前人的经验凝聚起来,不仅有利于工作更好的完成,对于新人来说,他们则能够站在前人的肩膀上做更创新和向前的事情。

云和恩墨推出的白求恩智能诊断平台、Z3SQL审核工具、ZONE数据库性能监控及分析工具,都是通过将专家的智慧和经验凝聚成产品,让运维工作更轻松。

三、事后总结与优化

大家可能还记得Google在一次误操作中删除了1.5PB的数据的事件,影响到几乎2.1万的用户。当故障发生以后,外界都在揣测,这个锅将由谁来背。而Google Music团队则是重新设计了该流水线任务,彻底消除了这种数据竞争问题出现的可能性。

对待故障对事不对人,解决方案比问责更重要。这也是Google不断前进的重要原因之一。

Google的严谨、睿智、英明和果断,体现在每一个方面。如果成功可以复制,你做到这些了吗?

引领而非应对竞争,这才是面对竞争最好的姿态。

文章转自数据和云公众号,

转载地址:http://tbytx.baihongyu.com/

你可能感兴趣的文章
关于继承的一些小易混淆概念
查看>>
cacti 1分钟采集
查看>>
关于touch触摸屏的实现原理和linux实现
查看>>
云主机管理系统-系统预览
查看>>
目录文件管理工具
查看>>
读程序员的修炼之道
查看>>
基础总结篇之九:Intent应用详解
查看>>
Spring5 异步事件
查看>>
WDS无线分布式系统
查看>>
ContentProvider浅谈+实例
查看>>
nagios 配置报错,Error: Service has no hosts and/or service_description,解决
查看>>
2016-11 备忘录
查看>>
《统一沟通-微软-技巧》-14-Exchange 2010 With SP1-2-UM Integration-2
查看>>
SFB 项目经验-69-如何预防勒索病毒【生产环境90%服务器中勒索病毒】(欢迎大家补充)...
查看>>
visual studio中javascript脚本智能感应
查看>>
JQuery过滤筛选select第一个和最后一个option
查看>>
java中abstract
查看>>
TCP-IP协议详解(8) TCP协议与流通信
查看>>
Java程序员从笨鸟到菜鸟之(十九)EL表达式和JSTL
查看>>
Loadrunner11无法打开浏览器问题
查看>>