: C) N( f1 Y4 b6 x5 J作为从事具体工作的技术人员,他的工作其实也遵从“二八定律”,20%的事件发生的概率有80%,其余的80%加在一起发生概率也只有20%。根据工作的具体情况,他可以选择给这20%的事件贴上一个直接标明性质的标签,而对于其余的80%不常发生的事件,则可以通过在事件处理流程中标签的不断完善来逐步界定。更具体的来说,他甚至可以为自己维护的几台主机创建专用的标签,只要他能说清那些标签到底有什么含义。+ n4 e5 m0 s+ {& t8 j2 m
w- L! l6 A4 S7 q; o( f @# I/ @7 M做到这里,贴标签或者说分类的过程几乎可以说已经简化到极致了,当然前提是大家都认为对事件正确分类是有必要。在传统的模式中,即使大家认识到正确分类的重要性,由于处理上的繁琐,很有可能造成分类上的垃圾数据,最终导致分析结果不准,对分类不认可,分析结果更不准......的恶性循环。; l- G3 ^9 H4 I* X6 r+ C9 A9 }7 `" r
+ i$ M; m" Z! _! q
有了标签以后如何处理和应用?这就用到了在“数学之美”中提到的概率分析法,当然这种场景比自然语言的分析不知道要简单多少倍。其实,标签就是不分维度和级别的预先设定的关键字,有了含这么多关键字的数据,作为运维管理人员来说,可以进行多种多样的分析,处理起来是非常方便的。" L* c9 ~! z/ N# L4 L5 Z
8 O( u6 v+ h. r# z上面说的是事后的处理和分析,其实标签本身还可以作为“预测”使用。对于运维管理来说,很重要的一个问题就是要快速恢复,而快速恢复的前提是对事件的快速反应,快速反应的前提则是准确定级,这样才能把好钢用在刀刃上,不松懈怠慢,也不草木皆兵。在传统的方式里,定级本身就是个大问题。前台人员缺乏经验和能力来准确定级,但流转到了后台那里,又往往失去了处理的最佳时机。还有,当短时间内事件重复发生时,可能就要对事件快速升级,但在传统方式里,如何能够准确快速地归并“重复事件”又是个让人头疼的问题,只靠前台人员的经验与责任心是远远不够的。- W# n. N! ?. A S
3 h( c5 o2 h& S z! W/ g7 F有了标签,就可以对事件进行概率分析。事件的准确定级在事后做当然是没有问题的,这样一来,我们就可以计算何种级别的事件通常都包括哪些标签,计算出当哪些标签出现时,出现何种级别事件的概率是多少。再给这种概率设定阈值,到达何种阈值就通知何种级别的人关注和处理。而且,在给定的信息系统内,这种计算的准确性会随着数据的积累而不断增加,只要做就有用,越做越有用。 ' B U. A; l0 k. y$ Q " V$ p K! m [- k4 G! N5 ^5 }值得注意的是,在上面提到的这个“预测”的过程中,唯一要求的就是同样的标签有着同样的含义,而对这个含义是否明确,是否为其他人所理解则没有任何要求。相比传统方式,对运维人员的专业要求可以说降低了不少。是训练不同基础和水平的人对同样的问题有同样的认识容易,还是告诉他们你们只要做到自己前后一致就可以了容易?这个问题的答案显而易见。$ ?) H& B# s8 q8 o7 y$ e( V. z
7 Z c9 ^. q: d4 t) N! ]那么,是不是说事件的定级一定要这么做呢?可不可以直接定级呢?如果换个角度来看,事件的级别当然也是标签,只不过有权贴这个标签的人权限要求可能高些罢了,如果确实需要,直接定级完全没有问题。2 g+ u; W3 E/ R7 v* @) L- n2 Y