商业分析方法学:从文字分析谈BA和BI

来源:ChinaByte
作者:丁佐治

一、 商业分析与商业智能

这里说的“商业分析方法学”,是指英文的Business Analytics。与商业分析相关的另一个概念是“商业智能”Business Intelligence。简单的来说,我们可以把“商业智能”理解为将数据转化为知识的分析工具,把“商业分析”理解为基于知识的决策方法。在实际应用中,二者的范围是交叠和关联的。在不至于引起误解的情况下,笔者倾向于用“商业分析”或“业务分析”来指称BA“Business Analysis”,用“商业分析方法学”来指代BA和BI的组合。

其实,BI和BA两者都是方法,笼统地说,针对的目标也都在企业决策支持方面,二者都与数据有关,不同处只是在于二者的分析视角、切入点和着重点不一样。“商业智能”是从技术层面入手的数据分析方法,是对企业数据进行整理、分析和展示,以帮助企业做出智能化决策的一整套方法和工具。“商业分析”则是从企业的业务决策层面入手的信息应用方法,包括对企业业务进行分析、建模、模拟计算和预测。BI重在数据分析,BA重在信息应用;BI着重于从数据中发现已经发生了什么,从而提醒决策者采取行动,BA着重于从信息中洞察为什么发生并预测将来的趋势,从而计划下一步的行动。

这两个概念虽然不同但也高度相关,正因为如此,使得专注于不同领域的专业人士或厂商在很多情况下都会宣称对方是自己的一个子集。譬如,从技术角度出发,BI往往宣称自己的范围包括Query(数据采集)、OLAP分析、Reporting(报表)和BA(业务分析),其中BA成了BI一个模块。从业务角度出发,BA软件或解决方案常常包括业务模型、分析方法论、报表、数据集成,在这里,典型的BI内容又成了BA的子模块。

其实,商业分析是与商业本身与生俱来的,至少是与现代企业管理与生俱来的。BA可以宣称,在泰勒做科学管理分析时,就有了商业分析。而BI是与计算机的商用一起成长的,而且是在有了大量的数据需要分析的情况下才逐渐成为一个必要工具。同样可以说,BA虽然在管理学上资格很老,但也只有在计算机提供了强大的数据分析工具之后才变得更有意义。笔者认为二者实在是应该合在一起统称“商业分析方法学”,只是在内部范围细分时才区别BI和BA。如果碰到两方争执不下,只能用“数据”这个简单的指标来划分二者的地盘:必须处理数据的部分归BI,可以不跟数据直接打交道的部分归BA。

二、商业分析方法学

划分了地盘并实现了版图统一之后,我们回到“商业分析方法学”的名词上。与中文里很多现代管理学名词一样,要弄清楚“商业分析方法学”的意义,总是需要双倍的功夫,因为必须在两个层次上解释,一是原文的含义或歧义,二是译文可能的引申或歧义。如以前提到过的“大客户管理”与原文“Key Account Management”相比,意思有所不同,“大”对应“Key”,有一定程度的概念变换,不过,将错就错,我倒是更喜欢中文“大客户管理”一词所涵盖的管理学语意。

从语言学上一般来说,英文表达更准确特定,中文表达更笼统含混,而语言文字作为思维的载体,由此引起的中外思想体系的不一致,已是很多专业学者的有趣研究课题,不过我们这里顶多只关心管理学。Analytics一词是个很好的例子,是由形容词analytic衍生出来的名词,意思很单一,由“分析”而“分析学”,即有关分析的学问。这种单词,学英文的时候最喜欢,很容易学、很容易用,而且只要记住一个词根就搞定了一大票相关词。

Business则有些不同,词虽普通,但问题是它太普通,因此可以指一大串相关但有细微差别的事物,可以是抽象的“商业、商务、公务、事情”,也可以是具体一点的“生意、交易、业务、营业”,有时甚至是指更具象的“企业、公司、工厂、商店”。这种英文单词,学是容易学,用也容易用,用好却不容易。在口语中词汇不够的时候,很多地方拉Business来顶一下,十有八九不会错到哪里去。但是要用来表达准确的概念,很多时候会歧义丛生,在同一语言内会如此,更不用说跨语言的翻译了。类似于Business这种词所体现的这种多层次和概括性,是语言的美妙所在,但是同时这种含混笼统性也是语言的困难所在。

由这样两个词组成的专用商业名词Business Analytics,直译是“商业分析学”,或者“商业分析方法”,但是这两者都不尽人意,商业分析毕竟是在商业领域的一门应用学问,叫“学”略嫌高深,叫“方法”好像又太泛泛。笔者的选择是,长名为“商业分析方法学”–“方法”和“学”都包了,方法学也就是方法论,短名为“商业分析”—虽未指定但也隐寓了“方法”、“学”或任何其他归纳词意,正印了中国语文的无为而无不为的原则。

由此我想到过去一百年发展起来的现代管理理论,从最初分析工人工作的科学管理,到组织人和组织行为学,到经理人的领导力模型,到研究决策的各种战略管理方法,更不说在各个业务领域的与IT相关的SCM、CRM、ERP系统等等,林林总总,蔚为可观。曾有专业好事者总结管理理论的发展,并将其归结为“管理丛林”,是说其中有相当部分是因为后人没有(功夫或能力)弄明白前人理论而基于主观臆断的再创造,结果在丛林中出现了很多人为障碍和陷阱。这种指责未免失之偏激,但也说明在管理领域对各种理论、方法、学问的理解之不易,这其中也必定包含了语言的对译和再创造所带来的贡献。

既然说到著作和语言,在我们进入更多的BA理论和BI技术细节前,不妨先说点不费脑子的话题,由此正可以通俗地引出BA的几个基本原则。

三、教育的南辕北辙

中国读书人排遣无聊有两个好去处,到了一定级别的就读老庄、练书法,更高级的研易经、考汉字。这些行当,不是一般人能弄的,就说易经,其实就是一座迷宫,钻进去不容易出得来,风险极高。浅一些回头的尚可,还可以坐在街头摆八卦,给人测字算命;深一些的,等到出来时,轻则神神叨叨,重则半疯半痴。不过,这个事情,也是内外有别,我们说风险,完全是局外人的态度,而对有兴致进迷宫里面探求的人来说,何尝不是乐在其中?

快乐也罢危险也罢,好在我们这一辈的大多数人,经典学问薄弱,加上强劲的西学对我们的脑部空间的高度垄断,能把老子一字不拉地通读一回就不错了,不会有钻进易经出不来的机会。倒是近年出现的汉学复兴时髦下的读经倡议,颇让人为下一代担心,在这个知识体系日新月异的信息时代,让孩子们回到熟记硬背的学习方式,多少有点反动思维,更不说三字经千字文这些所谓“启蒙读物”的内容是启蒙还是加蒙。

更有甚者如春晚,以6岁儿童熟记百家姓氏的功夫飨悦亿万大众,实在惨不忍睹。在这个“春宵一面抵万金”的传媒时代,某位父母千方百计地为自家孩子争取眼球,作为一家之举,可怜天下父母心,无可评说,就如某考生用甲骨文写高考作文一样,个人的标“旧”立异,考官可以一笑置之。可是,作为垄断十亿观众共此良宵的此种节目,不识我们所生活的时代,而一厢情愿地以倒退性的思维,活生生把孩子的教育绑到过时的反向的车轮上了,应该负有失察和误导之责!

如我前篇文中所述,即使是中国社会,我们的经济形态也已经离开了农业时代,正跨入工业和信息化时代。下一代应该受到的教育,如果还不能以刚露端倪的信息社会为导向,至少应该以工业社会环境为基础,那就是,一定不再是封闭静止的、一定是开放创新的。

四、Ology是工业社会的密钥

在西方已经成为过去时、在中国还在进行时的所谓工业社会,对我们每一个人来说,可能不必都去关心什么是工业基础、工业体系、金融货币政策等,但我们都应该知道表征工业社会的一个有趣的关键词根:“-ology”。

Google一下就知道,Ology作为后缀词根,就是“学问、学科”的意思,加在名词后面就表示与该名词相关的学问。譬如Geology(地质学)、Sociology(社会学)、Methodology(方法论)等。可见,一个普通的某名词,后面只要长这么一个尾巴,立即就成了“某-学”或“某-论”,就成了学问!甚至还有更厉害的,原本有学问的名词,还可以再加Ology尾巴,使原来的学问更见高深。譬如Science是科学,这对中国人来说已经是够牛的了,五四运动以来中国人孜孜追求近百年的两位帅哥之一(赛先生),可是如果再加上Ology, 立即成了Scientology“科学学”或“科学论”。以此类推,中国文学和经学的最高经典“红楼”和“易”,还可以Ology一下变成更高级的学问Hong-Ology红学和Yi-Ology易学。

可见,Ology这个小小词根的厉害,就在于它能化平凡为神奇!Ology的组词能力,是将它所点缀的事物学问化、学科化。所谓学问学科,就是可结构化表达、可系统化传播、可以规模化学习的知识体系。因此,学问化实质上也是“知识化”、“科学化”, 它所代表的正是人类认识过程中的抽象、归纳知识体系和组织、应用知识的能力。

我们都知道工业社会的产生是以技术革命为先导和表征的,可是,我们可能并不都知道, “技术”这个现代语汇,在英文里可以对应两个词:Technique或Technology。Technique作为“技术”是指完成某项工作的技巧、技艺、技能,如工匠的技艺或运动员的技能,这可以说古已有之;而Technology的“技术”是更新的衍生词,从组词原意来说就是指有关技巧、技艺的学问,即工艺学、技术学;而从实际应用引申义来说,则是指“学科化的技术”或“基于科学的技术体系”,这也是有些中文语境中有时也用“科技”或“高科技”来翻译Technology的原因(如遍地的“科技园”),但“科技”也还是不能完全表达Technology的意义,况且原词并没有直接包含科学的词根。

Technology所包含的“技术”内涵,实际上是把流传千年的秘诀、只能言传身教的传统手艺转变为系统化的、结构化的知识体系,使技术不再是代代密传的私人技艺,而成为可供大众系统化学习、规模化应用的公共知识。技术的Ology化,或者说学科化、知识化,正是技术革命的实质,也正是工业革命的实质。工业社会之所以为工业社会,就在于可以系统化、可以大规模学习和扩散的技术与应用。理解了这一点,我们就不难理解工业社会中所特有的专利注册、知识产权保护的重要性,也不难理解机器的发明、电气化的产生、大规模生产为什么成为可能。

五、知识是开放的动态体系

工业社会是因为技术的知识化才成为可能,同时,工业社会也改变了人类知识体系。在中国和西方的古典时代,知识都是关于“道”的学问,儒家讲究治国之道,道佛讲究修养心性,西方先哲探求宇宙真理;知识的形成和应用,都是关于“是什么”的哲学之道,而不是关于“做什么”的技艺之术,中外古典大师们,从柏拉图到孔子,都是重视“道”而轻视“术”的。到了工业革命时期,西方率先将知识的范畴扩展到术的领域,把对“术”的研究变成讲究效用的、系统化的知识,并将知识的应用扩展到工具、流程、产品的分析研究中,由此带来了机器的发明创造,也带来了现代管理体系和现代社会的形成。

现代知识体系不再仅仅是关于是什么的“道”的学问,而更多的是关于做什么、怎么做的“术”的学问。重要的是,当知识的内涵从“是”(Being)扩展到“做”(Doing)的时候,不仅是知识的范围超出了经典的限制,知识结构性质也很快发生了变化。也许存在千年不变之道,可很少会有百年不变之术!关于道的知识的重要性应该永远不会改变,但是关于术的知识量的比例已远远超过道。而且,按照德鲁克的研究,在当下从工业社会向信息社会过渡的所谓后资本主义社会,知识正被用在知识本身的分析和创新上。由此带来的知识革命的结果尚不可预料,但有一点是肯定的,知识体系不再是静态的、封闭的内容,知识体系已经成为一个动态的、开放的、可自增长的系统,这就是现代社会的知识结构特征。

现代社会的教育仍然可以简单地定义为帮助人掌握知识,只是要认识到现代社会的知识系统已经发生了变化,尤其是知识结构特征的开放性和动态性,使得现代社会的教育目标不再是帮助学生掌握已有的知识内容,还应该帮助学生认识知识的更新变化,并引导学生建立知识创新的思维方式。再看中国某些复辟传统记背经典的做法,明显是自我倒退,完全无视现代知识体系的多元性和完整性,无视现代知识体系的开放动态的变化特征,实在是对现代社会和现代文明的无知。

六、关于汉字的“BA”

社会的发展变化使得生产方式、经济形态和社会组织形式的不断优化与更新,对普通人来说,我们能感知到的则是生活越来越复杂。在唯物论者看来,社会的变化反映了人对客观世界认识的不断提高,唯心论者会说是人的内心世界不断外在化。在知识人的眼里,这些都是缘于知识本身的快速变化,我们在Ology的分析中已经明白了这一点。

我们每一个人都亲身经历了中国近三十年来的变化之大,特别是过去十年来,我们亲眼目睹了中国从一个农业大国转变成一个工业大国,变化之快,颇让人目瞪口呆。其实,自工业革命之后的二百多年间,相对于此前的二千年人类历史,整个世界的变化都非常之大、非常之快。如果再上溯历史,我们更会发现,人类社会的发展提速其实是从文字发明开始的。

我们来看看作为知识载体的文字随着社会发展的变化,会是非常有趣的。专业的文字学或书法的研究,我们留给其他作者和读者,这里,我们只关注简单的数字分析。以汉字为例,现在已知的最早的文字甲骨文字数约4500个,现在最新版的《中华字海》收录的现代汉字85000个,目前全国最全的字库收录可辨认的汉字为91251个。汉字字数变化的详细情况如下表所示:

如果我们假定汉字的个数变化从一定程度上代表着汉文字区的知识积累发展变化,那么我们可以从下图的变化曲线里得出关于知识与文化的什么结论呢?譬如,我们看到,公元400年以后、1700年代、1950年代,汉字数有较大跳跃,说明这几个时期社会的知识积累发生过某种大的变化。更深入的分析和结论,可以留给有兴趣的读者自己去做。

我想不一定所有读者都跟我一样对汉字感兴趣,但是我假定读者都会对分析感兴趣,所以在这里,我只是想借文字分析来演示,如果我们对某项事情(business)感兴趣到我们想分析它,我们可以确定一个分析的视角,从某个或多个侧面去进行分析,譬如通过字的数量去分析汉字和汉文化知识。然后我们可以去找到量化的数据,采集它、整理它、然后按我们想知道的目标去展示它,这就是基本的BA分析过程了。如本文开始所述,如果只是展示数据,并从结果中看出一定结论,这属于BI的应用,而如果你想到再进一步研究,并得出这几个时期为什么汉字数激增,由此又对我们今天的汉字发展乃至社会知识结构做出一些预测,祝贺你,你已经开始入门BA了!当然,这是过分简化了的情景。

在上面的数据里,我们发现,现在的汉字总数已经超过8万5千个。这是一个巨大的数字!我相信大多数人认识的字数只有其中的一个零头,我虽自认为很博学,但是在8万多个汉字面前,感觉也还是像个文盲!8万个汉字的数量确实跟我们每个人平时自我感觉的受教育程度差去甚远。(另,作为参考,英文单词总数约为100万个)。

好在现在有了计算机,只要能变成数据库里的数据,就能做量化分析,我们就能透过数字得到更多的知识。计算机使人们能对文字进行进一步的分析,让我们能从数据中找到比我们的感觉更可靠的事实。有关专业文字研究对各个时期代表性的著作的用字数统计结果如下表所示:

上表数据显示,别看古今书籍浩如烟渺,实际使用的单字数原来都不超过6000个、而且好像越是作家用的字还越少(不超过3000个)。虽然当代此六千字与古代彼六千字肯定不是同一个集合,但是汉字的动态使用单字数自古至今基本上稳定在6000字的数量上,这个结论应该是可靠的。这样的结论让我们每个人都感觉好多了:不管汉字总数有多少万,实际上够用的就是6000个,而且你要是想当作家著书立说的话,标准更低:3000字足矣!所以下一回如果跟作家同行,你打赌比他们认的字更多,胜算极大!

为什么是6000个字呢?是我们的脑袋容量就这么大吗,还是汉字的表达能力如此强大,即使面对当代的知识爆炸也能泰然处之、以一当百?而今天的6000字与100年前、1000年前、2000年前的6000字究竟有多大重叠?6000字以外那为数众多的字们都在干什么呢?哪些字自古当差到如今、又是哪些字属于千年难得露一笑?类似的问题相信文字研究者都会自然问到,也都可以借助计算机的分析工具得到答案。关键是:专业文字研究者会问什么问题?他们为什么会问那些问题?那些问题的答案又能说明什么?

这就是牵涉到商业分析方法学中的一个关键部分:业务分析与建模。这也是BA和BI的最关键的区别:BA建立模型的核心就在于提出正确的问题;BI的威力在于能回答这些问题。这也是我希望通过此例展示的商业分析的另一个要点:正是有了计算机所提供的有力工具,有意义的BA和BI分析才成为可能。试想,如果没有计算机的帮助,靠人工从《骆驼祥子》的10万字中找出2413个单字会是什么情形,更不用说从4000万新闻稿件中找出6001个字来,完全是不可想象的。