大数据推动计算社会科学发展

文章来源:中国社会科学网

100多年前,社会学创始人孔德提出社会物理学,并将其主要内容归纳为社会静力学与社会动力学。社会静力学用于分析社会结构,理解社会秩序何以可能;而社会动力学则用于分析社会变迁,理解社会如何进步。孔德的理想是希望将社会系统的分析纳入实证分析的范畴,即将物理学的实证分析方法引入社会学研究。100多年来,有关社会系统的运行研究主要是社会学家的研究对象与研究领域。但在由信息技术主导的计算社会科学运动的勃发过程中,社会学家不应将研究领域“拱手相让”,而应该积极主动进取。

大数据时代重启社会物理学

孔德的理想是建构一种宏观社会学,以社会系统作为整体的分析思路。虽然孔德为实证社会学研究勾勒了美好蓝图,但在社会学100多年的发展历史中,其理想几乎没有被完美实现过。原因众所周知:一方面,研究者很难获取关于社会系统整体运行的信息;另一方面,研究者更难获取关于社会系统长期变迁的信息。这两个方面决定了社会学家很难对社会运行的整体图景展开分析。我们很难获得社会运行的整体信息,进而很难对社会系统的运行逻辑展开实证分析。

已有的关于社会系统运行的宏观分析,主要进路是理论分析,如帕森斯的社会系统理论、郑杭生等人有关中国社会运行与社会转型的理论。这些研究具有诸多洞见,但它们与孔德倡导的社会物理学并不是一回事。孔德的理想是将社会系统的运行纳入实证分析的路径中,而非纯粹的理论建构。尽管在100多年的发展历程中,社会学领域存在大量的实证分析,但已有的定量分析方法主要通过问卷驱动,以微观社会学为主。实际上,借助问卷把握社会系统的整体运行力有不逮,这几乎是学界的共识。简而言之,孔德的社会物理学理想在实证的进路上进展缓慢,原因在于获得所需数据的方法与技术存在诸多限制。

大数据时代的到来,使得这种困境渐渐被打破,曙光最早出现在“社会计算”与计算社会科学领域。这是一场主要由计算机科学家主导的跨学科学术运动,如有关“星球脉搏”的分析、王飞跃等人领衔的“社会计算”与“社会物理学”研究。这些研究进路主要借助大数据、人工智能、机器学习等技术,可以说,计算机科学家已经开始对复杂社会系统的运行产生极大兴趣。计算机科学与社会科学正在深度交叉,计算社会科学展示出巨大潜力。

学科建设助力计算社会科学研究

计算社会科学作为一个新兴的研究领域,已有10多年的发展历程。回顾计算社会科学的发展历程可知,它取得了很多新的发现,数据驱动的洞见也让社会科学研究范式焕然一新。不过,现有研究存在的一个突出问题是:已有的若干研究就如天上的颗颗孤星,研究者对其在计算社会科学发展中的位置、这些研究之间的关系、学科知识积累等重要问题则无暇思考,即学科建设不足的问题。

笔者认为,无论是计算社会科学学科还是学者个人,都不应让研究领域支离破碎以致无法形成知识积累,也就是不应让研究成为毫无关联的案例。已有研究易处于碎片化的状况,往往与当前大数据的特征有关:一方面,数据开发难度大、数据价值密度低;另一方面,在统合多元的数据来源上存在困难,研究者往往基于某个具体的点数据开展研究,而无法打通多种数据来源的面源数据。

最为致命的是,现有计算社会科学的问题意识往往嵌入在不同理论脉络中,这样,计算社会科学本身作为一个研究领域被碎片化了。基于不同理论脉络而形成的计算社会科学实践之间没有太大的关联,导致案例研究结论之间难以形成学科意义上的知识积累,更难以形成“积沙成塔”式的学科范式。

本体论共识为计算社会科学筑基

如何避免这个问题,是当前计算社会科学需要解决的关键问题。笔者认为,解决此问题首先要明确计算社会科学的本体论问题,即计算社会科学的使命究竟是什么。沿着具有本体论意义的问题展开深度思考,才能诱发计算社会科学领域的学科范式。

计算社会科学如果要形成知识的积累并形成学科的范式,不应仅仅在研究方法和技术上形成共识,更应在本体论上形成共识。从本体论的角度来看,计算社会科学应该回归社会学的元问题,进而从社会计算的角度回应社会学的根本问题并作出独有的贡献。这些元问题包括计算社会科学意义上的社会究竟是什么;社会作为一个复杂系统是如何可能的,又是如何运行的等。这一系列问题大致可以归结为孔德所要回应的秩序问题和进步问题,或者说社会的静力学问题与动力学问题。

社会学家过去回答这些问题时,往往基于某一特定的社会共同体去思考和归纳。这些归纳中有很多洞见,但绝大部分都是地方性知识,是学者基于其有限经验资料与阅历甚至是戴着有色眼镜做出的分析与建构。尤其是基于“西方中心主义”的所谓现代社会科学知识及话语,其经验基础往往是西方式的,带着浓厚的西方中心主义色彩。这些分析与思考的局限性是很明显的。另外,由单一的社会经验所建构的理论,基本上都是个案分析,而基于个案的研究很难跳出个案固有的局限。

在大数据时代,对上述元问题的分析与回答已经有了完全不同的方法与视角。全球有100多个国家、上千个民族、多种社会形态,大数据记录了这些社会中的长时间段时序数据,即关于不同文化环境下的社会系统运行的时序数据和变迁数据。这样,横向上,就可以对多个不同的社会实体进行比较,进而回答社会有机体的本质是什么、社会秩序如何可能、社会结构如何维系以及个体与社会之间关系的形态等根本性问题;纵向上,则可以回答不同社会的变迁机制与变迁路径,研究社会的演化形态及机制。

总而言之,无论横向上还是纵向上的分析,实际上都是从宏观层面对多个社会的形态进行比较,对多个社会进行透视,故而其得出的结论不再是地方性知识,而是基于全球范围的经验证据。当前的中国社会科学发展,应借助于大数据时代所提供的特有机遇,在达至普适性意义上的计算社会科学结论道路上作出应有的努力并形成其特有的贡献。