科研助力 | 重磅上新!边燕杰团队教你做传统数据与大数据的结合研究
四种基本的实证数据形式,你了解吗?
自孔德创立实证社会学以来,出现过4种基本的实证数据形式,分别是个案、实验、调查和大数据。前三种可称之为传统数据形式,大数据则是新的数据形式。应该说,这四种数据形式都有各自的优缺点,需要结合起来,才能加深我们对经验现象的认识和理解。
个案研究:只调查一个村庄,
如何代表中国?
个案研究,就是所谓的解剖麻雀,找一个典型个案,来反映整体情况。它遵循的是从特殊到一般的归纳路径,在提出新的理论假设方面具有重要作用。例如,要研究中国农村的发展,我们可以找到东西南北不同地域的典型村庄,作为麻雀来进行解剖,然后提炼中国村庄发展的特点。个案研究可以做的很深入,但也面临着个案数量的问题,也就是说到底解剖多少只麻雀才够。这也是当初利奇教授质疑费孝通的问题,只研究一个江村是否能够代表中国?虽然费老后来提出了类型学的研究思路来对利奇进行回应,但个案研究如何走出个案发现理论的整体依然是个案研究者的困扰。
实验研究:人的行为真的
可以被控制吗?
实验研究的基本思路是从控制到比较。所谓的控制,是把所有其他影响因素全部考虑到,或者假设其他所有因素都一样,只比较其中一个因素对结果的影响,进而精确找到真正的原因。对于追求因果解释的社会科学来说,实验方法无疑是金标准。然而,人终究是具有主体性的社会动物,很难被完全控制,甚至有时候是不道德的。例如,如果我们要研究家庭孩子数量的多少是否对家庭经济收入有影响,我们没办法强令参与实验的家庭生几个孩子。即便是在工厂和学校这种相对比较适宜进行实验方法的场所,实验法也会因为人的主体性问题而带来对结果的影响。霍桑实验就是一个典型的例子。当初的研究者想要研究到底什么因素在影响工人的产量,他们依次假设过工作环境、福利条件等,但都没有验证,最后发现是因为工人觉得自己受到了研究者的关注而更加努力工作。
抽样调查:你以为的他以为的
就是他以为的吗?
抽样调查的基本思路是从样本推论到总体,一般适用于对大规模群体的研究,例如研究全体中国人的受教育水平对工资收入的影响。我们没办法调查14亿人,但是可以根据概率抽样的方法,抽取一个微缩的样本,通过对样本的研究来推论总体中国人。以CGSS(中国综合社会调查)数据为代表的调查数据库,抽取1万多个样本,就可以做出针对全体中国人的某种特征的推论。这是抽样调查的优势。然而,随着社会的发展,拒访率的提升以及社会信任度的降低,通过问卷收集的被访者信息极有可能失真,也就是存在偏误。此外,我们询问的很多问题都是被访者在当时的所思所想,第二天他可能就不这么想了。例如,调查员第一天去调查的时候,正好一个贫困户刚刚获得了政府的资助,当他选择对政府的满意度时,就会倾向于选择高满意度。但是,假设过了一个月,该贫困户因为其他事情导致了对政府的不满,如果问卷是这个时候入户来进行,那么他就可能倾向于选择低满意度。所以,抽样调查始终面临着误差的影响。
大数据:真的一个大字
就万事大吉了吗?
随着互联网的发展和移动设备收集数据功能的发展,人类的行为随时随地都在被记录,一个人每天会产生大量的行为数据。这些行为数据的客观性程度要远高于前三种数据,前三种都需要去打扰被访者,进而导致对被访者的影响,而互联网的行为数据是客观记录的,这就为人们探究真实性提供了更多可能。大数据虽有5V优势-- Volume数量大、Velocity速度快、Variety类别多、Value价值高、Veracity 接近真实,但大数据也有固有的缺陷,例如无法做有效推论、强于描述和预测而弱于因果等。
将传统数据与大数据方法相结合,
是实证研究的新方向
不同的实证数据形式有各自的优缺点,当下更应该探索把不同的数据形式相结合,去加深对人类社会和经验现象的理解。这已经成为一种国际流行的趋势。著名社会学家、社会资本领域的知名研究者、美国明尼苏达大学终身教授、西安交通大学实证科学研究所所长边燕杰认为,大数据虽有5V优势-- Volume数量大、Velocity速度快、Variety类别多、Value价值高、Veracity 接近真实,但不能代替个案的理论探索作用、实验对于因果关系的严整证明、代表性抽样调查对于社会行为的测量和模型结果的总体推论,必 须与之结合才能更好地实现研究目标。他提出了四种可能的结合途径,包括(1)线下测量与线上测量的结合(2)实质问题与线上数据的结合(3)随机抽样与实时数据的结合(4)理论导向与机器学习的结合。边老师及其团队通过上述设计思想,在疫情期间展开了深入研究,提出了防疫社会资本概念并将传统数据与大数据相结合,推动了人们对疫情的深入认识。团队在中外文期刊发表了一系列通过结合方式进行研究的论文。
10小时系统课程,5大专题详解,边燕杰老师手把手带你做研究
经过与边燕杰教授及其学术团队深入沟通,我们计划推出《实证研究方法进阶:传统数据与大数据的有机结合》专栏网络课程,拆分为五个专题:(1)理论思考与数据结合途径的设计;(2)线下测量与线上测量的结合;(3)实质问题与线上数据的结合;(4)随机抽样与实时数据的结合;(5)理论导向与机器学习的结合。课程主讲人为边燕杰、缪晓雷、鲁肖麟。
以下为主课表,详细课表可扫描上方二维码了解。
▎专题1:理论思考与结合途径的设计,2学时,主讲人:边燕杰
1、 实证精神与实证研究
2、 “传统数据”的类型与功能
3、大数据的特征与局限
4、大数据与传统数据的结合途径
5、参考文献
▎专题2:线下测量与线上测量的结合,2学时,主讲人:边燕杰、缪晓雷
核心问题——基于理论问题的线上测量与线下测量
1、总体思考与设计
2、线下社会资本的测量
3、线上社会资本的测量
4、参考文献
▎专题3:实质问题与线上数据的结合,2学时,主讲人:边燕杰、鲁肖麟
核心问题——基于实质性问题的指标建构、数据获取与分析
1、总体思考与设计
2、从概念到测量
3、测量效度问题及解决
4、数据来源与选择
5、数据获取实操演示
6、数据降维与分析
7、参考文献
▎专题4:随机抽样与实时数据的结合,2学时,主讲人:边燕杰、缪晓雷
核心问题——线上调查的基本情况,及其在社会科学研究中的具体应用
1、总体思考与设计
2、线上调查设计简介
3、线上调查问卷设计:以防疫社会资本研究为例
4、线上调查数据收集
5、线上调查数据分析
6、线上调查的未来趋势
7、参考文献
▎专题5:理论导向与机器学习的结合,2学时,主讲人:边燕杰、缪晓雷、鲁肖麟
核心问题——理论导向的有监督学习与探索理论的无监督学习
1、总体思考与设计(边)
2、已有研究中的结合(鲁)
3、论文摘要文本分析机器学习研究实例(缪)
4、未来方向(缪)
5、参考文献
这是国内第一门体系化将传统数据与大数据相结合的网络课程,对于想要在实证领域深入探索的学友来说,不可错过。
现在此门大咖订阅课正值上新,给学友准备了首发早鸟价!
报名前500名的学友,2人拼团,仅需149元,报名人数达到500之后,价格将上调至199元~(ps:课程待更新,一经报名,永久回放哦~)
为提升学习效果,缪晓雷、鲁肖麟两位博士将加入课程答疑群,与广大学友深度互动,教学相长。
让我们来了解下三位课程主讲人信息吧。
缪晓雷,西安交通大学社会学系2016级博士生,导师:边燕杰教授。主要研究兴趣:社会网络与社会资本、关系社会资本、互联网与社会。
注意事项
1.本次课程报名成功后,不支持退款,请谨慎报名。
2.本次课程在学术志平台进行。
3.视频版权归讲师及学术志平台共同所有,提供长期在线回放供学员复习。课件资料需在老师同意的情况下可以分享给学员。所有内容仅限个人学习使用,不得外传。
4.开票方式:在学术志APP中“我的”—“发票中心”—“开具发票”或者学术志微信公众号中“学员服务”—“个人中心”-“发票中心”—“开具发票”可自行填写发票信息并核实修改后提交开票申请,申请后3-5个工作日可在所留邮箱中查收下载,如遇特殊情况,也可保证一个月内开具发送。如对发票报销存在疑问,请咨询工作人员。