当期荐读 2023年第3期 | 设计科学的准则分析——以“大数据-小数据”问题为例
图源 | Internet
张明华1 何芳2 张瑾1
1.中国人民大学商学院,北京,100872;
2.中国传媒大学经济与管理学院,北京,100024
Abstract
摘 要
设计科学是信息管理与信息系统研究中的一种常见研究范式,近年来在信息管理各项研究成果中的比重逐渐增大。本文以设计科学中有关提升数据要素使用效率的“大数据-小数据”问题为例,提出了一种新颖的社交网络“大数据-小数据”问题,遵循设计科学研究范式给出了这一问题的解决框架,即考虑作者影响力的代表性信息提取框架AIRep,并结合一个中国企业的内部社交平台数据对这一框架提取结果的有效性进行了验证。基于这一设计科学的具象化研究成果,论文最后重点分析和讨论了设计科学研究范式七条准则的内涵和要义。
关键词
“大数据-小数据”问题 设计科学 信息管理 设计准则 社交网络
01
设计科学研究范式
信息技术与现代企业管理的深度耦合赋予了信息管理与信息系统研究更多具有新时代特色的问题情景和管理变量,提升了研究在企业管理创新和价值创造过程中的定位。立足于信息技术与企业管理之间的交叉位置,信息管理与信息系统研究包含“技术”和“管理”两个方面的研究创新,即管理驱动的技术创新和技术使能的管理创新。相应地,两方面的研究创新分别对应着两种研究范式,设计科学研究范式和行为科学研究范式[1]。
设计科学研究范式核心在于通过信息技术创新为企业管理问题提供计算化的解决方案,主要贡献为信息技术方面的算法和模型创新。例如,针对企业竞争分析的在线内容可比较实体识别模型[2-3],针对企业信息利用的代表性子集提取方法[4-5],针对产品推荐问题的手机应用推荐方法[6],针对财务风险问题的多源异构数据预测框架等[7]。行为科学研究范式则聚焦于通过管理理论创新为信息技术与管理融合过程中的企业管理新现象提供解释机理,核心贡献为企业管理相关的理论和构念创新。行为科学范式的研究成果在过去很长一段时间内占据信息管理与信息系统研究的相对主流,设计科学范式的研究成果较少。近年来,随着信息技术的不断变革和快速发展,设计科学范式的研究成果数量逐渐增多,并呈现出多样化和与行为科学范式加速融合的趋势。信息管理与信息系统设计科学研究范式展现出明确的向上发展态势和成果发表潜力,吸引了更多的研究学者和业界实践专家的关注。在这样的背景下,设计科学研究中的“规范化”问题成为了关键核心之一[1,8-9]。
针对“规范化”问题,Hevner等[1]在2004年给出的设计科学研究的七条准则,成为设计科学研究工作在展开研究方法、界定研究贡献时的基本原则,更是设计科学研究相较于计算科学研究的根本性区别。七条准则包括设计即IT组件(Design as an Artifact)、问题的相关性(Problem Relevance)、设计评价(Design Evaluation)、研究贡献(Research Contributions)、研究严谨性(Research Rigor)、设计即搜索过程(Design as a Search Process)、研究对话(Communication of Research)。在此之后,更多的设计科学研究通过采纳这七条准则得以形成较为“规范化”的研究成果。2004年至今,计算科学的算法和模型有了长足的进步,设计科学自身也出现了一些新的变化,因此,需要对设计科学的七条准则给出新的解读,尤其是结合中国情境下的信息管理与信息系统具体研究给出示例化的介绍和分析,这也是本文的主要目的。为此,本文以“大数据-小数据”这一设计科学的典型问题为例,首先针对这一问题在社交网络中的缺口提出了一个考虑作者影响力的社交网络“大数据-小数据”问题;随后,通过设计科学研究范式,本文设计了求解这一问题的方法框架AIRep(Author Influence-based Representative Information Extraction),并借助中国情景的真实数据对这一框架的有效性进行验证;最后,本文以这一具体研究为例,结合设计科学的七条准则给出准则的分析讨论,期望可以为设计科学的相关研究提供一定的借鉴和参考。
02
“大数据-小数据”问题
“大数据-小数据”问题旨在解决基于大数据决策过程中的数据要素使用效率问题。通过有策略地从“大数据”中提取具有某些特性的“小数据”,进而实现“以小见大”的洞察,达到基于小数据决策能够逼近大数据决策效果的目的[10]。“大数据-小数据”问题的核心是界定不同类型的语义反映,一般可以分为代表性、多样性、一致性三个方面[10]。代表性语义指的是从显示语义的视角获得能够尽可能反映大数据总体内容语义的小集合,帮助人们形成对数据内容的具象认知。例如,现有研究讨论了如何利用企业内部平台获得员工对于组织的意见和想法,并提出一种从企业内部平台提取代表性信息的系统框架和方法[4]。多样性语义则希望小集合在特定属性下反映的结构性语义与大数据集合尽可能相近。例如,Lappas等[11]试图找到一个能够涵盖原始评论集合中各个属性上大多数意见的在线评论子集;还有研究提出不同方法对所选子集进行多样化处理,以提取能够最大程度覆盖原始评论集中属性的评论子集[12-13]。一致性语义则是从隐式语义的视角获得小集合,要求小集合在特定属性特征下反映的概括性语义与大数据集合的概括性语义尽可能一致。例如,Lappas等[14]提取在线商品评论子集,使其意见分布与原始评论语料库一致;Zhang等[15]则提出了一种新颖的评论排序方法,该方法可以选出与原始语料库意见分布相一致的评论子集;进一步,Zhang等[5]综合考虑所选评论的属性覆盖度和意见分布一致性对该方法也进行了扩展。
现有的“大数据-小数据”问题相关研究在问题界定层面主要集中在对数据库、在线商品评论、网络搜索结果等信息沉积型的大数据上[16],关注从大数据的信息内容维度探讨小数据的语义特性和相应的提取方法,对社交网络这一类具有信息网络结构的大数据平台探讨不足。在这一平台上,小数据的特性不仅要考虑信息内容,还要考虑信息结构带来的影响力差异。在小数据提取方法层面,现有研究以代表性信息提取方法为核心,主要可以分为三大类方法,包括基于Top-k的方法[17-23]、基于文本摘要的方法[24-27]和基于代表性信息的方法[28-30]。这些方法虽然从信息内容的角度可以提取效果足够好的小数据,但是尚不足以提取同时反映信息内容和影响力的小数据,忽略了信息来源影响力对代表性信息提取的价值。当前数字时代,社交网络与商业模式相互融合又不断创新,社交网络上积累了大量的有价值的用户信息,社交网络的结构复杂度也在不断增加,这些都催生了解决“大数据-小数据”问题上述空白的研究动机,进而引出本文集中探讨的设计科学示例研究,即社交网络“大数据-小数据”问题。
对于“大数据-小数据”问题而言,设计在不同管理情境下的扩展问题以及相应的求解方法均属于设计科学的研究范式。可以说,“大数据-小数据”问题是应用设计科学进行研究探索的典型问题,对这一问题的研究易于放大设计过程,便于读者理解设计科学的各方面准则。与此同时,社交网络“大数据-小数据”问题也能够映射到更多的信息管理与信息系统实践应用场景,因此,本文选取社交网络“大数据-小数据”问题为例分析讨论设计科学的指导原则。
03
社交网络“大数据-小数据”问题
详尽可能性模型(Elaboration Likelihood Model)认为人的信息处理有中心(Central Routes)和外围(Peripheral Routes)两条路径,中心路径主要处理信息本身的内容,外围路径则处理与信息主题不直接相关的线索,包括信息来源及其特征等[31]。信息处理的启发式系统模型(Heuristic-Systematic Model)也有类似的思想,认为人们会采用两种信息处理模型来处理信息,一种是启发式处理,人们使用各种启发式线索来快速作出决定;另一种是系统处理,人们使用综合的、分析的和认知的过程来作出判断[32]。两个模型都为社交网络的“大数据-小数据”问题的设计提供了理论指导,即需要同时考虑和优化信息内容和信息来源双重线索。
在社交网络中,信息来源影响力在很大程度上会影响读者对已发布信息的态度,来源于高影响力作者的信息更可能被认为是高质量的且更受读者欢迎,即作者的影响力决定了其发布的信息内容是否会被大量阅读。如推特用户倾向于浏览权威用户发布的信息[33],专家提供的答案在问答社区中赢得了更多的用户信任[34],学术引文网络中来源于高影响力学者的研究也常常被认为具有更大的影响力并被更频繁地引用[35-36]。因此,从社交媒体平台中提取小数据时,也需要考虑用户的影响力。社交平台中个体之间具有丰富互动[33,37-38],这种互动关系能够揭示信息作者的影响力。社交媒体平台允许关注、评论、转发等多种类型的用户互动方式,提供了度量用户影响力的机会[37,39]。现有研究基于关注、转发、回复等关系的链接结构,识别社交媒体中有影响力的用户[37],认为社交媒体的评论、引用信息是衡量信息来源影响力的重要因素。因此,用户在社交平台中的互动信息可作为度量用户影响力的有效指标。
设社交网络信息集合C={di}i=1,⋯,NC,S= {sj}j=1,…,NS 为C的子集,其中NC和NS分别表示原始数据集C和代表性子集S中包含的信息数,C中包含NT个主题。社交网络“大数据-小数据”问题旨在寻求一个子集S⊆C,且子集S应满足在信息覆盖、信息冗余和作者影响力三个方面的约束。社交网络的“大数据-小数据”问题形式化表达如下:
在上式中,三个约束条件的含义分别为:
(1)S尽可能捕捉原始集合C的信息全貌,即覆盖C中不同主题(高覆盖度);
(2)S中信息不相似,S中信息讨论不同的主题内容(低冗余度);
(3)S中信息的作者需要有影响力,即会对信息读者产生明显影响(作者影响力高)。
社交网络“大数据-小数据”问题属于代表性语义反映在社交网络上的扩展,因此,对于社交网络“大数据-小数据”问题的求解,需要一个有效的代表性信息提取方法,即本文介绍的考虑作者影响力的社交网络代表性信息提取框架AIRep。
04
考虑作者影响力的社交网络代表性信息提取框架
本文提出的AIRep框架同时考虑提取子集的主题覆盖度、主题冗余及作者影响力,从大规模社会网络信息中提取合适的子集。框架首先采用主题模型提取社交网络信息中的话题分布,随后基于社交网络评论数据,使用PageRank方法对作者影响力进行建模。通过将主题和作者影响力结合,AIRep最终可以提供一个具有代表性的子集,帮助用户了解社交网络信息内容全貌。本文随后的介绍中,对社交网络中的信息主要用文章来指代。
4.1 主题提取
代表性子集需要多样化、非冗余地传达原始数据集合包含的主题内容。本文采用潜在狄利克雷分配模型(Latent Dirichlet Allocation, LDA)[40]识别原始数据集反映的主题。设文章集合C={di}i=1,⋯,NC中的每篇文章都是在NT个主题T={tk}k=1,⋯,NT上的多项式分布Mult(θ),每个主题都是在NW个词语W={wm}m=1,⋯,Nw上的多项式分布Mult(ϕ)。θ和ϕ分别表示两个具有超参数α和β的狄利克雷分布,记为θ~Dir(θ|α)和ϕ~Dir(ϕ|β)。LDA模型假设文章生成过程为两个重复的步骤:①对于文章di中的每个单词wm,从多项式分布tk~Mult(tk|θ,α)中抽取与di相关的主题tk;②给定与文章di相关的主题tk从多项式分布wm~Mult(wm|ϕ,β)中对观察到的单词wm进行抽样。对所有单词重复上述两个步骤生成一篇文章,并对所有文章进行此过程,最终将组成语料库C。根据抽样过程,文章di中的每个单词wm的生成概率可以表示为:
为了估计参数θ和ϕ以及潜在变量tk,本文使用Gibbs采样来推断模型。进行参数估计后,可识别原始文章集合中的主题集合T={tk}k=1,⋯,NT,并获取每篇文章在主题上的分布。原始集合C中的每篇文章di可通过主题向量 表示,其中 表示文章di属于主题tk的概率。对主题内容进行建模,一方面有助于识别隐藏在文章集合中的主题内容,为子集S对原始数据集C中主题内容的覆盖奠定了基础;另一方面,LDA将每篇文章刻画为一个主题分布,这有助于提高子集代表性。
4.2 用户影响力计算
社交网络平台中的用户互动可以很好地揭示作者影响力,用户对文章发表评论形成的评论关系将社交平台用户连接形成网络。一个用户从其他用户那里收到的评论越多,其在网络中的影响力就越大。因此,本文使用评论网络计算社交网络作者的影响力。考虑到基于评论网络衡量作者影响力与基于超链接结构衡量网页重要性的相似性,本文使用PageRank算法对作者影响力进行建模。PageRank被广泛应用于在问答社区中寻找专家[34]、在微博中推荐有影响力的博主[37]、在科学引文网络中衡量出版权威[35,41]等。
给定文章集合C={di}i=1,⋯,NC中,与其对应的用户集合可表示为A={aZ}Z=1,⋯,NA。基于社交网络中的评论活动构建用户之间的互动网络。对于A中的每个用户ax,如果ax对ay发布的文章至少发表过一次评论,则构建一条由ax指向ay的有向边,记为<ax, ay>。ax对ay发表的评论总数,用nc(ax, ay)表示,作为从ax到ay的边的权重。由此得到用户网络G=(A, E),其中A代表用户节点,E={<ax, ay>| ax, ay∈A}表示用户之间的有向评论边。根据PageRank模型,用户ax会将其影响力分配给相邻的用户,可以通过对相应权重进行归一化来定义此影响转换,如下所示:
公式(3)具有两个属性即用户ax传递给作者ay的影响力与反向传递概率不同;ax将其影响力转移给其他人的概率总和应为1。根据影响力转移定义,作者ay影响力可以计算为:
公式(4)的前一部分表示ay从其评论者处获得的所有影响力,后一部分表示均匀随机跳转概率。参数η∈[0,1]是平衡两个部分的阻尼因子[42],本文后续实验将其设定为0.85。通过迭代计算公式(3)和(4),最终可以得到A中每个用户的影响力值。
4.3 代表性信息提取
AIRep框架的第三阶段结合文章主题结构和作者影响力提取代表性文章。主题建模阶段分析了社交网络文章中的不同主题T={tk}k=1,⋯,NT,为了尽可能覆盖原始文章集合的主题,提取的代表性文档也应包含多样化的主题结构。T中的每个主题tk表示文章集合的一个维度,在主题tk上概率最大的文章可以最大程度地表达此维度,也可以很好地反映集合C中关于主题tk的信息。因此,AIRep方法选择每个主题上对应概率最大的文章组成代表性子集,子集中的文章可以捕获原始文章集合的不同主题,从而确保高覆盖度。同时,由于针对不同主题分别选取代表性文章,也保证了提取子集的低冗余度。虽然基于主题提取的代表性子集具有较高的主题代表性,但是无法反映作者影响力。因此,AIRep框架进一步考虑了作者的影响力,以提取出一组更具有代表性的文章集合。
AIRep框架不仅使用概率最大的文章表示一个主题,还引入阈值λ获取每个主题的候选集。具体而言,将主题概率在[λpmaxtk,pmaxtk]范围内的所有文章都视为主题tk的候选集元素,其中pmaxtk是主题tk的最大归属概率。为了同时考虑作者的影响力,AIRep框架将主题概率与作者影响力相乘,计算每篇候选文章的代表性分数,如下所示:
其中Rep(di,tk)表示候选文章di在主题tk上的代表性分数,pitk表示文章di包含主题tk的概率,r(adi)表示di作者的影响力得分。λ用于控制主题代表性和作者影响力之间的权重,可以根据需要设置参数λ。根据代表性分数对文章进行排序,以衡量它们在主题和作者影响力方面能够代表相应主题的程度。因此对于原始集合C,可以得到一个代表性信息集合S:
集合S是从社交网络原始信息集中提取的子集,对主题和作者影响力都具有很好的代表性。因此,本文所提出的AIRep框架最终为用户呈现了一个紧凑且有影响力的代表性信息子集。
4.4 示例与算法细节
4.4.1 示例
本节将通过一个示例来说明AIRep框架的代表性子集提取过程。设C= {d1, d2, d3,d4, d5, d6, d7, d8, d9, d10}为一个由五名用户撰写的文章集合,每篇文章相应的作者为A= {a1, a1, a1, a2, a2, a2, a3, a3, a4, a5}。文章的评论记录如表1所示,其中第一列表示文章ID,第二列表示相应的作者,最后一列记录了对该文章发表评论的所有用户。
表1 社交网络文章评论记录
根据评论记录构建如图1(a)所示评论网络。每条有向边表示起点用户评论了终点用户发布的文章,边上的数字表示两个用户之间的评论总数。可将评论网络转化为评论矩阵M,其中M(i,j)代表用户ai对用户aj发表的所有文章的评论数量,如图1(b)所示。
图1 评论网络与矩阵表示
基于评论矩阵对作者影响力建模,得到作者影响力结果如表2所示。结果显示,作者a1影响力最高,这与图1(a)中a1的活跃互动相一致;用户a2和a3也有较高的影响力价值,因为他们也经常发表和收到评论。用户倾向于阅读和评论像a1这样有影响力用户的文章,进一步揭示了在从大规模社交网络数据中提取代表性集合时考虑作者影响力的必要性。
表2 作者影响力
假设我们希望提取4篇文章来帮助用户理解整个原始数据集C,则可将10篇文章分别映射到一个包含四个维度的主题分布中,如图2所示,其中每个值表示某个文章属于特定主题的概率。为了在低冗余的情况下覆盖不同主题,最直观的做法是选取每列中概率最大的文章(用加粗标明)来表示相应的主题,即可以选择文章d1、d5、d8、d10构成最终的代表性集合S。但是子集{d1, d5, d8, d10}并没有考虑文章的作者影响,而如上文的评论网络所示,作者影响对于社交网络中的读者是非常重要的。
图2 文章主题分布
为了同时考虑主题信息和作者影响力,需要根据公式(5)计算文章的代表性分数。不失一般性,在本例中将参数λ设置为0.6,即只有主题概率大于0.6*ptkmax的文章才能被视为可以代表主题tk的候选文档,如图3所示,每个主题的候选文章均用灰色阴影标记。通过公式(5)可以计算每篇文章的代表性分数,表示它在内容和影响力方面代表每个主题的程度。结果如图3所示,其中标粗的数字表示每个主题下的代表性分数的最大值。基于代表性分数,可选择d1、d5、d6、d7作为10篇文档的代表。仅根据主题概率选定的文章d8和d10代表性得分低于主题t3中的d6和主题t4中的d7,因此被替换,同时d6和d7各自在主题t3和t4上的概率(分别为0.480和0.477)也并不显著低于d8和d10。仅根据主题概率选定的代表性集合S={d1, d5, d8, d10}的总影响力为:
influence(S)=r(d1)+r(d5)+r(d8)+r(d10)=0.295+0.272+0.228+0.093=0.88
图3 文章的代表性分数
通过AIRep框架计算出的代表性集合S’={d1,d5,d6,d7}的总影响力为:
influence(S’)=r(d1)+r(d5)+r(d6)+r(d7)=0.295+0.272+0.272+0.228=1.067
根据(influence(S’)-influence(S)) / influence(S) 计算,新代表性子集的总体影响力提高了20.15%。对于提取过程的改进可以在增加所提取文章影响力的同时,使主题的代表性保持在一个相对满意的水平。尤其是对于主题t3,同时给定文章d6和d8,用户可能更喜欢前者,因为它来自更有影响力的作者。通过本节的示例能够看出,本文提出的AIRep方法框架可以有效从社交网络中提取具有良好主题代表性和作者影响力的代表性信息集合。
4.4.2 算法细节
AIRep方法框架的伪代码如下,该框架包括三个部分,即主题提取、用户影响力建模和代表性子集提取。第一部分(第1—2行)基于Gibbs抽样训练的LDA实现主题提取,计算复杂度为O(NT*NC*l),其中NT表示主题数,NC表示文章集合C的大小,l表示每篇文章的平均长度。对于使用PageRank进行作者影响力建模的过程(第3—4行),时间成本主要由网络结构和迭代次数决定,NE和NA分别表示边和文章作者的数量,作者影响力建模的时间复杂度为O(NE+NA)。在最后一部分提取代表性子集中(第5—15行)存在两个迭代,其中外部迭代是针对主题的,内部迭代是针对文章的。两次迭代的时间成本为O(NT*NC)。因此,AIRep总时间复杂度为O(NT*NC*l)+O(NE+NA)+O(NT*NC)。
算法 1.AIRep
05
实验与结果
本部分将围绕所提出的AIRep框架进行一系列实验,并对实验结果进行详细分析。
5.1 实验设置
数据。为了证明本文提出的代表性信息提取框架的有效性,研究将使用从X公司内部博客平台收集的真实数据进行实验。X公司是中国一家大型移动通信服务提供商,其母公司是财富500强的电信公司。为了加强员工之间的沟通、促进知识共享并提供一个自我表达的平台,X公司建立了内部博客平台,这也是一个典型的社交网络平台。实验收集了该平台一个月内生成的博客和评论数据,包括23500篇博客文档和111000条评论。实验将博客文章按天分组,并使用AIRep框架从形成的31组数据集分别提取代表性集合。考虑到用户在信息获取时通常只关注前10篇文章[43],因此将实验提取代表性集合的大小统一规定为10。
基准方法。基于Top-k的方法可以在一定程度上解决信息过载问题,例如为了帮助用户快速浏览海量信息,在线评论、微博、博客等系统通常为用户提供按时间顺序浏览信息的功能[33],这也是目前常用的基于Top-k的方法,因此本文将其作为基准方法之一,简写为Latest Published。此外,Zhang等[30]提出的λ-表示方法(简写为LamRep)基于相似性度量引入了λ代表性的概念,根据投票机制提取代表集合,确保原始数据集中的每个数据点至少可由代表性子集中的一个元素代表。该方法也选作本文的基准方法。最后,实验还将简单随机抽取方法(Random)作为基准方法,该方法随机从原始数据集中选择一组文档来表示整个集合。实验中,对每组数据集随机选择50次,对形成的评测指标求平均值。综上,本文选择三个基准方法(即Latest Published、LamRep和Random)来检验AIRep方法框架的性能。
5.2 评估指标
覆盖度和冗余度是评估代表性信息的两个常用指标[28]。覆盖度衡量子集代表原始数据中主题的程度,冗余度衡量子集中元素之间相似和重复程度,判断他们是否有显著差异。给定数据集C和代表性子集S。根据Pan等[28]和Zhang等[30]的研究,覆盖度定义为coverage=NT(S)/NT(C),其中NT(C)是原始数据集C中包含主题的数量,NT(S)是提取的代表性子集S中包含的主题数量。覆盖度指标可以度量代表性子集覆盖主题的百分比。考虑到一篇文章通常不会明确属于某个特定主题,而是在多个主题上具有概率分布。因此,在实验中,一个提取集合的覆盖度可以定义为:
其中NT(C)表示原始数据集C的主题数量,cov(T)表示子集S能够表示这些主题的最大概率。
冗余度衡量了数据集中的主题重叠程度[44],定义为:
对于作者影响力,实验引入第三个指标:
其中,文章d的作者表示为ad,其影响值由r(ad)表示,N(S)表示代表子集S中的文章数量。该指标反映了提取的代表集合S中代表性文章的平均影响值。
5.3 参数实验
参数λ在计算代表性时平衡了主题和影响力之间的权重,本节重点讨论参数λ对AIRep框架有效性的影响。给定31组文章,实验使用不同的参数λ提取代表性子集。为了清晰展示AIRep框架性能与参数λ之间的关系,实验使用前面定义的三个指标,计算31组代表性子集提取实验结果在三个指标上的平均值。图4显示了参数λ和代表性评估指标覆盖度、冗余度之间的关系,可以看出,λ值越大,AIRep框架获得的代表性子集覆盖度越高、冗余度越低。
图4 不同λ的平均覆盖度和冗余度
如图5(a)所示,当λ变大时,代表性子集的影响力值将减小。这意味着虽然随着λ的增大主题代表性有所提升,但会牺牲影响力指标。好的代表性子集需要同时具有高覆盖度、低冗余度和高影响力。因此,实验定义综合指数为coverage(S)*influence(S)/redundancy(S)。图5(b)显示了不同参数λ对应的综合指数,可以发现,综合指数在0.6左右达峰,这表明对于实验使用的数据集,AIRep在参数λ为0.6时表现最好,因此,在比较实验中采用这一参数。
图5 不同λ的平均影响力和综合指数
5.4 横向比较实验
将本文提出的AIRep框架与三个基准方法在覆盖度、冗余度、影响力三个指标上进行横向比较,横向比较实验将AIRep的参数λ设置为0.6。如图6所示,横坐标表示31个组的编号。该图表明AIRep比所有基准方法具有更好的覆盖度,尤其是相比基于Top-k方法和Random方法,主题提取过程使AIRep能够掌握主题结构,从而获得更高的覆盖度。
图6 覆盖度横向比较
表3 四种方法覆盖度的配对样本t检验和Friedman检验
表3中的统计检验进一步验证了图6中的观察结果。T检验和Friedman检验的结果表明,AIRep的覆盖度显著大于LamRep、Random和Latest Published三种方法。
表4 四种方法冗余度的配对样本t检验和Friedman检验
冗余度量化了代表性子集中元素的重复程度。图7结果表明基准方法具有更高的冗余度,尤其是Random和Latest Published方法。相比之下,AIRep冗余度最小。这与表4中的统计结果也是一致的。表4中的配对样本t检验和Friedman检验结果表明,AIRep的冗余度显著小于三个基准方法,证明AIRep可以有效地去除重复信息。
图7 冗余度横向比较
影响力是评估各方法提取的代表性信息子集权威性的指标。如图8所示,对于大多数组而言,AIRep的表现优于其他三个基准方法。基于内容代表性的方法LamRep的总体影响力值最差,因为其忽略了作者影响力。尽管有时Latest Published方法与AIRep框架的性能相似,但总体而言,前者的影响力结果依旧比后者低。说明AIRep框架在提取代表性信息时可以很好地考虑社交网络用户的影响力。
图8 影响力横向比较
表5 四种方法影响力值的配对样本t检验和Friedman检验
如表5所示,配对样本t检验和Friedman检验结果表明,AIRep的表现明显优于现有的代表性集合提取方法LamRep、基于随机选择的方法Random和Top-k方法Latest Published。表明本文提出的AIRep框架可以从社交网络大数据集中提取有影响力的信息子集。
综上,对比实验证明AIRep是解决社交网络“大数据-小数据”问题的有效方法,它不仅可以提取具有高覆盖度和低冗余度话题代表性的信息,还可以提供高作者影响力的信息。
06
设计科学的准则分析与总结
在信息管理领域,“大数据-小数据”问题是有关提升数据要素使用效率的研究问题,这也是一个适用于设计科学研究范式的典型研究问题。本文以“大数据-小数据”问题为例,在社交网络情景下扩展提出一个新的社交网络“大数据-小数据”问题,并按照详尽可能性模型设计了这一问题的三个方面特性,即小数据具有高覆盖度、低冗余度、高作者影响力。其中,高覆盖度和低冗余度继承了“大数据-小数据”问题的“代表性”语义反映要求,而高作者影响力是针对社交网络中的情景化因素提出的小数据特性。基于此,本文提出了解决社交网络“大数据-小数据”的方法框架,即考虑作者影响力的代表性信息提取框架。这一框架通过LDA模型和PageRank方法分别对社交网络大数据的话题和作者影响力进行刻画,随后通过一种启发式策略提取了小数据集合。基于一个中国企业内部社交平台的真实数据,本文对所提信息提取框架的有效性进行了验证,结果表明,相比于其他可采用的提取方法,本文提取框架所生成的小数据同时具有更高的话题覆盖度、更低的话题冗余度,以及更高的作者影响力。
本文呈现了一个典型的设计科学研究示例,除在问题提出和解决方案两方面的创新之外,结合Hevner等[1]在2004年给出的设计科学七条设计准则,本文在这些原则方面也有相应的设计。
(1)设计即IT组件。
设计科学研究必须以框架、模型、方法或实例的形式产生一个可行的IT组件,这也是设计科学的主要目标,即研究产物为设计的IT组件。在本文的研究示例中,设计的IT组件包含两个方面,其一是基于“大数据-小数据”问题扩展提出的社交网络“大数据-小数据”问题。作为以优化目标形式呈现的设计组件,描述的是小数据的提取约束,也是一个典型的IT组件。其二为考虑作者影响力的代表性信息提取框架AIRep, 这是一个以方法形式呈现的IT组件。虽然IT组件是产出物,但“设计”是核心。而作为信息管理的研究范式,设计科学中的“设计”需要尽可能突出管理理论的方向性作用,相应地,本文示例研究的设计是以一个基于行为理论模型驱动而形成的设计。
(2)问题的相关性。
设计科学研究的目标是为重要而相关的商业问题开发基于IT技术的解决方案。区别于计算机科学中的IT技术设计,信息管理中的设计要突出管理问题驱动的IT创新,而不是工程驱动的IT创新。因此,在设计科学的研究中应讨论设计动机与企业管理相关问题之间的相关性,突出IT设计能够解决组织或者个体层面的关键问题,进而能够为企业管理带来明确的收益和效果。相应地,本文示例研究的设计需要解决的问题是社交网络平台上的信息过载问题,以及社交平台上的大数据利用问题。当前社会化商务背景下,社交网络上的大数据是管理者理解市场、紧跟消费者的重要决策要素,但信息过载问题致使管理者难以有效利用社交网络信息进行管理决策,这也成为本文示例研究的出发点。
(3)设计评价。
设计IT组件的功能、效果和效率需通过执行良好的评价过程进行严格的证明。设计科学中对于设计的评价分为两大阶段,首先需要评价设计的IT组件是否比已有方法更好,这一阶段的设计评价类似于计算机科学的方法评价,多采用横向方法对比实验。第二阶段需要进一步评价设计的IT组件是否可以解决最初提出的管理问题,也就是在设计动机对应的管理情景下评价设计IT组件的效果,这一阶段不仅需要评价“是否更好”,还要回答“是否解决”。一个同时在工程层面“更好”和管理层面“有效”的IT组件,才更加符合设计科学的设计目标。在本文的示例研究中,较多进行第一阶段的设计评价,对于第二阶段的设计评价尚不完善,这也可以看作是示例研究的局限之一。
(4)研究贡献。
有效的设计科学研究需在IT组件设计或方法设计方面作出明确、可验证的贡献。设计科学的核心贡献为方法创新,而在理论层面,设计科学的贡献并不对应。设计科学目标在针对管理问题给出IT组件形态的解决方法侧重于“解决”,因此设计科学更侧重方法贡献。相对而言,行为科学更加侧重于“解释”,即针对管理实践中的新现象给出更加合理的理论,因此行为科学更聚焦在理论贡献。需要强调的是,设计科学的方法创新不仅可以是能够解决管理问题的新方法,还可以是解决新管理问题的常规方法。相应地,在本文的示例研究中,扩展提出的社交网络“大数据-小数据”问题和相应的考虑作者影响力的代表性信息提取框架,都可以看作是设计科学的典型研究贡献。
(5)研究严谨性。
设计科学研究在IT组件的构建和评价过程需使用严谨的方法。严谨性是所有研究范式的必要前提,对于设计科学研究范式而言,严谨性体现在两个环节,一是IT组件设计过程的严谨性,体现在是否使用最合适的方法和模型进行设计;二是IT组件评价过程的严谨性,表现在评价过程是否覆盖所有的设计环节,评价指标是否反映所有的设计特性。相应地,在本文的示例研究中,采用LDA模型和PageRank方法量化信息的话题内容和信息的权威影响力是在设计过程阶段的严谨性体现;而采用三个不同的测度指标,评价设计组件的参数变化和总体性能指标,是评价过程的严谨性表达。
(6)设计即搜索过程。
在特定目标和问题空间限制下,利用可用方法和路径展开最优方案的搜索,探索有效的IT组件。设计科学的目标虽然是设计IT组件,但是更重要的价值是总结在设计过程中发生了什么,包括设计的中间环节、中间方案、不同的技术路径,以及选择每一条技术路径的合理性分析。对于管理者而言,设计科学需要传递“知其然,更要知其所以然”的价值信息。而所谓的设计即搜索过程,会更加强调在得到最终设计物之前,是怎样通过引导、尝试、验证等方式实现最终的设计方案。相应地,在本文的示例研究中,通过详尽可能性模型明晰设计方向和技术路径,借助横向对比实验排除设计替代方案都是设计即搜索过程的体现。
(7)研究对话。
设计科学研究必须与利益相关者进行充分的沟通交流,将设计组件同时呈现给面向技术和面向管理的读者,这也是设计科学研究在呈现过程中的要点和难点。设计科学的目标读者不仅是企业的技术人员,也包括企业的管理者。企业中的这两类人群侧重不同,使用的话语体系也存在差异。当向这两类人群传递设计科学的价值时,应考虑对话不同类型的文献,使用不同的设计元素,呼应不同背景人群的关注。例如,在本文的示例研究中,文献综述既要对话信息检索类的相关技术文献,也要总结数据要素对管理决策影响的理论文献;设计过程既要考虑不同方法和模型的性能差异,也要界定理论构念是否使用准确;研究结论既要分析技术发现,也要回应管理需求。
参考文献
[1] Hevner A R,March S T,Park J,et al.Design science in information systems research[J].MIS Quarterly,2004,28(1):75-105.
[2] Wang L,Zhang J,Chen G,et al.Identifying comparable entities with indirectly associative relations and word embeddings from web search logs[J].Decision Support Systems,2021,141:113465.
[3] Zhang J,Wang L,Wang K.Identifying comparable entities from online question-answering contents[J].Information & Management,2021,58(3):103449.
[4] Guo X,Wei Q,Chen G,et al.Extracting representative information on intra-organizational blogging platforms[J].MIS Quarterly,2017,41(4):1105-1128.
[5] Zhang J,Wang C,Chen G.A review selection method for finding an informative subset from online reviews[J].Informs Journal on Computing,2021,33(1):280-299.
[6] He J,Fang X,Liu H,et al.Mobile APP recommendation:An involvement-enhanced approach[J].MIS Quarterly,2019,43(3):827-850.
[7] Wang G,Chen G,Zhao H M,et al.Leveraging multisource heterogeneous data for financial risk prediction:A novel hybrid-strategy-based self-adaptive method[J].MIS Quarterly,2021,45(4):1949-1998.
[8] Gregor S,Hevner A R.Positioning and presenting design science research for maximum impact[J].MIS Quarterly,2013,37(2):337-355.
[9] 陈国青,任明,卫强,等.数智赋能:信息系统研究的新跃迁[J].管理世界,2022,38(1):180-196.
[10] 陈国青,张瑾,王聪,等.“大数据—小数据”问题:以小见大的洞察[J].管理世界,2021,37(2):203-213,14.
[11] Lappas T,Gunopulos D.Efficient confident search in large review corpora[C]//Machine Learning and Knowledge Discovery in Databases:European Conference,ECML PKDD 2010,Barcelona,Spain.Berlin,Heidelberg:Springer Berlin Heidelberg,2010:195-210.
[12] Tsaparas P,Ntoulas A,Terzi E.Selecting a comprehensive set of reviews[C]//Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,San Diego,California,USA.New York:ACM,2011:168-176.
[13] Chen J,Liu H,Yang Y,et al.Effective selection of a compact and high-quality review set with information preservation[J].ACM Transactions on Management Information Systems,2019,10(4):1-22.
[14] Lappas T,Crovella M,Terzi E.Selecting a characteristic set of reviews[C]//Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Beijing,China.New York:ACM,2012:832-840.
[15] Zhang Z,Chen G,Zhang J,et al.Providing consistent opinions from online reviews:A heuristic stepwise optimization approach[J].Informs Journal on Computing,2016,28(2):236-250.
[16] 李月琳,章小童.数据驱动的信息行为研究的回顾与展望[J].信息资源管理学报,2018,8(2):13-27.
[17] Ilyas I F,Beskales G,Soliman M A.A survey of top-k query processing techniques in relational database systems[J].ACM Computing Surveys,2008,40(4):1-58.
[18] Lian X,Chen L.Probabilistic top-k dominating queries in uncertain databases[J].Information Sciences,2013,226:23-46.
[19] Mamoulis N,Yiu M L,Cheng K H,et al.Efficient top-k aggregation of ranked inputs[J].ACM Transactions on Database Systems,2007,32(3):19-es.
[20] Straccia U.Top-k retrieval for ontology mediated access to relational databases[J].Information Sciences,2012,198:1-23.
[21] Chen L,Jiang C,Wang W.A micro blog recommendation system based on user clustering[C]//Proceedings of the 2014 International Conference on Computer Science and Electronic Technology,ShenZhen,China.Paris,France:Atlantis Press,2015:408-411.
[22] Liu D R,Tsai P Y,Chiu P H.Personalized recommendation of popular blog articles for mobile applications[J].Information Sciences,2011,181(9):1552-1572.
[23] Zhou X,Wu S,Chen C,et al.Real-time recommendation for microblogs[J].Information Sciences,2014,279:301-325.
[24] Antiqueira L,Oliveira Jr O N,da Fontoura Costa L,et al.A complex network approach to text summarization[J].Information Sciences,2009,179(5):584-599.
[25] Bollegala D,Okazaki N,Ishizuka M.A preference learning approach to sentence ordering for multi-document summarization[J].Information Sciences,2012,217:78-95.
[26] Cai X,Li W.A spectral analysis approach to document summarization:Clustering and ranking sentences simultaneously[J].Information Sciences,2011,181(18):3816-3827.
[27] Lin C Y,Hovy E.From single to multi-document summarization:A prototype system and its evaluation[C]//Proceedings of the 40th Annual Meeting on Association for Computational Linguistics,Stroudsburg,PA,USA.New York:ACM,2002:457-464.
[28] Pan F,Wang W,Tung A K H,et al.Finding representative set from massive data[C]//Fifth IEEE International Conference on Data Mining,Houston,TX,USA.Piscataway:IEEE,2005:338-345.
[29] Zhang J,Chen G,Tang X.Extracting representative information to enhance flexible data queries[J].IEEE Transactions on Neural Networks and Learning Systems,2012,23(6):928-941.
[30] Zhang J,Wei Q,Chen G.A heuristic approach for λ-representative information retrieval from large-scale data[J].Information Sciences,2014,277:825-841.
[31] Sussman S W,Siegal W S.Informational influence in organizations:An integrated approach to knowledge adoption[J].Information Systems Research,2003,14(1):47-65.
[32] Chaiken S.Heuristic versus systematic information processing and the use of source versus message cues in persuasion[J].Journal of Personality and Social Psychology,1980,39(5):752-766.
[33] Chen K,Chen T,Zheng G,et al.Collaborative personalized tweet recommendation[C]//Proceedings of the 35th International ACM SIGIR Conference on Research and Development in Information Retrieval,Portland,Oregon,USA.New York:ACM,2012:661-670.
[34] Zhou G,Lai S,Liu K,et al.Topic-sensitive probabilistic model for expert finding in question answer communities[C]//Proceedings of the 21st ACM International Conference on Information and Knowledge Management,Maui,Hawaii,USA.New York:ACM,2012:1662-1666.
[35] Fiala D,Subelj L,Zitnik S,et al.Do PageRank-based author rankings outperform simple citation counts?[J].Journal of Informetrics,2015,9(2):334-348.
[36] Liu J S,Lu L Y Y,Ho M H C.Total influence and mainstream measures for scientific researchers[J].Journal of Informetrics,2012,6(4):496-504.
[37] Weng J,Lim E P,Jiang J,et al.TwitterRank:Finding topic-sensitive influential Twitterers[C]//Proceedings of the 3rd ACM International Conference on Web Search and Data Mining,New York,New York,USA.New York:ACM,2010:261-270.
[38] 乐承毅,赵亚裴,麻荣杰.从浅层互动到深层互动:虚拟品牌社区多层互动对知识共创的影响机制[J].信息资源管理学报,2022,12(5):77-88.
[39] Azvine B,Cui Z,Nauck D D.Towards real-time business intelligence[J].BT Technology Journal,2005,23(3):214-225.
[40] Blei D,Ng A,Jordan M.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3(4-5):993-1022.
[41] Su C,Pan Y T,Zhen Y N,et al.PrestigeRank:A new evaluation method for papers and journals[J].Journal of Informetrics,2011,5(1):1-13.
[42] Brin S,Page L.The anatomy of a large-scale hypertextual web search engine[J].Computer Networks and ISDN Systems,1998,30(1-7):107-117.
[43] Granka L A,Joachims T,Gay G.Eye-tracking analysis of user behavior in www search[C]//Proceedings of the 27th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,Sheffield,United Kingdom.New York:ACM,2004:478-479.
[44] Carterette B,Chandar P.Probabilistic models of ranking novel documents for faceted topic retrieval[C]//Proceedings of the 18th ACM Conference on Information and Knowledge Management,Hong Kong,China.New York:ACM,2009:1287-1296.
作者简介
张明华,博士生,研究方向为信息系统、电子商务;
何芳,本科生,研究方向为社交媒体、商务智能;
张瑾,副教授,博士生导师,研究方向为大数据分析与应用、数字经济与人工智能,Email:zhangjin@rmbs.ruc.edu.cn。
* 原文载于《信息资源管理学报》2023年第3期,欢迎个人转发,公众号转载请联系后台。
* 引用格式
张明华,何芳,张瑾.设计科学的准则分析——以“大数据-小数据”问题为例[J].信息资源管理学报,2023,13(03):154-168.DOI:10.13365/j.jirm.2023.03.154.
往期 · 推荐
当期目录 · 专刊 | 2023年第3期 “面向信息管理与信息系统的研究方法应用与实践”
当期荐读 2023年第3期 | 人机交互vs.人人交互:对交互对象的身份认知和双面论证策略在商务对话中的影响
当期荐读 2023年第3期 | 在线品牌社区用户参与价值共创的互动行为转换机制——基于扎根理论的研究
▲点击访问信息资源管理学报小程序
制版编辑 | 王伊杨
审核 | 于阿媛
长按识别二维码关注我们
信息资源管理学报
微信号
xxzyglxb
分享、在看与点赞
只要你点,我们就是朋友😊