查看原文
其他

当期荐读 2021年第4期|干货足否:知识直播产品特征提取与问题挖掘(内含视频摘要)

严炜炜、孙晓瑞等 图书情报知识 2023-03-26

     ISSN 1003-2797

     CN 42-1085/G2

     双月刊

     同行评审期刊




视频时间轴

00:35 |  研究背景

01:28 |  研究目的

01:56 |  研究设计

02:58 |  研究结论


严炜炜  孙晓瑞  黄为 

(武汉大学信息管理学院,武汉,430072)



目的/意义

知识直播平台的出现为用户提供了知识获取、知识交流以及知识变现的全新渠道,研究知识直播产品特征提取与问题挖掘有助于提升知识直播产品质量,促进知识直播平台持续良好发展。

研究设计/方法

以知乎Live为研究对象,提取热门分区9,108条用户评论中的产品特征高频词,构建知识直播产品特征体系;并利用细粒度观点抽取方法抽取具有消极情感的用户评论观点以揭示知识直播产品存在的问题。

结论/发现

知乎Live讲座产品特征体系可归纳为主讲人、课程、用户三大维度,其中用户最为关注内容质量、内容形式等课程维度相关特征;知识直播产品主要存在干货不足、主讲人答疑不够认真、时间安排不合理等问题,对此平台应协同主讲人以问题为导向针对性地改善服务质量。

创新/价值

聚焦于新型知识传播渠道,为知识直播平台改进知识服务、提高用户满意度提供参考建议。

关键词

知识直播平台 用户评论 特征提取 

观点挖掘 知乎Live



1 引言

随着信息技术的发展以及直播行业的兴起,知识直播平台越来越受到大众关注。知识直播平台是指通过互联网和多媒体技术,将用户掌握的知识技能实时向他人传输的互动性社交平台[1]。而共享经济则催生了知识直播平台付费产品(直播课程等)的上线[2],该产品实时提供优质的知识内容,降低了用户信息筛选成本[3],从而更好地满足用户对高质量知识直播内容的需求。同时,知识直播平台因其知识传播的有效性和对知识变现的支持受到了知识需求方和知识提供方的欢迎。当前,国内影响力较大的知识直播平台有知乎Live、腾讯课堂、网易云课堂、知深、荔枝微课等。


知识直播平台虽发展迅猛、用户众多,但各平台知识直播产品良莠不齐,存在不少问题。如由于准入门槛较低,知识直播平台存在知识质量不高、缺乏版权保护、收割粉丝等情况。这些问题不仅降低了用户满意度,也对知识直播平台商业价值的实现产生了负面影响。知识直播的用户大多是知识需求明确且愿意为之投入时间和金钱的群体,他们往往会在体验知识直播产品时思考其价值,在直播过程中与主讲人沟通互动,或在直播后通过在线评论和评分发表自己的想法。这意味着,对知识直播平台用户在线评论的挖掘不仅有助于大众了解知识直播产品口碑、做出消费决策,也有利于平台根据用户反馈把控产品质量、优化知识服务内容。


正如我们所知,用户在线评论体量巨大且时效性强,存在信息重复与过载问题,提取知识直播平台产品特征并挖掘用户主要观点有利于高效、准确定位产品问题。因此,本文选择以知识直播平台“知乎Live”为研究对象,着眼于直播产品的用户在线评论,构建知识直播产品特征体系并探究用户关注的主要问题,由此提出改进建议,旨在提升知识直播产品质量,提高用户粘性,促进知识直播平台持续健康发展。



2 相关研究


2.1知识直播平台及用户研究

知识直播平台具有低门槛性、轻知识性、社交性和交互性等特征,是用户进行知识交互的新型社交平台[4]。知识直播平台涉及的内容较为广泛,平台会依据用户需求对相关直播内容进行分类、定价,以实现知识直播产品的精准定位[1]。此外,知识直播产品具有体验的属性,用户需要对其所包含的知识内容进行理解、消化才能获得一定效益[5],因而消费者很难在获取知识之前有效判断知识直播产品的质量。


目前学者们对知识直播的研究多集中于平台运营、付费行为、产品销量影响因素等方面。平台运营方面,赵鑫等[1]从传播模式、运营模式和宣传模式三个层次对比分析了国内外知识直播平台存在的差异,并由此从内容生产、课程时间、付费形式、服务保障制度四个维度为国内知识直播平台的发展提供了对策;杨静[6]则运用长尾理论分析了知乎Live平台知识生产、传播、消费三阶段的运营模式。对付费行为的研究主要聚焦于知识付费行为的影响因素,知识供给者的个人特征[7]、用户的感知价值以及直播产品价格[8]均被视为用户付费行为的重要影响因素。在产品销量影响因素方面,知识直播产品和其他产品一样受价格因素的负向影响,但评论数量能对价格有调节作用[4];另外,知识直播产品描述的相关特征同样对产品销量有所影响,并且受到知识生产者声誉的调节作用[9]。然而,当前知识直播相关研究少有深入用户生成内容对知识直播产品口碑和质量进行挖掘,缺乏从用户视角出发为知识直播平台可持续发展和用户体验提升提供指导。


2.2面向网络平台的在线评论挖掘

随着移动端设备和各类移动应用的普及,以在线评论为代表的用户生成内容被众多移动应用和平台视为重要用户资源,其不仅可作为平台方开展产品优化、营销策划、销量预测等活动的重要信息来源[10-11],也可作为平台用户做出购买、使用等决策的重要依据[12]


相关研究常以网络平台上的用户评论文本为研究数据,追溯用户关注的产品特征以及心理动机。如张艳丰等[13]将商务平台的手机评论作为研究样本,从语义特征、情感特征、词频共现和时间特征四个方面挖掘用户追加评论及其与初评的关系;谷莹等[14]利用Word2vec技术构建产品高频词集合,然后使用情感分析方法对评论文本进行分类,构建产品高频词分类表,依此分析产品特征和用户态度;徐海丽等[15]则结合构建的领域本体和依存句法分析确定产品的属性和相应的主观评论,并对在线评论进行分类,再运用LDA模型对评论进行聚类分析,从而展示出消费者重点关注的属性的评价向量及其情感。


此外,也有学者探索并提出用于在线评论挖掘的新方法。如Fu等[16]提出了名为Wiscom的新系统,该系统可应用于用户评论较短且产品更新换代频繁的appstore,及时分析大量在线评论以发现用户对某一手机应用喜恶的原因且能通过整体情况识别用户普遍偏好;Zhou等[17]构建了一种基于奇异值分解的语义关键词相似度方法,可以从大规模用户评论数据中量化用户对产品的反应度,为公司或平台进行产品改进提供依据;Li等[18]则提出了一个情感-主题复合模型,验证用户在线评论和评分如何影响用户决策和产品销量。


尽管当前在线评论挖掘研究对象广泛且评论挖掘方法较为成熟,但针对知识直播平台这类新兴网络平台,仍有待借助在线评论挖掘方法探究平台特质和用户态度,面向知识直播产品的特征体系亦尚待提炼。



3 研究设计

为了利用用户在线评论挖掘知识直播产品特征,探究知识直播产品的主要问题,本研究提出如图1所示的技术路线:①利用Python爬虫获取大规模、非定向的知识直播产品在线评论文本并进行数据清洗、中文分词等预处理操作,得到实验数据集;②对预处理后的评论语料进行词频统计,通过人工标注的方式得到与知识直播产品相关的高频词,并结合前人研究构建知识直播产品特征体系;③基于知识直播产品特征体系筛选非满分评论中涵括产品特征相关高频词的评论短句,利用情感分析技术计算评论短句情感得分,抽取出具有消极情感倾向的评论观点,最后归纳总结得到知识直播产品中存在的主要问题。


3.1 数据获取与预处理

知乎Live是国内发展至今最为突出的知识直播平台之一[19],其拥有庞大的产品数量以及稳定的用户使用率,因而平台的在线评论内容能够反映出用户对于知识直播产品的真实见解和情感,故本文以知乎Live为研究对象开展知识直播产品特征提取与问题挖掘研究。


本研究利用Python网络爬虫获取知识直播产品知乎Live讲座的用户评论数据,涉及评论内容、用户评分等字段。相较于学术文献、新闻等规范化的高质量文本,知识直播产品在线评论的语言形式更接近于口语,存在着大量可能对分析结果造成影响的噪音数据。为提高后续研究的准确性,本文删除原始数据中的重复评论、短评论(如“差”“好评”等无法反应具体语义信息的评论)以及明显与知识直播产品自身无关的评论(如广告评论)。之后利用Python中文分词库jieba对清洗后的评论文本进行分词[20],加载停用词表、删除与知识直播产品特征无关的词语,得到可用于后续研究的实验数据集。


3.2 产品特征提取与产品特征体系构建

特征是用户评论语句中粒度最细的评价单元,产品特征是产品自身构造所形成的特色,是影响消费者认知、情感和行为的主要刺激物[21],主要表现为消费者对某一产品的外形、质量、功能、组成部件及属性的关注程度[14]。产品特征可分为显式特征和隐式特征[22],对隐式特征的提取技术目前尚不成熟,故大部分产品特征提取都只考虑显式特征。产品特征提取的目的是将用户评论中涉及知识直播产品特征的内容提取出来,并依据词汇出现频率比较用户对知识直播产品各特征的关注度。为此,本研究将对分词后的实验数据集进行词频统计,通过人工标注得到与知识直播产品直接相关的高频词;以用户评价提取出的特征相关高频词为基础,结合前人研究整合归纳为主讲人、课程、用户三大特征维度,提出知乎Live讲座产品特征体系。


3.3 情感分析与评论观点抽取

高频词是粗粒度的表达,仅能反映用户关注知识直播产品的哪些特征,无法准确揭示用户评论中有关知识直播产品更细节、更直观的评价(即用户评论观点)。


根据Kim等人的定义,观点由持有者(holder)、方面(aspect)、情感(sentiment)及观点内容(expression)4个元素组成[23],故本文将评论观点界定为:用户针对知识直播产品的具体特征发表的具有情感倾向的内容。用户围绕知识直播产品实际发表的评论文本通常包含了用户对产品整体或某些特征的主客观评价,评论观点则属于评论文本细粒度评价内容,因此开展评论观点分析之前需要对用户评论中所涵括的评论观点进行抽取。


基于处理文本粒度的不同,观点抽取可分为篇章级、句子级、短语级等研究层次,而按照分析粒度的不同,可将观点抽取分为粗粒度观点抽取和细粒度观点抽取[24]。其中,细粒度观点抽取是在粗粒度观点抽取基础上的进一步深入,其具体到产品的特征层面,即运用信息抽取技术抽取评论文本中的评论主体、评价特征、评价词以及文本情感倾向等观点要素,为现实应用提供有价值的细节信息[25],有助于知识直播产品问题的揭示。因此本文采用细粒度评论观点抽取方法对知识直播产品的评论观点进行抽取。首先,筛选出实验数据集中所有用户评价低于满分的评论文本以构建负面用户评论语料;然后,通过知识直播产品特征相关高频词回溯到涵括该词语的评论短句,并利用SnowNLP库计算短句的情感得分[26],判断评论短句的情感倾向;最后,对不同情感倾向的评论短句进行分类,保留情感得分小于0.5、具有消极情感倾向的评论观点。评论观点抽取的实现过程如图2所示。



4 数据分析与讨论


4.1 数据描述

本研究以分区热度和讲座综合排名为参考,选取通关、艺术、乐活、财商和前沿五大分区作为研究样本。其中通关分区Live讲座内容主要与各类考试、学习相关,艺术分区Live讲座主要是对各类艺术的介绍或鉴赏,乐活分区Live讲座与日常生活、娱乐相关主题挂钩,财商分区Live讲座则是分享经济领域新闻与相关知识,而前沿分区Live讲座主要为互联网、人工智能等科技领域前沿与相关知识技能分享。本研究分别获取五大分区内各自综合排名前十的Live讲座的用户评论数据,为避免不同Live讲座评论数量差异过大导致分析结果产生偏差,将单个讲座评论顺次爬取数量上限设置为500条(根据知乎Live所有分区综合排名前十讲座的统计,超80%讲座的评论数均为500条以内)。最终爬取50个讲座,共计10,202条用户评论数据,数据采集时间为2021年3月。随后对原始数据进行清洗,删除噪音数据后最终得到9,108条用户评论数据,分词后综合川大、百度等停用词表去除与Live讲座特征无关的词语,得到各分区评论数据集。纵观所获Live讲座,其用户评分均较高,评分均值达到9.24分(10分制),可见绝大多数用户在使用知乎Live直播产品后持好评态度,其中前沿和通关两个分区的Live讲座好评度位列前二,评分均值超过9.4分。


4.2 知乎Live讲座产品特征体系构建

在进行特征提取时,本文对分词后的实验数据集进行词频统计,并且选取频数排名前600的词构建知乎Live讲座高频词表。由于词表中存在大量非领域高频词,需要人工剔除以保障其准确性和有效性,最后将筛选出的高频词进行分类以构建知乎Live讲座产品特征体系。严春燕[27]在研究中将知识付费产品用户在线负面评论高频词分类归纳为主讲人、课程内容、教辅需求、社交需求、课程收费五个方面;吴若英[28]也强调了知识直播平台上主讲人和用户的影响力;陈珂[29]则认为在知识直播平台,主讲人是知识传播主体,用户是知识传播客体,而课程是知识构建的基础。本文综合以上观点,认为“主讲人”可以单独作为一个特征维度;课程内容和课程收费都涉及直播课程,可以整合为“课程”维度;而教辅需求和社交需求均为用户所提出的需求,可归纳为“用户”维度。故本文以“主讲人”“课程”和“用户”作为知乎Live讲座特征体系的一级维度。


将筛选出的高频词归类到这三大维度之后,本文结合高频词词义与词汇在评论中的具体用法进一步提炼出二级维度。在主讲人维度中,将与主讲人声音和表达方式相关的词汇纳入“表达”维度,将主讲人个人能力相关词汇纳入“才能”维度,将主讲人授课的方式和形式相关词汇纳入“方式”维度,将描述主讲人性格的词汇整合为“性格”维度;在课程维度下,先根据部分高频词归纳出“讲座设置”“讲座时长”“讲座性价比”三个二级维度,并将用户参与Live讲座前后感受相关的词汇纳入“讲座影响”维度,将Live讲座中知识内容的结构与呈现形式相关词汇纳入“内容形式”维度,再将评价讲座内容有用性的词纳入“讲座质量”维度;在用户维度下,本文发现用户在评论中既有关于自身情况和愿望的表述,也有自身需求的表达,因此按具体评论内容归纳出“个人情况”“个人愿景”“教辅需求”“社交需求”四个二级维度。最终形成知识直播产品特征体系(如表1所示)。


从表1中各一级维度词频占比可以看出,知识直播平台用户在体验完知识直播产品后的关注点按关注度由高到低依次为课程(56.01%)、主讲人(25.41%)、用户(18.58%)。


关于课程,用户对内容质量(21.09%)的关注度远高于整个特征体系中的其他指标。其中,用户除了直接用形容词表达内容质量高低(如“很棒”)外,主要从课程内容充实度(如“干货”)、内容有用性(如“实用”)、内容深度(如“适合”)等方面来评判。其次,用户较为关注内容形式和讲座影响,尤其是讲座过程中主讲人讲到的具体方法以及讲座能否带来收获,另外讲座的启发作用(如“思考”)也很受用户关注。用户对讲座设置、讲座时长和讲座性价比的关注度较低,讲座设置的各方面对用户吸引力的差别不大。


关于主讲人,用户较为关注主讲人的表达和讲课方式。具体而言,用户首先希望主讲人说话详细且清晰,其次比较在意主讲人的音色和说话风格。讲课方式上,用户希望主讲人能对某一事物展开讲解分析,同时能解答自己的疑问。对主讲人的才能,用户最看重条理逻辑性(如“思路”)和专业性(如“到位”)。而对主讲人的性格,用户希望主讲人传输知识时比较用心、细致,而与用户互动时耐心、温柔。


关于用户,从用户个人情况维度的高频词可以看出他们大多是某一领域的初学者或是对某方面的知识有疑问,所以大多数用户的知识需求是较为明确的。用户的个人愿景相关高频词显示出他们有目标想实现,希望讲座的知识可以应用于实践,并对其未来的发展有一定帮助。用户表达出的教辅需求说明,一方面讲座过程中主讲人的知识传输并不充分,用户希望得到内容补充(如“资源”);另一方面,用户认为讲座比较有价值,希望获取文档或ppt以便后续复习。用户的社交需求较弱可能是因为知乎Live讲座均设有问答互动环节,用户在直播过程中已经与主讲人进行了一定程度的交流。


为进一步探究各分区用户对知乎Live讲座特征的关注情况与分区差异,本文分别统计各维度高频词在各分区中的占比情况(如图3所示)。在主讲人维度,主讲人的性格最受通关分区用户关注,可能是因为该分区用户一般处于备考、求职、求学阶段,现实压力较大,对主讲人展现出的性格比较敏感。在课程维度,讲座性价比最受财商分区用户关注,符合他们对价值比较在意的特性;内容质量方面,乐活分区用户表现的关注度相对较低,或许是他们倾向于参与讨论自己感兴趣的生活问题,对于讲座内容的质量不太在意。在用户维度,通关分区由于分区属性较为明显,参与者身份大都相同,在其他分区中对个人情况较为忽视,而作为备考者、求职求学者,该分区用户的“通关”期望较为强烈,所以在个人愿景方面是最突出的分区;前沿分区主要涉及技术学习或是前沿话题,用户更多地表明自己在该领域的阶段情况,所以在个人情况上是表达最强烈的分区;财商分区用户在社交需求方面进行了更多表达,也许是该分区用户对人脉资源有更多需求,希望在习得知识外获取更多有价值的渠道。


4.3 基于观点抽取的知乎Live问题挖掘

当用户对知乎Live讲座给出低于满分的评价时,说明该产品存在改进的空间或未满足用户的预期和需求,即存在问题。因此可从非满分评论中抽取出用户针对讲座发表的具有消极情感的评论观点,以揭示知乎Live讲座存在的问题。本文从9,108条用户评论数据中筛选出用户评价低于满分的1,738条评论文本,依据研究设计中提出的评论观点抽取方法,结合人工校对检验,剔除情感分类错误或与产品特征无关的评论观点,最终抽取出415条具有消极情感的评论观点,评论观点数量分布如图4所示。


其中,与课程相关的评论观点数量最多,共计264条(63.61%),而与主讲人、用户两个维度有关的评论观点数量较少且相近,各占总数的20.24%和16.15%。评论观点的数量在一定程度上反映了用户对知识直播产品某一特征的不满程度,因此本文按照各高频词对应的评论观点数量进行倒序排列,筛选出排名前十的高频词,揭示知识直播产品存在的主要问题(如表2所示)。


在主讲人方面,作为主推实时问答互动的知识直播产品,知乎Live讲座的问答环节是其满足用户学习期望并吸引用户持续参与的关键,需要给予答疑质量足够的重视,但部分用户对主讲人的问题解答并不满意,认为其“回答问题时逻辑混乱”等。同时,作为线上直播产品,主讲人与用户之间进行沟通交流是通过语音方式进行的,“声音太小”或“时大时小”等问题会严重影响用户体验和知识内容的传递效率,因此主讲人应该在直播开始前对音频设备进行调试,使其保持最佳状态,提升用户听觉感受。此外,亦有用户对主讲人自身的专业水平提出不满,认为主讲人不够专业,或者太过专业,这需要主讲人根据目标受众水平对讲座课程内容的深度和复杂性加以调整,以满足更多用户的需求。


课程方面,多数用户希望通过知识直播产品能够获取精炼、实用、核心的信息内容,因此在安排讲授内容时,应该尽量突显“干货”,减少无效信息,提升知识传播的效率与质量。这一要求同样反映在用户对知识直播产品时间安排的看法上,“课程就感觉唠了三十分钟磕”“车轱辘话轮流转说了一个小时”,亦是用户对于干货太少、无效信息过多的反馈,可见“高效、精炼”的知乎Live知识直播产品才能满足多数用户的知识需求。此外,用户希望能从产品中获取切实可行的方法,以解决学习、生活和工作中出现的实际问题,方法比较空泛、偏向理论而没有实操性等问题会让用户产生不满,认为讲座没有实际价值,从而给予负面评价。最后,知识直播产品需要注意知识架构的系统性,相较于传统线下教学拥有严密、完善的知识体系,线上知识产品通常是主讲人个人经验总结,知识体系较为模糊、缺乏条理性,用户难以深入理解课程内容。对此,主讲人可以在讲授前辅以思维导图对课程大纲、知识结构进行梳理,辅助用户建立起全局意识,提升用户学习效率。


用户方面,由于用户在发表在线评论时多聚焦于知识直播产品本身进行评价反馈,而有关用户个人情况和愿景的问题则相对较少。不过仍有部分用户针对知识直播产品附加的教辅资料无法契合个人需求提出了较多问题,“文中所说的百度链接已被取消”“发出的链接消失了”等问题会使得用户无法获取主讲人提供的附加产品(资源、福利等),降低用户体验。对此主讲人应该定期维护附加链接,确保教辅资源的有效性。



5 结语

本文聚焦于知识直播平台,基于用户在线评论挖掘用户关注的知识直播产品特征以及知识直播产品存在的问题。研究获取国内影响力较大的知识直播平台知乎Live上热门分区综合排名前十Live讲座的用户评论数据作为研究样本,提取评论高频词,构建知乎Live讲座特征体系,并依据高频词从负向评论中提取用户观点,由此从用户视角揭示知识直播产品存在的主要问题,并提出改进建议。


用户最关注知识直播产品课程相关特征,认为课程维度存在较多问题,主要集中在内容质量、课程架构、时间安排等方面。关于主讲人,用户较为关注其表达、讲课方式及个人才能,问题主要在于答疑质量、讲课音量、专业性等方面。在用户维度,当知识直播产品无法满足用户的教辅需求时,他们更倾向于提出意见,故“链接失效”是提及最多的问题。


在此基础上,本文提出了知识直播平台提高用户满意度的建议:一是知识内容应凸显“干货”,能使用户获取方法以解决实际问题;二是主讲人应重视问答环节,满足用户的解惑期望;三是应形成系统的知识架构,精简授课内容,提升知识内容质量;四是主讲人授课时应耐心答疑,依据受众水平调整授课内容,促进受众知识获取效率;五是主讲人应在直播前确认音频设备运行正常,保障用户听感。此外,定期维护产品附加资源,增强知识直播产品的可持续性,也是值得关注的方面。


概括而言,传统非直播知识平台用户较关注知识产品的讲师知名度、授课语速及标题等直观因素[30],知识直播平台用户则更加聚焦知识内容质量;非直播知识产品由于为录播形式,难以满足用户的社交需求[31],而知识直播产品设置的问答环节和评论区交流功能可以增强社交性,因此知识直播产品主讲人应重视与用户的沟通,提高答疑质量,凸显产品优势。另外,知识直播产品和非直播知识产品都存在知识的实用性不足问题[31],这说明无论直播还是非直播知识产品,提供具有实际意义的知识内容是提升用户满意度的重要途径。


本文不足之处在于,挖掘用户评论观点时仅保留了消极情感评论,未全面探究用户对知识直播产品的看法。在后续研究中,可以进一步挖掘用户正向评论,丰富知识直播产品用户体验研究内容。



作者贡献说明

严炜炜:提出论文选题,设计研究框架,论文修改; 

孙晓瑞:数据分析,论文撰写与修改; 

黄   为:数据采集与分析,论文撰写。



支撑数据

支撑数据由作者自存储,

Email:397756134@qq.com。 

1 严炜炜,孙晓瑞,黄为.评论.xlsx.知乎 Live用户评论数据. 

2 严炜炜,孙晓瑞,黄为.评论观点抽取.xlsx.用户评论观点抽取结果数据.



参考文献


*本文原载于《图书情报知识》2021年第4期4-14

版权归《图书情报知识》所有,欢迎转发到朋友圈,转载请联系后台。


制版编辑 | 卢慧质


--END--


当期荐读 2021年第4期|数据驱动的智库知识服务流程优化

当期荐读 2021年第4期|直播平台用户信息交互行为图谱及特征研究(内含视频摘要)

当期荐读 2021年第4期|智慧图书馆数据标准体系研究

当期荐读 2021年第2期 | 未成年人阅读素养培育模式研究——以芬兰“快乐阅读项目”为例

当期荐读 2021年第2期 | 芬兰阅读服务专业人才培养的特色与启示


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存