查看原文
其他

李凯等 | 高校智能问答平台的建设与应用研究——以华中科技大学为例

李凯 秦楠 等 现代教育技术杂志 2024-02-05

摘要:智能化建设已成为高校“十四五”信息规划的发展重点,各高校纷纷利用智能问答平台建设的契机来实现教育智能化,但在建设过程中存在部门协调成本高、知识学习难度大、运用场景繁杂、后期运维困难等问题。在此背景下,文章首先从技术与业务两个层面分析了高校智能问答平台建设面临的挑战,然后重点介绍了华中科技大学建设智能问答平台时采取的“统一建设、统一安全、统一学习、统一监控、统一服务”策略与具体思路,最后介绍了高校智能问答平台常见的服务应用和华中科技大学的智能问答实践效果。高校智能问答平台的建设与应用,可从根本上解决知识库建立、运维、安全等多个维度的问题,实现业务查询便捷化、咨询渠道官方化、问答效果智能化、业务覆盖全校化,并指导其他高校智能化问答的实践。

关键词:智能问答;知识库;知识学习;平台建设

智能问答起源于Turing[1]在20世纪50年代提出的“智能机器”概念,是指通过智能化的人机交互让用户快速从海量信息中获取有效信息。智能问答兴起后,其从以知识模式匹配技术为代表的lunar问答系统[2]、以信息检索技术为代表的Mmasque问答系统[3],发展为以自然语言提问融合大数据、深度学习技术为代表的智能问答体系[4]。随着人工智能技术的发展,智能问答的应用已涉及知识的表达、知识的搜索、自然语言的处理、知识图谱的绘制等多个领域,其应用的本质是通过智能化的人机交互让用户快速地从海量信息中获取有效信息[5]。2017年,《国务院关于印发新一代人工智能发展规划的通知》明确提出“智能+教育”的发展方向[6],其中智能问答平台构建是实现教育智能化的典型应用。但是,目前高校的智能化问答应用服务基本处于空白状态。基于此,本研究聚焦于在高校背景下建设智能问答平台,从教职工和学生的实际问题出发,利用信息化手段解决师生在科研、学习中的问题,并站在全局高度以大平台建设为目标,打通教学咨询、业务咨询、专业咨询等多个维度的知识库,整合学校各领域碎片化信息数据,以期实现全校在知识结构上保持一致性、知识收集上具备权威性、知识算法运用上具备扩展性。


一 高校智能问答平台建设面临的挑战

目前,国内智能问答平台的构建多从业务的垂直领域展开,这导致平台技术选择缺乏灵活性,同时使多业务场景构建存在很大的局限性,所以高校建设智能问答平台要从技术与业务两个层面进行分析:①从技术层面来说,智能问答是计算机通过对问答的文本表达和语义分析,自动回复用户的问题[7]。目前,智能问答主要分为基于FAQ的问答、基于自然语言的问答、基于知识图谱的问答三种。其中,基于FAQ的问答是通过计算提问者的问题向量和知识库中问题向量的相似度,得到相应问题的回答[8],这类问答适用于单轮对话场景;基于自然语言的问答主要分为结构化文本的问答和非结构化文本的问答[9],这类问答适用于多轮对话场景;而基于知识图谱的问答由Google提出,是一种基于语义网络结构的知识库[10],这类问答适用于推理性场景问答。②从业务层面来说,智能问答平台建设面临一些问题,主要有技术学习成本高、缺乏专业团队运维,资源统筹难度大、缺乏制度保证,业务梳理复杂度高、问答未标准化等。


综上分析,本研究认为在技术层面,问答技术方案的选择应依据“按需选择、分类使用”原则,结合高校实际需求和各种技术优势,根据问答类型与场景分类来决定技术方案。以华中科技大学为例,在智能问答平台的运用过程中,该校利用知识图谱技术收集知识并建立知识之间的逻辑关系,从而完成了复杂场景的问答创建;同时,该校以基于FAQ的问答、基于自然语言的问答作为技术辅助,构建了简单问答场景。而在业务层面,智能问答平台要制度先行,做好顶层设计,加强各单位的业务联动,形成知识库一体化管理的运维模式。在高校,知识库建设要以院系为单位申请,通过标准化模板对业务进行梳理导入,同时根据业务需求对问答类型进行分类并建立问答场景,由专业技术团队针对问答场景建立模型、调整参数,实现业务查询的便捷化、咨询渠道的官方化、统计分析的全局化、问答效果的智能化、业务覆盖的全校化。


二 高校智能问答平台的建设策略与思路

为了解高校在智能问答领域建设所面临的问题及其发展趋势,本研究通过问卷调查形式,从部署形式、服务对象、知识集体量、业务对接四个维度调研了包括清华大学、复旦大学在内的10所高校的智能问答建设情况,如表1所示。各高校普遍反映将在“十四五”期间以建设高校知识库为目标,以大平台建设为出发点,结合学校的实际特点,在教学、业务咨询、知识管理等多个维度实现“线上”智能化。通过分析问卷调查内容,本研究发现高校智能问答平台的私有化部署将是未来趋势,因为私有化部署一方面可保证高校自有知识体系的安全性,另一方面可为其它业务部门进行知识共享提供对接渠道。


表1  10所高校智能问答调研表


基于上述分析,华中科技大学从用户角度出发,以“便捷性、智能化、大融合”为设计理念构建高校智能问答平台。其中,“便捷性”是指从用户提出问题到获取答案的过程实现全流程一站式服务;“智能化”体现为通过问答平台一体化建设实现多轮问答上下文会话的识别与推理,具备推理性场景问答的构建条件,且对单轮问答的回复有较高的准确度;而“大融合”是指通过现有信息化基础平台,整合科研、人事、财务、医疗等维度的业务数据,供智能问答平台对口业务部门使用,实现数据层面的共享。为统筹管理全校问答业务,华中科技大学采取“五个统一”策略(统一建设、统一安全、统一学习、统一监控、统一服务),以实现整个问答业务体系的大平台建设,为师生提供多业务场景的咨询问答服务。智能问答平台业务流程如图1所示。


图1  智能问答平台业务流程


1 统一学习

统一学习是指通过对算法模型集中、专业地进行统一管理与建设,来降低二级单位管理者的学习成本,同时可以实现针对不同问答场景动态调整问答算法的目的。统一学习的核心是对问答过程中使用的技术进行统筹管理,按照模块化的思路,智能问答平台在技术上分为基础层、数据层、AI能力层、计算层与展示层。其中,基础层是服务器资源和存储资源的集合;数据层是对文件系统、数据库资源进行管理,并对其它对接业务系统的业务数据进行结构化存储;AI能力层将智能学习用到的分词算法、聚类分析算法等进行模型集成,方便管理员针对不同场景选择不同的模型,从而通过调整模型参数寻求最优解决方案,其本质是模型算法的集合;计算层将问题向量化后,对问题进行去噪、降维,通过计算问题的相似度进行问题聚类;展示层则对智能学习结果进行前端反馈。


问答数据学习是智能问答平台的一个关键核心,在技术体系上属于AI能力层,由于问答数据学习是一个专业性很强的过程,故平台基于“专业人做专业事”的思路,对问答数据策略的调参与调优采取统一由技术单位网络与计算中心负责的方式。对于未知问题和相似问题的处理则需要各业务单位管理员协同参与,构建问答学习的逻辑闭环。


按照业务逻辑,问答数据学习可分为:①聚类学习,主要用于不同用户针对同一业务不同问法的学习,即针对相似问题的聚类学习。具体来说,聚类学习是通过收集用户提问方式和同一问题的不同问法,自动分析关联或归类同一答案所对应的不同问法,并由各业务单位管理员审核添加进知识库中。②知识库学习,是在技术层面通过接入专业知识库来丰富知识语料库,另外还可以通过自我学习的功能,将服务咨询的经验不断积累到知识库中,这样所有知识学习的中间过程均有记录,由平台管理员统一根据学习记录信息来决定是否保留学习结果,从而实现知识库自身的优化。③未知问题学习,在业务层面分为咨询服务与知识点答疑两类。其中,在咨询服务层面,如果用户咨询的问题不在知识库范围之内,该问题将被当作未知问题处理;在知识点答疑层面,如果学生针对课堂的提问不在教学知识库中,该问题也将被当作未知问题处理。对于未知问题的处理是对已有问答知识库的补充与优化,相当于一个正反馈机制,既是对基础知识库的补充,也可通过对未知问题的记录,为管理员后期优化知识库提供数据支撑。


2 统一建设

统一建设是由学校统筹对平台进行搭建与维护,同时对全校知识库进行一体化建设与管理。


(1)平台级建设

平台级建设是指站在学校层面,对整体的管理体系和技术栈进行管控与把握,通过不断优化顶层设计,协同各单位发挥问答业务的内在能动性,更好地为师生提供优质服务[11][12]。具体来说,平台级建设包括在制度上进行规范管理和在技术上形成统一模型:


①在管理层面上,智能问答平台按照“统一规划、分级管理、各负其责”的原则建设和管理知识库,一方面学校在顶层设计上确保二级单位不会重复建设;另一方面从源头上确保知识来源于官方渠道,并统筹各二级单位对知识库进行一体化管理与维护。


②在模型层面上,智能问答平台离不开数据模型、管理模型和呈现模型的支撑。其中,数据模型提供高校基础业务数据,供知识库建设时选择使用;管理模型对基础业务数据进行增量同步与数据分类;呈现模型则针对不同角色,提供不同的交互方式。


(2)基础知识库建设

基础知识库建设是高校智能问答平台建设的重点。根据高校业务特点,基础知识库建设的内容一般包括教学知识库、业务知识库和专业知识库的建设。


①教学知识库。高校是师生进行科研、学习的重要场所,可通过建立教学知识库来满足师生日常教学的需要。在架构层面,教学知识库一般采用“院系—学科—课程”三层结构进行构建。在管理层面,教学知识库多采用“N+1”管理模式,其中“1”为各教学单位的教务员,负责对学院公共基础课知识进行收集与维护;“N”为各课程的教师,负责对课程的常见问题、课程知识点进行汇总与管理。而在运维层面,为了方便用户对知识进行查询与管理,教学知识库多采用“一问一答”模式,从源头上规定知识的类型与结构,方便教学知识的批量导入与处理。


②业务知识库。业务知识库主要是对涉及各个业务归口单位的知识进行汇总。业务知识汇总一般采用“核数据、定类型、后导入”的模式,即首先按照业务单位需求对问答数据进行总结与提炼;然后对问答数据进行分类,确定问答数据是属于单轮问答、多轮问答、场景式问答、查询式问答还是富文本问答;最后将问答数据按照单位进行分批导入。


③专业知识库。专业知识库泛指针对专业性、业务性较强的特殊领域所建立的知识库,这类知识库建立的基本条件是需要有业务专业人员参与全流程,包括进行知识数据校对与测试。高校要建立的专业知识库主要有两类:一类是医疗类知识库,另一类是财务类知识库。专业知识库的建立多采取“一主体、二校对、三审核、四反馈”的机制,即先由单位管理者提出问答知识构建申请,并依据问答类型进行问题的梳理与校对,然后由业务专业人员将问答审核汇总入库,最后建立用户与管理者的反馈机制,以实时根据用户需求调整、优化问答策略。


3 统一服务

统一服务的根本是充分利用问答交互数据,打通高校各业务系统的数据壁垒,有效发挥数据价值,为管理决策提供服务。


(1)建立业务数据整合体系,发挥高校信息化优势

目前,高校信息化建设大多以各业务方为主体,很多数据都是反复填报,并没有被有效利用形成经验知识集。经验知识集的构建,通常遵循高校“一张表”平台业务数据“收集一次,重复使用”的设计思路[15][16]。以智能问答平台建设为契机,整合科研、人事、设备仪器等业务数据,汇聚于智能问答平台中间库,当业务单位建立知识库时,就可以直接将中间库中对应的业务数据推送给对应的单位供其选择使用,故免去了大量问答数据重复录入的工作,有助于实现问答数据的整合与复用,并提升知识库创建和发布的效率。


(2)建立问答数据分析体系,发挥问答数据价值

目前,高校咨询普遍使用电话、QQ等传统媒介,导致用户的提问不能通过统一途径进行有效汇集与知识沉淀。建立问答数据分析体系,采用“收集+分类+标签”模式对用户问题进行处理,对智能问答平台的问答数据先按照业务属性进行小类划分,再依据业务单位进行大类划分。问题标签采取人工打标签的方式,对每个问题进行标签化处理,相当于为问题附上属性值,一个问题可以含有多个属性值,那么问答数据分析体系就可以从纵向的单位属性和横向的业务属性对用户关心度高、咨询热度高的问题进行分析,从而给各个单位的决策者提供宏观层面的数据,以助其更加了解本单位的业务问题,进而改进服务质量,为深化改革提供数据支持。


4 统一安全

统一安全是指保障知识库的建设安全,并确保知识库在实际场景使用过程中的交互安全。


(1)知识库安全

知识库安全实质是知识安全与知识访问安全的合集:①为了确保知识安全,知识库在业务层面上做了知识隔离,使各业务单位只能对本单位的知识进行查看与维护。②智能问答平台在知识访问安全方面对角色进行划分,针对不同角色关联不同的知识库,即可根据登录身份来决定可以提问的范围,从而避免敏感知识的泄露。


(2)知识库交互安全

知识库交互安全分为两个部分:①知识库发布安全。在管理层面上知识库发布采取两级审核机制,第一级审核由各单位管理者进行把控;第二级审核由平台管理员进行核对,从流程上确保问答内容的安全性。在技术层面上知识库发布采用敏感词库校验规则,待发布的知识集合都需要通过敏感词库进行过滤,被核定为敏感词的知识集将被退回给知识集的发布者重新进行检查与修正。②知识问答过程安全,即采取先过滤后处理的方式,当提问者的问题涉及敏感词时,智能问答平台将对敏感内容自动进行过滤并做隐藏处理,以实时保证问答过程的安全。


(3)运行环境安全

运行环境安全是指通过硬件层面的系统防火墙与网络层面的访问控制来保证整个平台的运行稳定。通过系统防火墙,可以对典型的攻击进行有效拦截;而通过网络来控制校内、校外访问权限,可以实现整个平台的运行安全。


5 统一监控

统一监控从硬件、软件、服务等多个维度对智能问答平台进行一体化监管,释放管理压力,降低运维成本。


(1)平台运维

智能问答平台运维采用“一体N翼”模式:“一体”是以技术部门为主体,在技术层面保证平台硬件、软件、对外服务的正常运行;“N翼”是以各业务单位为主体,各提问个体为辅助,在业务层面对知识集进行管理与维护,在管理层面保证从知识库建设到发布上线实行全流程规范化操作,包括渠道申请、知识库建设、子用户权限分配管理等。


(2)动态监控

在信息化高速发展的背景下,监控不仅仅是传统意义上的硬件设备监控,还有数据监控与服务监控[13][14]。动态监控是指对知识库的运维情况、安全情况、访问情况进行实时监控与反馈:①在运维层面,通过对平台硬件资源、软件服务的实时监测,可以提升知识库的安全防护能力和知识服务质量,从而建立长效的安全保障机制,这样运维人员可以快速掌握平台的运行状态,迅速定位故障根源。②在安全层面,智能问答平台可实时监控知识交互过程的安全情况,保障学校知识库的健康、稳定运行。③在访问层面,可视化展示智能问答平台的所有数据,一方面可以让管理员对所属单位知识库的运维做到心中有数,另一方面学校相关负责人可以站在全局的高度查看学校整个知识库信息化资产的建设成果。


(3)监控反馈

师生咨询问题的准确度直接影响咨询用户的满意度。为获得有效的问答监管效果,智能问答平台采用两级反馈机制:第一级反馈是基于问题的反馈,这样可以有效形成从提问者到管理员的闭环管理,即在业务层面上,各单位管理员根据反馈的问题实时掌握用户提问的习惯,并通过对未知问题的反馈和用户提问习惯来对问答内容进行优化,如增加相似问、丰富问答知识库等;第二级反馈是基于整个问答场景的反馈,即在技术层面上,平台管理员可以通过问答满意度对问答策略与算法进行优化,如问题权重设置、同义词替换、分词算法调整等,来提高问答的准确度。具体的问答反馈机制流程如图2所示,包括:首先对问答知识库进行初始化,然后根据提问者问题进行问答类型的分类,最后根据问题反馈问答结果。问答结果反馈在用户层面是直接显示问答结果,在二级单位管理员层面可以根据未知问题和用户提问习惯来对知识库进行内容方面的优化,在管理员层面可以根据整个问答会话对知识库进行算法方面的优化。


图2  问答反馈机制流程


华中科技大学采取“五个统一”策略建设智能问答平台,解决了问答数据从产生、存储、交互、使用到运维全生命周期的管理,实现了服务便捷性、管理智能化、数据可视化的目标。


三 高校智能问答平台

常见的服务应用与实践效果

智能问答平台建设的目的是为全校各单位提供服务,需根据各单位的属性,基于不同使用场景建立不同类别的知识库。


(1)服务应用

按照业务的不同,高校智能问答平台提供的服务主要分为面向业务的咨询服务、面向教学的知识交互服务和面向专业的查询服务,其具体的服务应用流程如图3所示。

图3  高校智能问答平台常见的服务应用流程


面向业务的咨询服务有三种表现形式:①纯线上模式,即直接与网站、公众号进行对接,目前二级单位均采取此种模式为用户提供咨询服务;②“线上+线下”模式,即线上问答与线下办事机器人相结合,适用于高校师生服务中心,目前西安交通大学通过这种模式探索业务咨询服务;③“线上+人工”模式,即当线上业务咨询不能满足用户需要时转接到人工服务,目前高校如后勤部门、采购中心等事务性咨询频繁的单位均采取此种模式。此外,面向通用知识的咨询和面向聊天的交互是作为一个标准化组件服务于智能问答平台的。


面向专业的查询服务在高校的重点应用方向有两个:①为财务处提供财务报账咨询;②为高校附属医疗机构提供医疗服务咨询。此类服务应用首先需要在专业领域进行业务层面的分类,其次需要将问答数据与对应单位的业务系统(如财务处的财务系统、附属医院的HIS系统)做数据层面的清理和对接,最后所有专业知识需要通过专业人员的审核才能入库使用。


面向教学的知识交互服务充分利用线上教学资源,以学院为单位、教师为主体、课程为依托建立教学知识库。目前,教学类问答一般和线上教学软件进行整合使用,以华中科技大学为例,在应用方面,学校将智能问答平台与其“微助教”打通进行联动;在数据方面,学校汇聚多个基础教学数据库为教学知识库的建立提供数据支撑;在实时反馈方面,教师通过“微助教”将学生的提问直接同步至智能问答平台的未知问题知识库,供教师针对课堂问题汇总回答并入库;在经验知识方面,教师在课前对课程知识难点总结入库供学生查询;在资源知识方面,智能问答平台供教师分享课件、视频等多媒体资源,并通过问答交互形式供学生下载学习。


(2)实践效果

截至2021年12月,华中科技大学智能问答通过“大平台”建设整合了包含院系、职能部门等在内的10个业务单位;通过“一体化”管理处理了20项师生关心的服务事项,并建立起了问答数据监控体系;通过“集中化”运维累计整理业务问答数据2114条,为5.7万师生提供了服务。本研究从业务范围和问答类型两个维度,呈现了华中科技大学的智能问答实践效果,如表2所示。


表2  华中科技大学的智能问答实践效果


四 结语

华中科技大学建设智能问答平台时采取的“统一建设、统一安全、统一学习、统一监控、统一服务”策略和具体思路,推动了知识库统一管理、问答模型统一建设、问答交互统一服务、问答安全统筹监控的实现。随着教育智能化的不断推进,未来的高校智能问答平台将在教育方面深度融合教学,利用语音识别与可视化3D等辅助技术,构建虚拟仿真3D的问答业务场景;在知识库建设方面,将针对高校的共性知识,通过接口、数据推送等工具实现其在校际之间的调用与共享;在问答模型建设方面,将采用组件化形式进行算法模型部署,增加问答模型的扩展性。


参考文献

[1]Turing A M. Computing machinery and intelligence[J]. Mind, 1950,(236):433-460.

[2]Zettlemoyer L S, Collins M. Learning to map sentences to logical form: Structured classification with probabilistic categorial grammars[A]. Conference on Uncertainty in Artificial Intelligence[C]. NL: Elsevier B.V, 2005:658-666.

[3]刘康,张元哲,纪国良,等.基于表示学习的知识库问答研究进展与展望[J].自动化学报,2016,(6):807-818.

[4]Etzioni O. Search needs a shake-up[J]. Nature, 2011,(7358):25-26.

[5]Abacha A B, Zweigenbaum P. MEANS: A medical question-answering system combining NLP techniques and semantic Web technologies[J]. Information Processing & Management, 2015,(5):570-594.

[6]国务院.国务院关于印发新一代人工智能发展规划的通知[OL].

[7]付燕,辛茹.基于混合神经网络的智能问答算法[J].计算机工程与设计,2020,(5):1434-1438.

[8]秦兵,刘挺,王洋,等.基于常问问题集的中文问答系统研究[J].哈尔滨工业大学学报,2003,(10):1179-1182.

[9]陶永芹.专业领域智能问答系统设计与实现[J].计算机应用与软件,2018,(5):95-101.

[10]王智悦,于清,王楠,等.基于知识图谱的智能问答研究综述[J].计算机工程与应用,2020,(23):1-11.

[11]蔡榆榕,郭佳佳.教育信息化2.0背景下高校应用服务平台建设[J].信息技术与信息化,2021,(4):212-214、218.

[12]陆鑫,周明天.数字化校园统一应用支撑平台系统研究与设计[J].计算机应用研究,2007,(12):279-281.

[13]俞春,李艳霞,金毳,等.数字校园数据监控平台的研究与应用[J].计算机科学,2012,(S2):215-218.

[14]赵方,李兰英.基于业务流程的Web应用监控系统研究[J].计算机工程,2013,(2):41-45.

[15]郝志杰,李莉,荣娟.数据治理在解决“一张表”问题中的实践[J].实验室研究与探索,2019,(12):261-265、307.

[16]解攀科,李鸿飞,郭伟秀,等.高校一张表数据管理系统设计与实现[J].实验技术与管理,2020,(4):57-62.


继续滑动看下一个

李凯等 | 高校智能问答平台的建设与应用研究——以华中科技大学为例

李凯 秦楠 等 现代教育技术杂志
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存