【精彩回顾】大语言模型与智慧图书馆服务——“智慧图书馆技术应用讲座”2023年第6期(总第22期)
7月19日上午10点,2023年第6期(总第22期)“智慧图书馆技术应用讲座”在线上成功举办。本期讲座主题是“大语言模型与智慧图书馆服务”,由上海图书馆系统网络中心数据分析师蔡丹丹、网络工程师王诗卉、资深研发工程师周纲担任讲座嘉宾,报告标题分别为《GPT领域技术应用对图书馆业务的影响》、《垂直领域的模型微调及应用开发》、《和大模型“好好说话”——GPT的提示词工程》。上海图书馆刘炜副馆长也于现场与三位老师一起和大家进行交流互动。线上总计近2000人参与了本次讲座。
讲座中,蔡丹丹老师结合演示向大家介绍了大语言模型领域相关概念、工具使用,以及谈了对图书馆业务的影响。王诗卉老师对垂直领域微调的意义、原理、方法,应用做了科普性的介绍。周纲老师从实践角度出发,分享了提示词工程的研究心得。以大语言模型为基础的生成式AI作为通用人工智能的雏形,正在对我们的生活、工作产生深刻影响。图书馆行业面临着新的发展机遇和挑战。
交流互动
在讲座的交流互动环节,上海图书馆刘炜副馆长也来到现场与线上观众互动。线上观众提问踊跃,部分精彩内容摘记如下。
问:向量库是如何搭建的?
蔡丹丹:向量库的搭建现在有很多种实现方法。大体原理是相同的。首先对长文本进行分割,然后将分割后的文本进行向量化。比较推荐的一个工具是GPT的Embedding API,基于该API可以实现效果很好的向量化。本地化的实现方法如使用LangChain的工具库调用其中不同的工具来实现。存储有2个主要方法是:线上的数据库Pinecone、本地化数据库Chroma,基于这些工具基本上可以组成一个向量数据库。
问:在图书馆中哪些数据可以作为微调的语料?
王诗卉:可从两点出发考虑,第一考虑图书馆现有的数据积累,第二考虑哪些数据适合训练和微调大模型。从这两点出发寻找交集。例如读者咨询相关的数据。只要对读者问答数据稍加转换处理,就可以给大模型来做指令微调。另外图书馆的值班文档也可以处理为问答对形式,增加大模型解答问题的能力。另外图书馆有一些长文本的积淀,可以探索其他的训练框架,通过增量预训练的方式扩充大模型的行业领域知识。
问:可否用领域本体(概念层+实体层)数据来丰富训练大模型,从而实现垂直领域的人工智能问答?
蔡丹丹:领域本体与知识图谱,是基于人类对语义的理解,是用人类逻辑对数据进行标引。从大模型的训练方面来看是有助力的,如果要实现人工智能问答,除了训练的数据以外,模型本身的能力也是重要的一点。
问:提示词的判断标准是什么?最佳最精准的提示词的标准是什么?
蔡丹丹:用户输入的任何一句话,它都相当于是对模型的一个提示词。
周纲:提示词没有最好只有更好。对于同样的提示词,不同的模型出来的效果也可能不一样。如果是通过应用与大模型进行交互,这取决于API交互的效果,用户不用直接考虑提示词的问题。
问:在垂直领域的大模型应用上上海图书馆做了哪些工作?
刘炜:对于上海图书馆来说目前还是以学习探索为主。上海图书馆的各个应用部门都开展了人工智能2.0的学习与跟踪,观察其对图书馆行业所产生的影响。上图也搭建了实验环境,促进各部门间的互动交流。在云瀚社区也希望通过云瀚联盟成员合作进行相应模块的研发与推进。目前考虑这一轮技术浪潮要有新的AI模块加入到云瀚平台中。
问:在编目的应用比如预测图书分类上有没有什么模型?
刘炜:将来的愿景,也许未来整个行业会用新的技术把所有的传统模块应用重新改造一遍。AI目前发展突飞猛进,每天都有新东西,对编目是质的飞跃还是锦上添花,拭目以待。
问:垂直领域如何控制回复内容的真实性?
刘炜:大模型确实很难克服“幻觉”问题,但也有一些技巧做些避免。在应用层面建议将面向读者和面向馆员的功能分开。例如其中一个路径通过知识库的方式,只用大模型产生语句,不用它生成事实。这种方式依赖于本地向量库。还可以通过Prompt方式来加以限定。
扫描上方二维码进下载讲座课件
END
相关 · 回顾
“智慧图书馆技术应用讲座”是由智慧图书馆技术应用联盟月度举办的讲座品牌,讲座内容涉及智慧图书馆相关知识、下一代图书馆服务平台理念、产品技术、研发进展等,并不定期推出主题系列。讲座主要面向广大图书馆同行、智慧图书馆建设者和对相关技术感兴趣的朋友们。更多讲座精彩内容,您可以关注微信公众号“文化和旅游研究上海图书馆基地”、微信视频号“上海图书馆基地”、哔哩哔哩或喜马拉雅“图书馆服务平台CALSP”账号收看或收听回放。
热忱欢迎您的参与和分享!
智慧图书馆技术应用联盟(筹)
联络电话:021-54565210
邮箱:calsp@libnet.sh.cn