查看原文
其他

【硬核科技】探秘金融情报检索技术

大话小数 中国金融电脑+ 2022-12-13

验“金”室


金融情报检索属于垂直搜索引擎技术范畴,通过融合应用网络爬虫、NLP、机器学习、深度学习等多种智能技术,将海量文本信息序列化,面向金融类主题进行相关性分析,利用垂直搜索建立索引,为金融行业用户提供一站式情报检索服务。与谷歌、百度等通用搜索引擎不同,针对靶向用户和人群提供特定主题的垂直搜索,解决通用搜索存在的信息量大、搜索质量不高、信息价值密度低等问题。


一、网络爬虫技术


网络爬虫(Web Crawler)是一种网页自动化浏览技术,通过一定的规则策略,自动抓取并下载网页数据,再按照某些规则算法对数据源进行信息抽取,形成所需要的数据集。目前,应用最广的是Scrapy爬虫框架,基于python内核开发,由控制器、解析器和资源库三部分组成,提供多种类型爬虫基类并支持定制化开发,如BaseSpider、sitemap爬虫等。


图1 Scrapy爬虫框架


  • 调度器(Scheduler)负责接受引擎发过来的请求, 压入队列中, 分配线程,然后启动线程调用网络爬虫抓取网页的过程。


  • 下载器(Downloader)负责下载网页内容, 并将网页内容返回。


  • 解析器(Spiders)负责对网页的文本进行处理,抽取特殊HTML标签并进行数据分析。


  • 管道(Pipeline)负责处理爬虫从网页中抽取的实体,主要的功能是持久化实体、验证实体的有效性、清除垃圾信息。


二、自动文本摘要


自动文本摘要分为抽取式(extractive)和生成式(abstractive)两类,其中抽取式是通过提取文档中已存在的关键词、句子形成摘要,而生成式是通过建立抽象的语义表示,使用自然语言生成技术性文字摘要。


目前,最常用的是利用TextRank算法构建文本拓扑结构,基于关键词抽取和词句排序实现自动文本摘要(如图2所示)。TextRank算法是一种基于图模型的排序算法,属于无监督学习,通过将文本分割成若干组成单元,再利用投票机制对文本中的重要成分进行排序。


图2 自动文本摘要


自动文本摘要正是利用TextRank计算的重要性最高的若干句子自动构成文本摘要。


  1. 把所有文章整合成文本数据;

  2. 将文本分割成单句;

  3. 为每个句子转成词向量表示;

  4. 计算句子向量间的相似性并存放在矩阵中;

  5. 将相似矩阵转换为以句子为节点、相似性得分为边的图结构,用于句子的TextRank计算;

  6. 取计算结果排名最高的若干句子构成文本摘要。


三、自动文本分类


自动文本分类是对大量文本信息按照给定的分类体系,根据文字内容分配到指定类别中。目前,常用的分类方法主要是从原始文档中提取特征,然后按照指定分类器对文章进行分类,主要流程(如图3所示)如下:


  1. 文本预处理:对文本进行分词操作,去除停用词、低频词和标记信息。

  2. 特征提取:得到文本分词结果后,选择文本特征提取方法,并对特征进行选择,约简特征,尽量降低维度,减少后续计算量。

  3. 文本表示:选择合适的方法表示选择的特征,计算特征向量权值,作为分类的依据。

  4. 文本分类:选择合理的分类算法构造分类器,对文本进行分类。


图3 自动文本分类


说到分类器,浅层网络(fastText)作为一款开源的词向量计算和文本分类工具,模型架构和word2vec中的CBOW很相似,但fastText预测的是标签,而CBOW预测的是中间词。在文本分类任务中,fastText往往能取得和深度神经网络相媲美的精度,却在训练时间上比深度神经网络快多倍数量级,达到1分钟分类50多万句,同时不需要预训练好的词向量。


如图4所示,fastText输入多个单词X1-Xn及其n-gram特征,这些特征用来表示每篇文章,通过隐含层的计算,输出文章对应的类别标签。基于fastText分类实质上是将文章字词及n-gram向量叠加平均得到文档向量,再使用文档向量做Softmax多分类,这大幅缩短了模型训练和测试时间。


图4 fastText模型架构


四、热词发现技术


热词发现技术指利用关键词提取算法对全量文本提取高频关键词,做分类筛选并测算权重比例,生成词向量蔟并按热度大小排序。TF-IDF是一种关键词挖掘的常用算法,也可用于比较文本相似度。其中TF为词频,IDF为逆文档频率,反映一个单词在整篇文档集合中的分布情况,将两者相乘就得到了TF-IDF值,TF-IDF值越大代表词重要性越高。


对于关键词的热度计算,要综合考虑文章转发量、浏览量、评论数、文章发布时间等多重因素,通过建立热度损失函数,并支持自定义变量进行实时测算。如图5所示,对今年上半年金融类领域文章进行关键词挖掘,统计出238个热词,划分出十大种类,有关“疫情”“新基建”“小微金融”等热门词汇悉数统计到位,让人一目了然。


图5 热词向量蔟图


五、未来展望


未来,借助金融情报检索技术,商业银行可以更全面及时地获悉政策法规,了解行业发展动态,同时掌握金融同业产品信息、新闻动态及客户舆情动态,辅助银行自身经营决策,为客服营销和舆情风险监控提供有力的技术支撑。






更多精彩内容


FCC30+

长按左边二维码

关注我们不迷路



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存