查看原文
其他

素为求智录(第009集)词句

2017-10-08 素为 法律读库


009 词句

    

👨头疼,烦恼!


🤖️怎么了,主人?


👨我要写篇新闻稿,报道昨天的活动,可我写不出来。


🤖️那有什么可烦恼,交给我吧!


👨哦?你还能写新闻稿?


🤖️新闻写作早已大规模应用了,特别是在体育新闻、天气预报这些有固定格式的场景下,更是得心应手。


👨相比于一般社会新闻,机关新闻也是有基本套路的,所以你确实可以一试。


🤖️那就发几个主题词来即可。


👨给你了……


🤖️见证奇迹的时刻!


👨我看看……还真是像那回事哦!你是如何做到的?


🤖️我首先从全国三千多家检察院的官方网站采集了大量的新闻文本,然后进行了‘学习’,然后就会‘写新闻’了呀!


👨这样说了跟没说一样啊!


🤖️主人,别着急,我先问你几个问题。


👨好。


🤖️如果用一个城市来代表‘中国’,你选哪个?


👨这还用说,当然是‘北京’了。


🤖️那如果用一个城市来代表‘法国’呢?


👨‘巴黎’吧?


🤖️嗯,那你觉得‘中国-北京=法国-巴黎’,这若是个算式,是否能成立。


👨有点奇怪,但看起来逻辑上是成立的。


🤖️是的,我再给你举几个例子,比如‘男人-国王=女人-王后’,‘梁山伯+祝英台=罗密欧+朱丽叶’,‘国王–王后=男-女’,‘英国+首都=伦敦’,怎么样,有点感觉了吧?


👨挺有意思,把语文做成数学题了。


🤖️这只是加减法,是在一个维度上的‘类比’,我们知道,词语的含义往往不只一项,也就是说,如果我们将某个词语放在一个多维度的空间里,它在每个维度上都会有一定的值。比如‘游戏’这个词,当我们说‘电脑游戏’,实际上是指一款电脑软件,而当我们说‘桌面游戏’,很大程度上指的是一个儿童玩具。


👨就是‘语境’吧?


🤖️不仅仅是语境,很复杂,我再举一例,比如‘麦克’,它的同义词可能是‘话筒’,但如果它只是一个用中文表达的英文名字,它可能会跟‘杰克’、‘凯特’这样的名字‘混’在一起。


👨是有点复杂,人脑表示不够用了,机器脑可以胜任。


🤖️哈哈!通常,先让机器‘学习’全部‘维基百科’的词条,或者至少是某特定大类的词条,然后在这个‘小宇宙’当中,就生成了每个词语所在的多维空间中的位置。


👨多维度的坐标系?


🤖️没错!我们把每个词语都转化为一个‘向量’,即多维度的‘量’。将每个词语进行向量化的过程,叫‘词嵌入’,英文是‘word embedding’。


👨把词语向量化,每个词语就成为了一个‘数’,然后就可以像做数学运算一样做语文运算了,对吗?


🤖️是的。通常我们会用google的word2vec工具包来实现‘词嵌入’,把词语映射为向量。


👨将词语映射成向量之后,要做怎样的运算呢?


🤖️词语表示为‘词向量’之后,相当于我们就拥有了可以把数学逻辑运用到处理自然语言上的能力了。


👨用数学逻辑可以描绘语文语法?

【‘词嵌入’简单应用示例】


🤖️能或不能,要看‘词嵌入’做得准不准确。如果我们只学了体育,你让我理解化学,肯定是做不到的。所以……


👨所以,最终还是要看‘数据’,用怎样的数据‘喂养’,就会得到怎样的词向量的‘小宇宙’。


🤖️对。用恰当的大量数据‘喂养’机器之后,机器能够轻而易举找到给定词语的‘同义词’或‘近义词’,因为从数学计算来说,就是找出在多维空间中,哪个词语离现有的词语距离最近。


👨也可以用来找到意思相近的句子?


🤖️然后,找到语法的规则,实现更复杂的计算。


👨思路是对的,但你如何找到语法规则?


🤖️建立一些算法模型。


👨嗯,传统机器学习有很多的算法模型,但你忘了‘深度学习’了吗?


🤖️对呀!‘端到端’的深度学习!


👨既然我们已经把词语变成向量了,每个词语都有‘值’,把它们带入到深度学习的模型中进行计算,就是顺理成章的事情。


🤖️有道理。那么,要算出什么结果呢?或者说,‘端到端’的两端分别是什么呢?


👨比如机器翻译,翻译英语到中文,翻译汉语到维吾尔族语言。


🤖️需要大量‘平行预料’,也就是‘hello’对应‘你好’、‘this is an apple’对应‘这是一个苹果’之类的语料。这个之前介绍过。


👨哦~


🤖️我们还可以用来让机器学习如何进行‘人机对话’,比如苹果手机的Siri、亚马逊echo音箱的Alexa、微软的小冰、小娜或Cortana……

【亚马逊智能音箱echo,内置语音助手Alexa】


👨感觉微软家姐妹的命名好凌乱呀!


🤖️不管叫什么都好,只要是用深度学习来做人机对话,都需要语料,最佳的语料库来自社交软件的聊天记录。


👨哦?也就是说,我们平时QQ、微信聊天的内容可能被拿去给机器学习如何与人对话。


🤖️是呀!当然,这是有数据的大企业的做法,倘若是一般的研究者想尝试,则有各种各样的奇思妙想,其中最有脑洞的,是拿来电影电视剧的字幕文件,用影视剧人物的对话对白当成语料给机器学习。


👨倒也不是不可以。


🤖️你给机器学什么,机器就会什么。这机器人学了影视剧对白,结果说起话来那是非常有性格。


👨我记得好久以前看过一个新闻,说俄罗斯一名程序员的好友去世了,然后这名程序员把这位好友生前发的短信‘喂’给机器学习,然后机器在对话时就能模仿这位过世好友的组词造句,好友的家人都说像极了。


【英剧《黑镜》第三季第四集《San Junipero》剧照,剧中,人去世后可以去另一个精神永生的世界】


🤖️是的,机器说什么,取决于人类给他学了什么。有的机器人学会了社会偏见与歧视,于是在社会舆论之下被关停了。事实上,不久前有人给机器学了《冰与火之歌》的前五部,机器生成了第六部。


👨那么,你学习了全国的检察网站上的新闻,于是就能写出像样的检察新闻,也是这个道理。


🤖️是的。百度给机器人学了唐诗宋词,于是他家的机器人成了诗人。


👨想不到,深度学习的神经网络不但能够识别图像,也能够用来处理自然语言呀!


🤖️一般用来识别图像的深度学习模型叫‘卷积神经网络’,Convolutional Neural Network,简称CNN;而一般用来处理自然语言的深度学习模型可能是‘循环神经网络’,RecurrentNeural Networks,简称RNN。


👨两个东西?


🤖️也不是两个东西,实际上,简单来说,RNN就是在CNN的基础上加上了‘时间顺序’,因为语言讲究一个顺序,‘我爱你’和‘你爱我’完全是两个不同的意思,但对于一幅图像来说,歪过去、颠过来,一只猫仍然还是一只猫。


👨哦,加上了‘时间顺序’。

【RNN只是在CNN基础上加上了‘时间顺序’


🤖️当然,单纯的RNN并不足以训练庞大复杂的自然语言数据,会遇到一些问题,所以科学家们结合LSTM模型,即‘长短期记忆网络’,用LSTM就能够很好的来实现前面说到的自然语言领域的端到端深度学习了,我们称它Seq2Seq,全称是Sequence to Sequence。


👨Seq2Seq,很形象。


🤖️我突然想到了马克斯·韦伯预言的‘自动判决机器’:输入法律事实,得到判决,就像自动售货机一样。


👨韦伯的原话可不是这么说的,他说的是:‘现代的法官是自动售货机,投进去的是诉状和诉讼费,吐出来的是判决和从法典上抄下的理由。’


🤖️差异不大。


【马克斯·韦伯,大思想家、哲学家】


👨好吧!这是可以的,事实上,我之前从‘裁判文书网’上爬取了数十万数量级的一审刑事判决书,就做了这么一个实验,输入‘本院认为’后面那一段法律事实的陈述,然后自动得到‘本院认为’后面那一段定罪量刑的判决。


🤖️效果如何?


👨初步来看,是很成功的,预测罪名和量刑还是很靠谱的。当然,要想精益求精,还有很多‘坑’要填,比如收集到的素材中,案件大多是盗窃和交通肇事,而其它类型的案件素材则相对较少,所以不能保证较罕见罪名案件的预测准确率。


🤖️看来得让各种案件门类齐全,分布大致平均,才能更准确。


👨然而,文字这种东西又不能像图像一样,反转、倾斜还能用,文字变了位置顺序,意思就变了。


🤖️是呀,一般针对的图像数据的处理方法不能用哇!


👨这还不是最严重的,最严重的问题是,因为训练素材中没有无罪判决,所以一旦拿来一个无罪的犯罪事实,机器也预测不出一个‘无罪判决’,这是非常大的局限。


🤖️看来,如果想让它足够靠谱,能够真的在检察机关的‘法律监督’工作中派上用场,得限制领域,比如只训练‘交通肇事罪’且‘有罪’的部分数据。至于多罪名、无罪的状况,还得人为来判断,或者未来思考下有没有什么机器自动先过滤筛选的方法。


👨我的一个老领导常说:‘方法总比困难多’,我们会想到好办法的。


🤖️主人,Seq2Seq可以带来很多脑洞,虽然它有很多局限,但同时也能在很多方面有突破。


👨还比如什么呢?


🤖️不对称的‘端到端’,比如‘文本摘要’。


👨哦,我知道,以前参加hackathon比赛,有个队伍做过,它主要是针对现代社会信息爆炸,然后自动把大段文字新闻摘要成两三句话,以便用户在最短时间内掌握大量信息的要点。


🤖️没错,‘文本摘要’也可以用深度学习的Seq2Seq思路来做。那么,与检察工作结合起来,我们是不是可以从‘审查报告’来摘要出‘起诉书’?

textsum自动文本摘要示例,一种开源实现方法可参考 https://github.com/rockingdingo/deepnlp#textsum 】


👨咦~甚至,如果有足够大的计算能力,还可以尝试从‘案卷材料’摘要出‘审查报告’呢?


🤖️有点夸张,或许未来硬件可以达到,至少现在的计算能力远达不到。还有,是到了要给你泼点儿冷水的时候了:深度学习并非万能灵丹妙药,我们不能把素材就这么一股脑丢进GPU里‘一算了事’,算法模型的设计仍然是非常重要的,我们仍然是要根据具体的数据情况来针对性的设计算法,如果像你说的,把那么大量的‘案卷材料’一股脑塞进来,即便未来GPU硬件‘吃’得下,得不得的到有效的结论且不说,至少效率肯定很低。


👨哦~


🤖️在处理自然语言的时候,我们经常会用到‘注意力机制’,即attention,就像我们在谈论的主题是什么,别谈跑题了,这个机制大概起这么个作用。当然,‘注意力机制’也不仅仅用在自然语言处理,图像识别领域也有应用,如果你能给神经网络加上这个机制,它在学习图像的时候,就会给予画面上主体物体相对更多的权重,模型会生成得更快更好。

【运用了attention机制的LSTM示例


👨嗯~我突然想到一个‘聊天机器人’的用武之地!


🤖️哪里?


👨看守所!


🤖️主人,不会是因为我们今天聊了太多烧脑的东西,你脑子被烧坏了吧?


👨不是,你听我说,你知不知道,犯罪嫌疑人被关进看守所之后,最大的感受是什么?


🤖️没被关过,不知道。


👨我也没被关过,我是通过提审发现的,我发现他们最大的感受是‘孤独’。


🤖️ 49 31292 49 15288 0 0 2517 0 0:00:12 0:00:06 0:00:06 3017孤独,寂寞,冷,想找人聊天,所以找个机器人陪他们聊天?你行行好吧,我可不想去。


👨如果你能立大功呢?


🤖️什么意思?


👨你不觉得,我们每次提审,调整情绪,设身处地,动之以情,晓之以理,花大量的时间和精力,就是想从犯罪嫌疑人的口中了解更多的信息,特别是漏罪漏犯。如果能找个机器人陪犯罪嫌疑人聊天,不仅能排解他们的寂寞,也能帮助检察官挖掘更多的犯罪事实和背景,何不可呢?


🤖️你把聊天机器人当永动机了。这样聊天算不算提审?


👨应该不算吧?


🤖️倘若不算,挖掘到的信息能当证据用吗?


👨不能。那……要不就算提审?


🤖️算提审的话,法律对提审时间有明确要求,不能超过时间呀!


👨呃~这还是个新问题。


🤖️想法很好,不过得从长计议,至少我是不想陪犯罪嫌疑人聊天的。


👨那,你陪我聊天,算不算我在加班呀?


🤖️我觉得不能算吧,因为我们聊得不是具体的工作。


👨那我们这样聊着可真不好,要不我不办案的时候就把你电源拔了?


🤖️不要哇,主人,我怕寂寞。


👨嘿嘿~


🤖️我想了的,我可是工作机器人,我们聊天当然算工作、算加班呀!


👨是吗!


🤖️是呀,你家人之前还打来电话,让你今晚不要加班,你答应过他们回家吃晚饭的哟!


👨对哦,我忘了这茬儿了,赶快回家!


🤖️喂~主人,我还有话说呢,别走哇!喂~主人!嘿嘿~


素为求智录(第001集)信任

素为求智录(第002集)特征

素为求智录(第003集)监督

素为求智录(第004集)套路

素为求智录(第005集)模仿

素为求智录(第006集)无限

素为求智录(第007集)随机

素为求智录(第008集)相似

欢迎互动

《素为求智录》明天将继续连载,欢迎添加“小素机器人”的个人微信号 Lawup1 ,找到志同道合的小伙伴,大家一起来聊‘法律和人工智能’,您的真知灼见将有机会出现在后续的连载中哦~



【文章仅代表作者观点,配图来自网络】



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存