AI Challenger 2018 文本挖掘类竞赛相关代码及解决方案汇总
AI Challenger 2018 已近尾声,各赛道top选手已经结束了代码核验,正在准备12月18、19日 AI Challenger 决赛答辩材料的路上。在本年度 AI Challenger 即将尘埃落定之时,这里整理一批目前网上可见的文本挖掘相关赛道的解决方案和代码,欢迎补充,同时感谢github,感谢各位开源的同学。
细粒度用户评论情感分析
在线评论的细粒度情感分析对于深刻理解商家和用户、挖掘用户情感等方面有至关重要的价值,并且在互联网行业有极其广泛的应用,主要用于个性化推荐、智能搜索、产品反馈、业务安全等。本次比赛我们提供了一个高质量的海量数据集,共包含6大类20个细粒度要素的情感倾向。参赛人员需根据标注的细粒度要素的情感倾向建立算法,对用户评论进行情感挖掘,组委将通过计算参赛者提交预测值和场景真实值之间的误差确定预测正确率,评估所提交的预测算法。
貌似是最火爆的一个赛道,Testa 提交队伍有468支,详细介绍请参考该赛道主页:
https://challenger.ai/competition/fsauor2018
相关代码或解决方案:
1. 官方baseline,基于SVM: sentiment_analysis2018_baseline
https://github.com/AIChallenger/AI_Challenger_2018/tree/master/Baselines/sentiment_analysis2018_baseline
2. 基于fastText的baseline: AI Challenger 2018 Sentiment Analysis Baseline with fastText
2.1 https://github.com/panyang/fastText-for-AI-Challenger-Sentiment-Analysis
2.2 文章:AI Challenger 2018 细粒度用户评论情感分析 fastText Baseline
3. 基于 SVM 的细粒度情感分析:
https://github.com/scruel/sentiment_analysis
4. 第16名解决方案:
https://github.com/xueyouluo/fsauor2018
5. 第17名解决方案:https://github.com/BigHeartC/Al_challenger_2018_sentiment_analysis
6. 基于Bert的尝试:
https://github.com/brightmart/sentiment_analysis_fine_grain
7. ai challenger Competitions 1:
Fine-grained Sentiment Analysis of User Reviews:
https://github.com/ShawnXiha/Fine-grained-Sentiment-Analysis-of-User-Reviews
8. 细粒度用户评论情感分析 (0.70201):
https://github.com/pengshuang/AI-Comp
8.1 相关文章1:https://zhuanlan.zhihu.com/p/47207009
8.2 相关文章2:https://zhuanlan.zhihu.com/p/47278559
9. AI Challenger 细粒度用户评论情感分析线上0.62:
https://zhuanlan.zhihu.com/p/44857751
观点型问题阅读理解
机器阅读理解涉及信息检索、文本匹配、语言理解、语义推理等不同层次的技术,对于复杂问题的处理甚至需要结合世界知识与常识知识,极具挑战。为了进一步推动机器阅读理解领域的技术发展,为研究者提供学术交流和模型评测的基准,本次竞赛将重点针对阅读理解中较为复杂的,需要利用整篇文章中多个句子的信息进行综合才能得到正确答案的观点型问题开展评测。本次竞赛将利用准确率进行评分,作为主要评价指标。组委会将通过客观指标,并结合答辩表现,综合评估参赛者的算法模型。
更多信息请参考官方主页:
https://challenger.ai/competition/oqmrc2018
相关代码或解决方案:
1. 官方baseline: 基于pytorch实现论文《Multiway Attention Networks for Modeling Sentence Pairs》
opinion_questions_machine_reading_comprehension2018_baseline
https://github.com/AIChallenger/AI_Challenger_2018/tree/master/Baselines/opinion_questions_machine_reading_comprehension2018_baseline
2. 将baseline迁移到了python 3.6.6,修正了错误,改变参数最高accuracy为 0.70370:
https://github.com/dreamnotover/oqmrc2018
3. 第18名解决方案:
https://github.com/PanXiebit/aic_rc
4. Testa 得分 73.2:
https://github.com/antdlx/aic18_rc
5. ai challenger 2018 's final code:
https://github.com/NoneWait/ai_challenge_2018_mrc
6. 基于capsule的观点型阅读理解模型:
https://github.com/freefuiiismyname/capsule-mrc
7. AI Challenger 2018 阅读理解赛道代码分享:https://github.com/renjunxiang/oqmrc_2018
8. 奇点机智分享的可以在Testa上超越第一的BERT方案:
9. RCZoo: 从Testa棒的第22名到Testb棒的第2名,作者用“RCZoo@https://github.com/lixinsu/RCZoo” 作为战队名打榜,不过RCZoo更像是一个通用的深度学习阅读理解、问答系统解决方案和工具箱,至于在该项赛事中的细节需要作者来揭晓:
Question answering, reading comprehension toolkit:
https://github.com/lixinsu/RCZoo
英中文本机器翻译
英中机器文本翻译作为此次比赛的任务之一,目标是评测各个团队机器翻译的能力。本次机器翻译语言方向为英文到中文。测试文本为口语领域数据。参赛队伍需要根据评测方提供的数据训练机器翻译系统,可以自由的选择机器翻译技术。例如,基于规则的翻译技术、统计机器翻译及神经网络机器翻译等。本次竞赛将利用机器翻译的客观考核指标(BLEU、NIST score、TER)进行评分,BLEU得分会作为主要的机器评价指标。组委会将通过客观指标,并结合答辩表现,综合评估参赛者的算法模型。
更多请参考该赛道主页:
https://challenger.ai/competition/ect2018
相关代码或解决方案:
1. 官方baseline: 基于tensor2tensor和transformer的解决方案,估计也是本赛道大多数选手的方案,不同之处在于细节和参数的处理:
https://github.com/AIChallenger/AI_Challenger_2018/tree/master/Baselines/english_chinese_machine_translation_baseline
2. TestB第10名同学的分享:
AI Challenger_2018英中文本机器翻译_参赛小结
https://zhuanlan.zhihu.com/p/50153808
3. Document-Transformer
这次英中机器翻译比赛提供了上下文(Document)语料,我一直没有找到合适的解决方案,直到看到了清华、搜狗和苏州大学近期刚刚出品的这个论文和工具包,也许这才是本次比赛的一个解决秘钥,感兴趣的同学可以一试:
代码:https://github.com/Glaceon31/Document-Transformer
论文:Improving the Transformer Translation Model with Document-Level Context
持续更新,欢迎大家补充,也欢迎关注我们的微信公众号:AINLP