其他

第十届中国R会议(上海) 暨华东地区数据科学会议须知

2017-11-30 统计之都 R语言中文社区

2017年,第十届中国R会议(上海)由华东师范大学统计学院、教育信息技术学系、数据科学与工程学院携手共同主办。本届会议的主题包括但不限机器学习、数据可视化、数据挖掘、量化金融、人工智能、深度学习、图像识别、对抗学习、智慧营销、智慧医疗、智慧教育、智慧城市、社交网络、平台搭建、网络爬虫、文本挖掘、知识图谱等。我们诚挚地邀请您参加会议


电子版会议手册请点击“阅读原文”查看下载。


一、会议时间及地点

2017年12月2日(周六)--12月3日(周日)

华东师范大学 中山北路校区

上海市普陀区中山北路3663号

(地铁3、4、13号线  金沙江路站)

12月2日:

思羣堂(大礼堂)

12月3日:

逸夫楼一楼报告厅(分会场1)

科学会堂二楼报告厅(分会场2)

科学会堂一楼教室(分会场3)


校内地图(华东师范大学中北校区)


二、会议议程

1.日程安排


2.会议议程

12月02日,思羣堂(大礼堂)


12月03日,逸夫楼一楼报告厅 


12月03日,科学会堂二楼报告厅  


12月03日,科学会堂一楼教室 


三、嘉宾介绍


海量轨迹数据分析

金澈清 华东师范大学

  主讲人简介  

金澈清,华东师范大学教授,博士生导师,中国计算机学会数据库专委会委员。研究兴趣主要包括数据流管理、基于位置的服务、不确定数据管理等。主持多项国家自然科学基金;已出版英文专著1部、参与翻译《海量数据分析前沿》和《Hadoop权威指南》(第2版和第3版);发表论文80余篇,其中多篇论文获得优秀论文奖励,包括《计算机学报》优秀论文奖、上海市计算机学会普适计算与嵌入式最佳论文奖等。曾获得霍英东教育基金会青年教师奖。

   报告摘要   

随着普适计算的发展与可定位电子设备的普及,在智慧城市等诸多应用中积累了海量轨迹信息。但是,如何高效分析海量轨迹数据却并不容易。聚类与离群点发现是重要的轨迹分析任务。本报告介绍课题组在本领域取得的一些研究进展,包括一种基于轨迹大数据的聚类分析,通过在内存之中构造概要数据结构来实时分析聚类结果;以及一种轨迹异常检测方法,通过特性分组可以高效地在轨迹流中检测离群点轨迹。


“斗转星移” – 使用小数据集

玩转深度学习

尹志 宁波工程学院

  主讲人简介  

浙江大学物理学博士,现就职于宁波工程学院理学院。云朵网络大数据技术总监。水过机器学习论文,做过数据挖掘项目,打过数据科学比赛。研究方向集中在推荐系统、文本挖掘等机器学习领域,对解决各类数据科学相关的实际问题尤感兴趣。

   报告摘要   

深度学习旋风席卷全球,在各类任务上碾压人类。为了不被机器抛弃,数据科学家们纷纷拥抱深度学习。然而巧妇难为无米之炊,没有大量数据支撑的深度学习往往不能发挥其功力之一二。本报告由此痛点入手,展示了使用小数据集玩转深度学习的方法技巧。从数据增强到结合预训练网络进行特征提取,再到精细调节预训练网络。让你习得“斗转星移”之绝技,借力打力,仅仅拥有小数据集也可以将深度学习为你所用。



有效市场假设下的统计套利

包思 华东师范大学

  主讲人简介  

华东师范大学在读博士研究生,师从国家首批“千人计划”特聘教授,长江学者郑伟安教授,主要研究方向为金融工程,主要研究基于平稳过程探讨股票及相关金融衍生品的统计套利方法。    

   报告摘要   

When a financial derivative can be traded consecutively and its terminal payoffs

can be adjusted into a stationary time series, there might be a statistical arbitrage

opportunity even under the efficient market hypothesis. We show particularly the

examples of the put options for the three major ETFs in the US market.


Processing.R: 

使用 R 语言实现新媒体艺术作品

高策 上海交通大学

  主讲人简介  

上海交通大学软件学院 2016 级研究生,研究方向为容器虚拟化和分布式系统。为 Docker, TiDB, runc 等开源项目贡献过代码。持续集成项目 cyclone 的维护者,Google Summer of Code 2017 学生参与者并将于近期担任 Google Code-in 2017 Mentor。曾为 Processing 基金会实现了 Processing 的 R 语言模式,使得 R 语言用户可以便捷地使用 Processing 的图形功能。

   报告摘要   

首先介绍数据可视化与新媒体艺术的概念,引起听众兴趣。其次介绍 Processing,主要通过 demo 的方式。然后介绍讲者为 Processing 做的工作:Processing 的 R 语言模式。以及讲者的个人介绍。然后是简单的对 Processing.R 实现的介绍,以及软件目前的一些限制,还有未来的愿景。

其中对讲者的工作的介绍,分为 2D & 3D 支持,Processing 库支持,R 包支持等多个方面。每个方面配 1-2 个 demo。其中也会涉及安装的方式以及文档的支持。


OTA三方房态预测模型

黎建辉 携程旅行网

  主讲人简介  

携程旅行网,数据智能部门,数据分析经理

致力于机器学习的方法解决携程酒店服务的业务问题。 

   报告摘要   

OTA三方房态预测模型对国内可售卖房型进行一个满房情况的预测,提前进行干预,以减少确认前满房的发生。模型综合考虑去哪儿、艺龙的房态信息,给出每个售卖房型的今明后三天的满房概率,输出到代理通,给供应商看,供应商查看满房率高的房型,可对房型进行关房操作。项目目的为减少确认前满房的发生,降低确认前满房率,减少服务缺陷。


基于深度学习的图像质量提升

李翔 携程旅行网

  主讲人简介  

携程高级数据分析师,主要负责酒店图像数据的分析、建模和处理,现阶段致力于酒店图像的智能化。研究兴趣为计算机视觉和机器学习,包括人脸/行人/行为识别、大规模图像检索、距离度量学习和迁移学习,在包括ICCV和CVPR在内的学术会议和国际期刊上发表10余篇论文。

   报告摘要   

当前在线旅游和网络购物等互联网领域,广泛地利用图像向用户直观展示产品信息。然而由于互联网图像的来源混杂,导致图像质量参差不齐,往往存在大量低质量图像,严重影响了用户体验。本次演讲围绕这一问题展开,介绍一系列基于深度学习的图像质量提升技术,并分享在携程酒店图像数据上的应用和实践。


企业全面风险图谱分析实践

程大伟 星环科技

  主讲人简介  

星环科技机器学习研发经理,数据挖掘算法专家,上海交通大学类脑计算和机器智能实验室博士,长期从事分布式机器学习产品研发以及金融行业的建模分析工作,设计和部署了多家金融机构的数据挖掘产品和应用。

   报告摘要   

随着金融业务的高速增长,使得对企业经济行为过程中的风险分析越来越重要。面对日益增长的公网非结构化数据和错综复杂的关联关系,如何对金融数据进行高效分析和挖掘成为一大难题。本次演讲主要介绍在银行业使用大数据挖掘平台进行全量风险分析的实践过程以及经验分享,其中包括对公客户的风险特征探索、图谱挖掘、建模和生产评估等。


某微信公众号“异常”流量的

统计分析与司法实践

黄达 复旦大学管理学院统计学系

  主讲人简介  

统计学博士,北京大学毕业于光华管理学院商务统计与经济计量系,目前为复旦大学管理学院统计学系讲师。中国现场统计研究会计算统计分会理事。研究兴趣为:时间序列分析,计算统计,多元统计,统计学习,商务统计应用。

   报告摘要   

企业投放广告,投入了成本,自然希望对其收益进行评估。具体来说,企业想知道投放的广告有多少人会看,看了之后又有多少人购买,等等。但是在微信、微博等新媒体出现之前,相关数据是无法直接观测到的。新媒体的出现,后台程序记录了诸如阅读量等指标,这为企业进行广告评估在技术上提供了可能。

为了最大化广告的效果,企业往往会花重金在高阅读量的公众号(或大V的微博)上投放广告。但是,某些公众号为了经济利益,会使用种种手段进行刷阅读量,继而向企业索取高额广告费。在这种公众号上投放的广告的效果,大家可想而知。另有一种刷阅读量的目的,是为了提升自己的某些KPI数值,来迎合投资人的喜好,意图得到更多的资金。这两种情况不仅有违基本的商业道德与伦理,也扰乱了正常的市场秩序。与之相关的法律冲突案例,正在慢慢浮现。发生在2016年的X公司诉新榜网站案就是其中一例。

本文是作者作为专家辅助人参与X公司诉新榜网站案的数据分析,以亲身经历以及相关材料展示了如何识别数据“异常”。


数据在整车性能集成开发中的应用

童荣辉 上海汽车集团股份有限公司技术中心

  主讲人简介  

工学硕士,毕业于同济大学机械制造及其自动化专业,2008年4月加入上汽集团技术中心,历任整车性能集成工程师,整车性能集成经理,整车性能集成高级经理。

   报告摘要   

电动化、智能化、网联化、共享化是未来汽车工业发展的趋势,在实现汽车工业‘四化’的道路上,数据始终起着至关重要的作用,具体表现在:

1.数据可以缩短车辆开发的周期、降低车辆开发成本2.数据可以实时了解客户的用车情况,从而为客户提供更贴心的售后服务;

3.数据可以判断客户的用车行为,从而给客户提供更舒适的用车体验;

本报告将从车辆集成的角度,为大家分享从车辆开发到终端用车过程中数据能够创造的价值


数据分析在主题乐园业

收益管理和预测规划中的应用

赵鑫阳 上海迪士尼度假区

  主讲人简介  

统计学硕士,毕业于北京大学光华管理学院商务统计与经济计量系,目前为上海迪士尼度假区预测与规划经理。

   报告摘要   

收益管理(英语:Yield management或Revenue management),又称产出管理,是通过理解、预测消费者行为,并与之互动的过程,从而实现收益最大化。产出管理是一种通过理解,预期和影响顾客行为,在资源固定数量且不可留存的情况下(如航班座位或者酒店客房预订),实现最大化收益的过程。

在上海迪士尼度假区,对公园每日的客流量、酒店间夜、人均门票收入、商品和餐饮消费进行预测规划以及产品定价是收益管理团队的主要工作,在盛大开园前后也经历了从没有数据参考其他迪士尼乐园的范式与模型,到逐渐积累自己的历史数据修正对市场的看法。本次演讲主要介绍数据分析在主题乐园收益管理中是预测、定价和产出管理中的典型应用,并着重介绍在客流量预测方面所使用的方法和模型。


基于客户生命周期价值(LTV)的

信贷风控策略实践

赵永鹏 杭州信喜商务咨询有限公司

  主讲人简介  

毕业于北京大学光华管理学院商务统计系,目前为某互金平台风控负责人。曾供职于GE Capital全球决策科学实验室、HSBC汇丰风险分析中心、阿里金融风控部门等。作为阿里金融创始团队成员之一,主持开发阿里金融第一代风控模型;专注于信贷业务的风控政策与风险分析技术,尤其是零售信用风险管理以及相关量化策略的开发,包括信用申请、账户管理、风险分析、催帐决策、损失回追等。

   报告摘要   

LTV(life time value),客户生命周期价值,是公司从用户所有的互动中所得到的全部经济收益的总和, 该指标被广泛应用于互联网企业的市场或运营策略中。 

在信贷领域, 基于LTV的策略优化一直是痛点+难点。信贷业务的独特性是风险(risk), 风险因人群而已,且会随着时间&环境变化。痛点,痛在公司内部服务客户的流程上割裂的,既并不是每个部门都以LTV作为优化的目标函数; 难点,难在LTV的计算往往需要经过相当长的观察期(一般是几个月或几年的时间)且经受过压力的测试。 

本次分享是主讲人在一家互联网金融公司的实践,分享会涉及到当前数据、算法、技术对信贷风控的影响,以及如何(部分)解决如上LTV问题, 如何利用增强学习的理念(部分)解决如上LTV问题。


R语言构建公众号服务的实践

郎大为 J.D. Power

  主讲人简介  

JDPower数据分析师,主要方向为汽车行业的数据咨询。浙江大学软件学院校外导师,统计之都编辑部成员,R语言脑残粉。人生目标是成为一名数据科学家, 但却一不小心走上了全栈工程师的道路, 从此日常纠结的事情从开发在哪里变成了时间在哪里。挖过很多R包的坑,有wordcloud2,REmap,leafletCN等, 与其他人共同挖的坑有recharts,RWeixin等。

   报告摘要   

微信公众号是市面上最流行的新媒体之一, 微信也开放了用于公众号的官方后台管理接口,与传统数据接口不同的是,数据接口一般是允许用户进行数据请求, 而管理接口起着要求用户被请求的过程,也就是需要进行后台服务器的开发。大部分脚本语言都有相应的开发方式,本次演讲将以用R语言构建微信公众号服务为例,介绍如何构建一个可以通过接口调用的服务器,以实现关注者与公众号聊天过程中的记录保存, 自动回复,管理页面等功能。


数据产品生成工具的技术探索

周宁奕 众安科技

  主讲人简介  

前建筑设计师,前阿里云datav可视化开发工程师,主攻webgl、webgis,数学的美学世界发起人,独立软件糊涂作者,现在众安科技负责数据科学实验室的可视化团队。

   报告摘要   

近2年来,数据可视化的组件的web生态圈愈发完整,可视化工程师会考虑2个重要的问题:

1.如何更专业,如在关系网络、地理可视化、渲染性能等专业方向上进行深化

2.更方便,如向后适配数据库、提升分析探索的体验、加快开发的速度等。

本次的分享,主要围绕这些问题,谈谈我们在今年做的一些产品探索,为了更好地去开发业务复杂、页面繁多、低并发的b端的数据产品,我们通过数据库查询适配、数据格式标准化、配置控制器自动化、代码自动生成等技术,进行的开发实践。


中国区域金融空间关联分析和解释

—基于网络分析法

袁野 温州大学

  主讲人简介  

袁野,男,1991年5月生,现就读于温州大学数学与信息科学学院,应用统计与数理金融专业硕士,师从美国弗罗里达大西洋大学科学副院长,浙江省特聘专家,温州大学特聘教授钱莲芬教授。曾在2015年11月参加中国现场统计研究会第十七届学术年会并做题目为《大数据时代统计学与深度学习的思考》的报告。

   报告摘要   

本文基于1990年到2015年中国31个省份存贷款余额和 数据,将金融业空间区位熵作为衡量区域金融发展指标,利用Granger因果检验方法和网络分析法构造中国金融发展的空间关联和网络结构特征,借助 方法对中国区域金融发展的影响因素进行分析,有效解决传统空间计量方法难以在整体上把握金融联动全局特征和网络结构特征的缺陷。研究结果表明:(1)中国区域金融发展空间关联呈现明显复杂的网络结构,网络稳定性高,通达性好。(2)中国区域金融发展分为四个板块;第一板块: 主要西部欠发达地区的“主受益板块”,第二板块:“经纪人板块”,起着“桥梁”的作用;第三个板块:东部地区的“净溢出板块”,第四个板块:“双向溢出板块”,主要是中东部较发达省份。中国区域金融发展具有明显的能量传送梯度特征。(3)中国区域金融发展受到人均收入水平、对外贸易指数、第三产业发展指数、交通运输能力和政府干预能力的影响,与区域就业情况和地理位置是否相邻影响不大,进一步给出研究的结论和建议。


基于Vine-Copula模型的

房价与政策实证分析

曾嘉悦 中央财经大学

  主讲人简介  

中央财经大学统计学大四学生,曾在科学家在线,中国信息通信研究院实习,曾作为中国青年代表参加第23届联合国气候变化大会,并在新闻发布会上发言。

对R语言有着浓厚的喜爱,同导师一起在CRAN上发了R 包“dng”,关注R语言在文本分析方面的应用

   报告摘要   

北京市政府近年推出多项房地产相关政策,房价走势持续波动。政策的出台到底对房价又多大的影响仍然是一个值得探究的问题。本演讲结合房价走势以及房价、成交量与政策的相关关系展开,以2014年-2017年上半年北京市新建商品房成交价与每日成交量,结合各时期北京市出台政策,应用Vine-copula模型、时间序列模型以及主题模型进行分析与探索。


基于R语言的网络文学情节可视化


钱亦欣 上海长江众创

  主讲人简介  

上海大学经济学院统计学硕士,上海长江众创一鱼数据项目数据科学家,Hadley Wickham的忠实信徒。自2013年起开始使用R语言进行统计分析与数据可视化等工作,研究方向为文本挖掘、贝叶斯分析等,参与过中国房地产司法拍卖指数编制等项目。于图灵社区、雪晴数据网等社区翻译并创作R语言、数据挖掘等相关文章数十篇,开设有个人知乎专栏《数据科学译文系列》。

   报告摘要   

网络文学是目前泛娱乐行业最主要的IP来源之一,但其普遍存在着篇幅较长,结构松散,信息不集中等特征,为爱好者快速了解其内容梗概、情节起伏、任务设定等增加了难度。

本报告结合实际案例,通过文本挖掘技术发觉小说的关键人物、场景与设定等信息,并结合分章节的叙事数序将关键元素进行可视化。

以数据挖掘的手段还原小说中的情节,可以帮助相关人员快速了解小说整体内容,定位关键章节,降低阅读成本。


数据分析在商品期货应用-可视化图形与持仓量分析

李孟育 南华期货股份有限公司

  主讲人简介  

专长: 统计计算、数据分析、衍生品定价、量化分析、科技管理。曾任职台湾国立嘉义大学金融系助理教授(终身职)、金融工程公司知识长等岗位。取得台湾国立交通大学资讯管理博士(双辅修: 统计、应用数学)。曾经主持台湾国科会专题研究项目、学术论文发表于SCI/SSCI等国际期刊,曾经获得多个研讨会最佳论文奖。

   报告摘要   

首先以桑基网络图来呈现中国能源的供给与消耗现况。传统都是以平衡表方式来表现,此次演讲将是全球首次将中国能源(含原油与天然气)现况以Sankey Network方式画出,可以看出能源的来源类型、消耗产业等,作为能源决策与供给分析参考。

期货交易所会每日公布不同品种的每一家期货公司的交易量与持仓量,据此可以分析商品期货的市场情绪,并且作为交易策略参考。


条件GAN用于车型设计和判别

张翔 车轮互联数据

  主讲人简介  

10年的COS水友,车轮互联数据副总裁。

   报告摘要   

随着GAN生成式模型的发展,神经网络从信息理解到信息创造进展非常快,本文将最新的研究方法,整合在一个车型设计的应用场景下,已经实现将手绘的线条自动填充绘制成彩色车型效果图,如果是现有车型的话,还可以进行车型识别。



基于回归簇模型对上海二手房价格进行预测


刘顺祥 上海嘉桥信息科技有限公司

  主讲人简介  

浙江工商大学统计学硕士,高级数据分析师,曾就职于大数据咨询公司,服务过联想、亨氏、美丽田园、网鱼网咖等企业项目;曾在唯品会大数据部担任数据分析师一职,负责支付环节的数据分析业务。

   报告摘要   

本次分享的主题是运用带惩罚项的回归方法对二手房的价格进行预测,首先针对爬虫获取的数据进行清洗;然后基于清洗后的数据作探索性分析,了解数据的分布和特征,为建模做好准备;最后对比线性回归、岭回归和LASSO回归在二手房价格预测上的效果。


SupR大数据计算案例分析


练勇强 华东师范大学

  主讲人简介  

华东师范大学统计学院在读博士,2016年国家公派美国普渡大学统计系联合培养博士一年,上海数萃大数据科技有限公司核心成员。关注于算法设计、贝叶斯计算、随机模拟方面的科学研究,第八届中国R语言会议(上海会场)组委会主席。

   报告摘要   

 SupR是由美国普渡大学统计系刘传海教授开发的全新多线程分布式R软件,它是基于现成的R软件内部系统另外添加大约4万行新的C语言代码来开发的,原先的R语言语法没有变化。SupR的额外功能主要有两块,一块是类Java线程系统的并行计算,也就是多线程运算;另一块是类Spark系统的分布式计算。本报告将利用几个案例来展现SupR的计算功效。


AdapSamp:自适应抽样算法的R包实现


张东 华东师范大学

  主讲人简介  

华东师范大学统计学院一年级在读博士生,虽是5年的R_User,但仍是菜鸟。

   报告摘要   

我们设计并开发一款名为AdapSamp的R功能包来实现自适应随机数抽样。其中,rARS, rMARS, rCCARS, rASS与rASS函数可分别实现各种功能。经过案例分析,我们得出该功能包所生成的随机数皆来自给定分布的结论。此外,rAMRS与rASS函数由于循环和判断次数少于其他函数,因此速度快且具有广泛的实用性。相比而言,rMARS函数则耗时过长导致效率较低。 

我们开发的新的包整合了许多优秀的自适应抽样算法,能够解决几乎大部分分布的抽样,是现有R功能包中常规分布抽样函数的有效补充。因其普遍的适用性与使用的便利性,希望此包会受到广大统计专业人员的欢迎。



金融产品价格的刻画 

靳军 华东师范大学统计学院

  主讲人简介  

普华永道实习生。数萃大数据学院未来数据科学家,精通python, 熟练掌握R,有3年的R与python语言编程经验。研究兴趣集中在机器学习、网络爬虫、文本数据分析、sparkR及分布式计算,专注于用python进行量化策略构建。

   报告摘要   

系统性依照时间顺序梳理金融产品(及其衍生品)的价格变化刻画及其程序实现。具体包含以下内容:

1.历史模拟法。

2.时间序列方法。

3.随机分析方法。

4.小波理论。


打造数据中央厨房,助力大数据创业

孙繁荣 上海长江众创

  主讲人简介  

上海长江时代众创空间数字技术有限公司CTO。大数据技术专家,曾任富士康、毕博GDC、惠普等知名企业研发经理、高级架构师、及产品经理,18年以上企业级关键信息系统建设经验。主导研发多款云计算SaaS应用、云存储产品、大型MPS(主生产计划系统),MES(生产执行系统)系统、金融行业解决方案等。

   报告摘要   

数据处理领域最困难的事情之一是整合多源异构海量数据,并且转换成高质量的数据。如何帮助数据时代科技型创业公司,让企业聚焦专业领域,避免数据预处理环节的长周期高投入,实现产品快速迭代?长江众创提供一站式数据“中央厨房”模式的数据预处理平台,帮助企业高效实现数据采集、清洗、存储和管理,极大地缩短产品从零到一的周期。


大数据云平台:校企数据科学人才培养新模式


黄德演 上海云支柱信息科技有限公司

  主讲人简介  

上海云支柱信息科技有限公司创始人,总经理,云计算服务领域的专家。之前历任NOKIA高级经理, 加拿大TELOS高级系统工程师,加拿大TERADICI大中华区业务总监等。20年的通信,互联网及IT云计算领域的技术开发,部署和推广的经验。在TERADICI期间,参与VMWare桌面的核心技术的开发并负责技术支持,参与亚马逊AWS工作空间的架构设计,核心技术开发及技术支持。主导研发了混合云工作空间的SaaS应用、整合各大主流云厂商服务并提供行业解决方案等。

   报告摘要   

当前各种新技术特别是云计算,大数据,物联网,人工智能正在深刻地影响企业的商业模式和社会的生活方式,企业面临巨大的数字化转型的压力及动力,但目前能够帮助企业实现数字化转型的技术人才极度缺乏,所有我们的高校及其他各类培训机构面临着一个如何能快速培养高质量的技术人才的巨大市场和机会,但培训的老师及高端的环境缺乏也是一个巨大挑战,而利用云平台的最新技术和服务为我们教育培训机构提供实战的培训平台可以实现事半功倍的效果。我们将主要讨论如何通过整合全球领先的云平台加上企业级的数据服务提供一个深度学习的培训环境。


如何利用贝叶斯采样器处(拥)理(抱)不确定性


刘斌 南京邮电大学计算机学院

  主讲人简介  

目前任教于南京邮电大学(南邮)计算机学院。中科院信号与信息处理专业博士,杜克大学统计系、卡耐基梅隆大学认知与神经基础中心访问学者。在贝叶斯应用统计领域有超过10年的研究经历,发表学术论文近50篇,南邮科学技术奖获得者。

   报告摘要   

我们生活在一个充满高度不确定性的时代,不确定性给预测、决策带来困扰和挑战,但同时也孕育着机会。如何有效的处理乃至拥抱不确定性是我们的人生课题,同时也是处理各类数据分析问题时所必须要考虑的因素之一。本次报告将给出一种用于量化、分析不确定性的“利器”-贝叶斯采样器,将介绍如何利用贝叶斯采样器应对模型参数的不确定性、模型本身的不确定性、静态的不确定性以及动态的不确定性;还将介绍如何基于贝叶斯采样器“拥抱”不确定性,即通过人为注入不确定性而使得算法“跳出”局部最优、“觅得”全局最优。如时间允许,将讨论贝叶斯与人类认知、人工智能、机器学习等的关联关系,以及进行贝叶斯方法学研究/应用的机遇与挑战。


数据科学在环保行业的应用


王梦佳 阿里巴巴阿里云事业群

  主讲人简介  

毕业于浙江大学统计专业,毕业后加入阿里云大数据与人工智能团队,负责交通、环保行业大数据智能解决方案的设计与实施;参与阿里云城市大脑项目,负责多个交通大数据智能算法及整体框架的设计开发;现担任阿里云ET环境大脑技术总负责人,专注于环保行业的大数据解决方案的设计与方案实施,实现环保大数据应用的落地与突破,用技术赋能环保行业,守护绿水青山。

   报告摘要   

绿水青山就是金山银山,ET环境大脑用技术守护绿水青山,留住蓝天白云。借助云计算、物联网、大数据和人工智能等技术,构建生态环境全方位立体监控网络,对水、空气、噪声、固废、辐射和海洋等环境要素进行全面感知,将环境数据进行关联、融合、萃取、提炼,对环境信息资源进行深度挖掘和智能分析。ET环境大脑发现卫星图像背后的环境密码,追踪全球植被绿化变迁,构建海洋环境保护智慧图谱和企业环境信用风险图谱,辅助政府和公益机构实现对生态环境的精细化管理和智能化决策,助力环保事业的科学健康发展。


用RSelenium+PhantomJS打造灵活强大的网络爬虫


陈堰平 雪晴数据网

  主讲人简介  

雪晴数据网创始人,北理工大数据创新学习中心导师团成员,2017年1月获“微软最有价值专家”荣誉称号。毕业于中国人民大学统计学院,曾获CQF国际数量金融认证,先后任新华社指数中心技术总监、SupStat Analytics中国区首席技术官。在统计咨询、数据挖掘、开发数据驱动的商业解决方案等领域有近十年的经验,曾为人保财险、国家统计局、微软、惠普、德勤咨询、联想、丰田、招商银行、花旗银行、东方航空、中国移动、中国电信、中国联通等机构做过数据科学方面的培训和咨询。曾开发贝叶斯动态线性模型的R包ssDLM,译作有《R语言编程艺术》、《实用数据分析》和《R语言临床数据分析》,主讲的在线公开课《R语言数据分析入门》、《R语言大规模数据分析实战》已在多个平台上发布,累积学习人数过万人。 

   报告摘要   

用R写爬虫程序,常用的组合是RCurl+XML,或者用Hadley的rvest,这两种组合对静态页面都能很好地抓取,但是对用Javascript生成的动态页面束手无策。

    Selenium 是一个Web浏览器自动化测试框架,而 PhantomJS 是一个基于 Webkit 的无 UI 的浏览器。RSelenium提供了对Selenium Webdriver API的绑定,可以让用户使用R语言操纵浏览器的行为、捕获浏览器渲染出来的页面元素,说简单点,你可以用R代码来点击网页上的按钮、填验证码、获取屏幕截图、获取页面数据,甚至你也可以做个抢票系统、抢购系统。


基于非参数回归和卷积神经网络的在线手写签名身份认证模型研究


郑湙彬 中国人民大学统计学院

  主讲人简介  

中国人民大学统计学院硕士二年级学生,目前主要研究方向包括卷积神经网络、函数型数据、变量选择。

   报告摘要   

Selenium 是一个Web浏览器自动化测试框架,而 PhantomJS 是一个基于 Webkit 的无 UI 的浏览器。RSelenium提供了对Selenium Webdriver API的绑定,可以让用户使用R语言操纵浏览器的行为、捕获浏览器渲染出来的页面元素,说简单点,你可以用R代码来点击网页上的按钮、填验证码、获取屏幕截图、获取页面数据,甚至你也可以做个抢票系统、抢购系统。




R语言构筑“人工智能+教育”应用服务

吴永和 华东师范大学

  主讲人简介  

吴永和,博士,华东师范大学教育学部教育信息技术学系研究员,博士生导师。国际标准化组织ISO/IEC JTC1 SC36专家,教育部教育信息化技术标委会专家委员及全国信息技术标准化技术委员会教育技术分技术委员会委员,科技部国家科技专家库专家,华中师范大学兼职研究员,多个CSSCI核心期刊外审专家,多个学术会议的评委、委员及主席,IEEE会员。研究方向为教育大数据与学习分析、学习科学与技术、科创教育(创客教育、STEAM教育、科学教育)、人工智能与智能教育,教育信息化系统架构与标准等。

   报告摘要   

当前在人工智能正在蓬勃发展的时机,深度学习及机器学习领域也在飞速发展。R语言与此相关的包也日益变多,并越来越为人们熟知。本次演讲围绕目前有哪些包涉及到人工智能和深度学习领域,介绍一系列基于深度学习和机器学习的包,并分享一些相关案例,以此来提供一些借鉴。


量化投资与统计学习


解环宇 眀汯投资管理公司

  主讲人简介  

本科毕业于北京大学光华管理学院。现任眀汯投资管理公司投资总监,此前就职于国际顶级对冲基金Citadel。

   报告摘要   

本次报告将简单回顾量化投资的发展历程,以及其中相关的重要的统计思想。作为量化技术的坚定实践者,本次报告将结合R语言的应用,全面介绍实践中所使用过的各类各样的现代统计机器学习技术,以及所遭遇的挑战和一些思考。


AI时代的R语言


李舰 统计之都

  主讲人简介  

“统计之都”核心成员之一,曾任Mango Solutions中国区总监。台湾辅仁大学博士在读,北京大学软件工程硕士,中国人民大学统计学学士。专注于数据科学在行业里的应用,著有《数据科学中的R语言》一书,曾在华东师范大学、浙江大学等高校任兼职导师,讲授数据科学相关的专业课程。

   报告摘要   

R语言从诞生之初起,就因为其鲜明的特点,令人爱恨交加,也不断被拿来和其他编程语言或者分析软件进行比较。在如今大数据时代乃至最近很火的所谓AI时代下,各种新方法新工具层出不穷,而此时的R也已经是数据科学领域的主流工具,那么在新的时代下,R是否能适应新的变革、是否还具备独特的优势、应该被如何使用? 本次报告将从演讲者多年来的工作经验出发,基于一些案例,对这些问题谈一些个人的想法。


手机大数据在城市空间规划与管理中的应用


王德 同济大学建筑与城市规划学院

  主讲人简介  

同济大学建筑与城市规划学院教授(博导)、城乡规划方法与技术方向责任教授。大数据与城市空间分析实验室主任、上海同济城市规划设计研究院数字规划技术研究中心主任。1963年生,1983年南京大学地理系本科毕业,1986年获中国科学院南京地理研究所经济地理硕士,1994年获名古屋大学博士(地理学)。1998年起历任同济大学建筑与城市规划学院副教授、教授。获4项国家自然科学基金课题资助,发表论文130多篇,获金经昌优秀论文奖3次,省部级优秀设计奖多项。主要从事城市规划方法、大数据、空间与行为、城市规划模型领域的教学与研究。

担任城市规划学刊和国际城市规划编委,中国地理学会人口地理专业委员会副主任委员、中国城市科学研究会大数据专业委员会副主任委员、中国城市规划学会国外城市规划委员会委员、上海、云南、嘉兴等省市规划委员会委员。

   报告摘要   

手机数据全时全样本特点为全面深入研究城市居民时空活动提供了条件。随着大数据分析技术的提高,精细化手机数据分析成果将不断出现。

近似全样本的特点可全景式揭示城市居民的行为特征,为宏观规划提供参考;全样本可转换为次区域样本后可利用传统小数据模型方法开展分析。大数据经过识别提取得到特定群体的样本,针对特定群体的行为开展研究。全时特征又可揭示居民行为不同周期行为变化、不同时段行为的特点。将全时间与全样本特点相结合,可对特定人群特定时间,特定环境特定人群的行为开展研究。

以上成果可汇总成为刻画城市运营状态的指标体系,以及相应的统计分析图和空间分布图,为城市决策、规划提供参考。


基于非参数回归和卷积神经网络的在线手写签名身份认证模型研究


郑湙彬 中国人民大学统计学院

  主讲人简介  

中国人民大学统计学院硕士二年级学生,目前主要研究方向包括卷积神经网络、函数型数据、变量选择。

   报告摘要   

在线手写签名认证作为身份识别技术中的常用方法正受到越来越多的关注。卷积神经网络作为图片识别中常用的方法,用于进行在线签名认证是非常有意义的。但由于忽略了时间信息,以及签名相较于一般图片识别问题,更容易受图片失真的影响,本次研究提出了与时间信息的结合、以及先使用基函数拟合再进行卷积神经网络等方法以改进原有模型,以及探究了样本自身结构对模型识别效果的影响。


基于Word2vec的教育领域中文情感词典构建及应用


冯翔 华东师范大学

  主讲人简介  

博士,副研究员。曾在上海交通大学&上海贝尔阿尔卡特 计算机应用博士后工作站工作,目前供职于华东师范大学上海数字化教育装备工程研究中心&教育信息技术系。研究兴趣包括基于互联网的教育服务,人工智能教育应用,教育大数据与学习分析技术。目前主持教育领域情感分析项目2项。具软件项目管理、设计开发经验,应用战略技术研究工作经验。曾主持开发7项大中型国际国内项目。

   报告摘要   

情感分析已广泛应用于包括商业、舆情分析、在线商店等领域。在教育行业,情感分析也越来越受到研究人员的关注,了解学生的情感趋向对教育决策支持具有重要意义。情感分析主要有基于机器学习和基于情感词典的分析方法。我们利用word2vec,设计基于通用情感词典的教育领域文本情感词发现算法,构造了一套教育领域情感词典。基于六个基础情感维度将发现的情感词自动化分类,探讨基于情感分析可视化的应用。


基于R语言的高中生科目选考决策支持原型系统研究

陈伟运 华东师范大学

  主讲人简介  

博士、教育学部教育信息技术学系讲师,研究方向为教育数据挖掘、预测市场,研究兴趣为学习科学和人工智能,在包括MIS Quarterly、IEEE Intelligent Systems、British Journal of Educational Technology和WITS、ISI、AERA、ICCE、GCCCE等国际期刊和学术会议上发表论文20余篇。

   报告摘要   

新的高考改革形势下,高中生需要根据自身的生涯规划对高中阶段的学习科目进行自主选择,比较典型的是上海的6选3和浙江的7选3方案。现有的学生生涯规划系统要么根据学生职业兴趣推荐相应职业,因而无法将职业决策落地到相应的高中学习科目选择;要么通过专家对高中生的科目选择进行个性化定制,因而往往需要支付昂贵的专家咨询费,这些都难以满足普通高中生的需求。本文尝试基于R对开源信息进行分析,从而构建面向高中生免费的科目选考决策支持原型系统,为高中生在学习科目选择时提供免费的、有效的决策支持。


基于手机信令数据的杭州市人口分布特征分析

钮心毅、李凯克 同济大学建筑与城市规划学院

  主讲人简介  

钮心毅,同济大学建筑与城市规划学院副教授,博士生导师,建成环境技术中心副主任、工学博士。兼任中国城市科学研究会城市大数据专业委员会委员、副秘书长。研究方向为城市规划信息化、规划决策支持系统、城市空间信息分析。近期研究兴趣在城市规划大数据、智慧城市规划。在上述研究领域已发表重要学术论文多篇,两次获金经昌中国城市规划优秀论文奖佳作奖。

李凯克,同济大学建筑与城市规划学院博士研究生,研究方向为城乡规划技术与方法,主要研究内容为基于大数据在城乡规划以及智慧城市。

   报告摘要   

随着移动通讯发展,城乡居民中的移动电话拥有率已达到相当高比例。通过手机和基站之间信息交换,能够大致确定手机的空间位置。由于目前手机的高持有率,使得依据手机定位数据研究城市居民的时空分布规律有了可能。本报告介绍课题组以杭州市手机数据为例,从居民居住地、工作地的判断、居民游憩活动分析等方面对手机数据在城市规划应用和评估中的作用进行了研究,并对杭州市常住人口的规模进行了探讨。


城市生长和个人财富

肖扬 同济大学建筑与城市规划学院

  主讲人简介  

同济大学建筑与城市规划学院,副教授,博士生导师。是香港大学高密度健康城市研究中心荣誉研究员;中国城市科学研究会新型城镇化与城乡规划研究专业委员会委员。主要研究方向为建成环境的社会经济价值评估、社会空间分异、公平城市与社会健康等,目前已在Urban Studies、Environment and Planning B、Housing Studies、Landscape and Urban Planning、Land Use Policy、Urban Forestry & Urban Greening、城市规划、城市规划学刊等中外优秀期刊发表论文28篇,主持及参与国家自然科学基金6项,出版英文专著一部。

   报告摘要   

本研究将以南京为例,探究城市的无序蔓延背景下城市结构重构对个人不动产的价格的影响。研究发现不同尺度下城市结构的变化对房价的影响不同。研究结果将对城市规划编制提出了更精细化的要求。


AI设计—当城市设计有了智能助手

张耘逸 上海数慧系统技术有限公司

  主讲人简介  

上海数慧系统技术有限公司卓越中心(COE)大数据业务分析师。厦门大学城乡规划专业学士,UCL高级空间分析中心(CASA)智慧城市与城市分析专业硕士。重点关注大数据、机器学习在城乡规划及城市设计领域的应用,热衷于数据分析、挖掘与可视化等前沿技术的探索与研究。

   报告摘要   

长期以来,从事城市设计的规划师、建筑师们面临着平衡速度、成本、产量与质量的窘境;开发商为拿地强排挠破头皮;而政府和决策者则关心着多方案的选择及方案实施后带来的影响。随着大数据、人工智能技术的发展,城市设计也应拥有一名智能助手,来排忧解难,助力城市设计在广度、力度、速度、精度和深度上的多维提升,在设计阶段提升产量、节省成本,为方案比选提供评估参考,为方案落地提供决策支撑。AI融入设计是用智能辅助设计,目的不在于取代设计师,而在于为设计师省下更多的时间和精力来专注创新,不断进步。


基于视域分析的商业综合体空间活力研究

王桢栋 同济大学建筑与城市规划学院

  主讲人简介  

同济大学建筑与城市规划学院副教授、博士生导师,同济大学工学博士,国家一级注册建筑师。长期专注城市综合体领域研究,主持国家级课题2 项,省部级课题1 项,参与国家级课题2 项;著有《当代城市建筑综合体研究》,并发表相关论文二十余篇。

   报告摘要   

我们利用三维可视性分析方法,结合三维空间句法分析了城市综合体中的具体空间的可视性与消费者行为之间的关联性,包括消费者的店铺选择、消费者的路径选择以及消费者的停留选择。分别以店铺、通过型交通空间、停留型公共空间为核心,分析可视性及其他空间属性与店铺客流量、通过人流量以及停留选择及状态的相关性。



四、主办方介绍

华东师范大学

华东师范大学是由教育部主管,教育部与上海市人民政府重点共建的综合性研究型大学。1959年学校被中共中央确定为全国16所重点院校之一,1978年学校再次被确认为全国重点大学,1986年学校被国务院批准成为设立研究生院的33所高等院校之一。1996年被列入"211工程"国家重点建设大学行列。2006年教育部和上海市决定重点共建华东师范大学,学校进入国家"985工程"高校行列。2017年学校进入世界一流大学A类建设高校行列,全面开启建设中国特色世界一流大学的新征程。


本次大会具体由华东师范大学统计学院、教育信息技术学系、数据科学与工程学院承办。


统计之都

统计之都(Capital of Statistics,简称COS)成立于2006年5月,是一个旨在推广与应用统计学知识的网站和社区。统计之都发源于中国人民大学统计学院,现由世界各地的众多志愿者共同管理维护。其旨在搭建一个开放的平台,使得科研人员、企业数据分析人员和统计学爱好者能相互交流合作,一方面促进彼此知识和技能的增长,另一方面为国内的统计学和数据科学贡献自己的力量。


统计之都大力欢迎所有应用和研究领域的朋友们与我们在实际应用问题上合作!


五、战略合作伙伴

GenePlan知几基因

GenePlan(知几基因)专注于提供与基因科学有关的健康类服务。创始团队于2014年组建,独立检测研究室设于成都,同时与国内数家基因检测机构、分析机构及医疗机构合作。


GenePlan(知几基因)现提供三种类型的基因体检服务。分别为“基础版”、“专业版”和“旗舰版”。与传统体检相比,基因体检可以在任何时间、地点独立完成。基于基因检测技术,可以比传统体检检测出更多遗传病风险,及早通过基因点位变异,发现肿瘤的早期风险。同时结合靶向用药,对癌症临床治疗起到显著的效果。


除此之外,GenePlan(知几基因)还另设机构“知几基因研究院”,专注翻译、研究、解读国内外最新的基因科学文献,以及积极地与各大医疗机构开展基因检测与体检健康相关的合作。


长江众创

上海长江时代众创空间数字技术有限公司作为国内领先的场景金融智慧数据服务商,由长江时代通信股份有限公司联合深圳光启集团(股票代码:00439.HK,MJP.ASX,002625.SZ)共同出资成立。长江众创积极响应“大众创业,万众创新”的国家战略,结合移动互联网与产业互联网融合发展趋势,打造数据协同工作平台,用“数据中央厨房”来做数据企业孵化,用MOM理念来做数据企业风险投资,构建了线上场景金融的智慧数据服务和线下数创空间站相结合的创新型服务生态体系。


天善智能R语言中文社区

天善智能(hellobi.com) 致力于构建一个基于数据领域的生态圈,链接一切与数据相关的资源,共同努力推动大数据、数据分析、商业智能BI、数据挖掘、人工智能等领域在国内的普及和发展。 社区包括技术问答、博客、活动、学院、招聘、读书频道等子版块,内容覆盖了与大数据、数据分析、数据挖掘和商业智能BI、数据分析、数据挖掘和大数据相关的技术领域。



点击“阅读原文下载电子版会议手册


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存