【大数据专栏】卿刚:智慧城市中的大数据实践
【这是“大数据专栏”的推送文章,本专栏由中关村大数据产业联盟与科技杂谈合作提供】
文 / 卿刚,本文为卿刚在中关村大数据产业联盟“大数据100分”论坛上的交流探讨实录
主讲嘉宾:卿刚
主持人:中关村大数据产业联盟 副秘书长 陈新河
承办:中关村大数据产业联盟
嘉宾介绍:
卿刚, Associate Partner for Public Sector,IBM-全球服务部集成业务部。计算机专业-computer science of UEST 。服务IBM已14+年。长期服务于中国科学院IT项目建设和政府行业系统集成业务。在高性能计算,智慧城市(智能交通,野生保护区…)等有丰富的项目实践。曾经带领IBM团队参与设计和建设“08年亚洲第一世界第10的中国科学院百万亿次机系统”,参与“广东顺德-智能交通项目的调研”和“四川数字卧龙集成项目启动”等大型信息化集成项目。
以下为分享实景全文:
大家好! 很高兴新河副秘书长邀请在这里和各位分享一些大数据的想法和观察。在此希望广交友多促进,用开放的精神和平和的心态与大家共同进步。在随后的时间里,将就此与大家感兴趣的话题互相分享。说明:交流所谈仅代表个人观点和专业观察,不代表任何企业商业倾向。
今天的议题:“大数据与部分智慧城市实践”。
议题摘要是:
大数据理解:
定义及特征。
误区与不可为。
趋势及现状
IT的结合
在智慧城市中的部分实践:
智能交通
新药研发
。。。。
“大数据是21世纪最性感的技术之一。”今天IT界无谈不欢,可见其魅力!大家同意吗?
OK, 首先在开始议题前有必要定义下什么是大数据?以保证我们今天的沟通基础一致。
定义:想必大家都会脱口而出4个“V”——Volume(大量)、Velocity(高速)、Variety(多样)、Veracity(真实性),对吧? 如再往深处问就会发现众人理解各异,甚至很多概念混淆。
实践中发现大数据通常具有“4特征1 属性”。
4特征:
新的形式(诸如GIS ,卫星或专用设备的数据或图片,如图)
1属性:属于数据科学。
所以请看下图:
具有以上” 4特征1属性”用来形容大量非结构化数据和半结构化数据同时需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。我们通常定义为大数据。
那么我们如何定义理解数据科学这个属性呢? 让我们一起来看看下面这张经典照片:
此美女叫:Lenna, 二战时一名著名模特。
左边:其100万像素的照片;右边:R语言“鸢尾花(iris)图。
请大家思考:Lenna这张照片(百万像素:1024*768)分别在“统计分析师,IT专家,摄影师” 的眼里谁更性感?
事实是:
统计分析师:是一些矩阵和二维表,100万个点的纪录。每行代表“1个点5个变量” 即:(点坐标(X,Y),R,G,B )。
IT专家:是像素位图。是由3个基色“高:768,宽:1024 ”的RGB(取值:0-255)矩阵构成然后转成(0,1 )代码分析并用R语言工具的“鸢尾花(iris)”来分析和描述。
摄影师:眼里却是“亮度,对比度和光影的变化。”
显然Lenna的性感谁最有发言权? 当然是摄影师。这说明什么?
说明行业专家才是做重要的! 而仅靠摄影师也是不够的。设想:如果三者合作,会是怎样? 请看下图(来自WeKa 官网):
结论:
(统计&数学专家+ IT专家)形成偏机器学习为导向的结果。
(行业专家+ IT专家)形成偏激的数据结果。
(行业专家+统计&数学专家)即传统的数据研究方法结果。
(行业专家+ IT专家+统计&数学专家)数据科学的结果。
显然:数据科学应是最佳的策略。这将指导我们如何去实践大数据和更好的安排技能以确保数据的可用和项目的成功。也就是之前谈到的大数据应有的属性“数据科学”。
好,我们对大数据的理解有了一个共同的沟通基础后,下面我们来看看已知的误区和陷阱可能在哪里? 让我们来谈谈大数据目前的误区和不可为。
请看这张图:将整头大象装进冰箱里(这可能吗?)
答案是 NO。“大数据就像这冰箱一样不是无所不包的”那么我们如何客观理性地看待大数据呢? 让我们一起先看几个故事。
故事一:
春节就要到了。假如你是一位出车千次无事故的好司机,恰好在朋友家喝了点酒,警察也过年下班了,于是你坚持自己开车回家,盘算着出问题的概率也不过千分之一吧。如果这样算,你就犯了一个取样错误,因为那一千次出车,你没喝酒,它们不能和这次混在一起计算。这也是大数据常犯的错。
误区1:样本取样错误。
故事二:
从1967年第一届美国超级碗杯橄榄球赛到1997年第三十一届,只要NFL联赛出线队赢,当年的股票就大涨14%以上,AFL联赛出线队赢,则至少大跌10%。如果你按照这个指标来买卖股票,就要小心了!1998年,丹佛野马队(AFL)赢,当年股市大涨28%;2008年纽约巨人队(NFL)赢,股市不仅大跌35%,还引发次贷金融危机。
误区2:把相关性当作因果关系,这是大数据的另一个陷阱。
故事三:
三尺深的水池能淹死人,因为三尺只是平均值。
误区3:忽略极值,采用平均值,它是大数据第三个常见的陷阱。
……
那么我们为什么会犯类似的错误呢? 是因为这里还有“小数据”的概念。相比之下,小数据泛指零星的弱信号。它们往往被当作没有规范、似乎随机的偏差或噪音。所以实践中发现:被过滤和忽视是小数据的命运,原因是人们没有现成的概念去定义和解释它们。可是,没有小数据,大数据管理会充满陷阱。相对有效的思路是“大小数据结合,这是数据管理的正道。” 大数据并非万能。
Bill Franks(美)认为:“ “大数据”中的”大”和“数据”都不重要,重要的是数据能带来的价值以及如何驾驭这些大数据, “大数据可能是凌乱而丑陋的”并且大数据也会带来“被大数据压得不看重负,从而停止不前”和大数据处理“成本增长速度会让用户措手不及”的风险,所以,驾驭大数据,做到游刃有余、从容自若、实现“被管理的创新”最为重要。在处理数据时,“很多大数据其实并不重要”,要做好大数据工作,关键是能做到如何沙里淘金,并与各种数据进行结合或混搭,进而发现其中的价值。这也是一再强调的“新数据每一次都会胜过新的工具和方法”的原因所在。”
好,刚才我们对定义和误区已有了概念。那么IT结合点在哪里? 花几分钟先看看大环境。
当前产业发展图
清晰地看到,过去的几年里从基础设施到应用好多开源和商用公司都已分罗而织,大环境是积极的。Ok, 显然大数据是个Sun raise 的领域。“广大的市场需求,较高的技术门槛,合理不昂贵的资金投入”无疑是IT产业升级和脱颖而出的一个好机会!所以我们说“大数据是21世纪最性感的技术之一。”
那么IT技术如何结合呢? :8 方面。
数据采集:ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
数据存取:关系数据库、NOSQL、SQL等。
基础架构:云存储、分布式文件存储等。
数据处理:自然语言处理(NLP,Natural Language Processing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机"理解"自然语言,所以自然语言处理又叫做自然语言理解(NLU,Natural Language Understanding),也称为计算语言学(Computational Linguistics。一方面它是语言信息处理的一个分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。
统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。
数据挖掘:分类 (Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、描述和可视化、Description and Visualization)、复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)
模型预测:预测模型、机器学习、建模仿真。
结果呈现:云计算、标签云、关系图等。
其中机器学习的技术和思路较为重要当前常用的算法是:
说明:K-means ,放入机器学习这一类。是因为统计学算法严格意义上是需要作检验的而K-means 却不做,所以划入此类。
开源的大数据生态系统。
等等,这些IT架构,平台,语言和开发的工具帮我们加强了大数据应用的处理和效果。
OK,光有理论还要实践,让我们一起来看看目前实践的情况。因时间原因,仅做抛砖引玉。
众所周知,“为了大数据而大数据”显然会进入形而向上的空谈。所以只有结合特定的行业和领域才会落地并绽放数据i价值的异彩。这是一种运用的境界是一种数据工程的艺术。
在诸多的领域里,我们来一起看看技术要求很高其集成很复杂的智慧城市在药物,智能交通等方面的情况。因时间原因,重点谈两个实践:一个新药研发,一个智能交通。如有兴趣,可进一步单聊。
大数据与西药化合药物类型的新药开发:
西药的新药研发:(开发周期通常以10年计,成本少则几亿美金多则10+亿美金),那么在如此高投入高回报的领域,一切都需要精准,安全和价格合理。其任何的投入都要尽可能基于定量的分析和决策,同时西药研发的逻辑不同于中医。它的药理落脚点是具体组织或器官涉及药理,药物动力学。所以,新药研发数学要求很高,一个有趣的现象就是目前国外新药制药领域里中国人很多,因为中国人数学和物理很好:)。
比如:感冒分病毒性和受凉性。西药的逻辑是:病毒性的就消炎。伤风性的就体感改善(如鼻塞头疼,就是用药疏通鼻部或头部毛细血管减轻症状)。所以试验和临床数据在新药研发的地位显得非常之高。)
新药研发流程:药物学家和生物学家共同构建模型并指出毒性的可能(疾病模型参数:肌指数,视网膜变化,肾指标),临床试验数据(参数:底线,镇静效果,粘度等),药物模型,然后通过计算机反复地计算找出最优并临床试验安全后才可以批准上市。而西药的成功正在于大量临床试验的数据。而更大的成功在于模型(如:著名的罗曼模型-药理学家和统计&数学专家共同合作的成果,目前国外大多数药厂都在采用这个模型)。
在国内,约90% 的药物我们都是进口或OEM,或山寨,试想,如我们国内的(研究所,IT专家,药厂)可以跨界合作,想必是一个大好事,既有经济效益也有民生福祉。
大数据与智能交通:
国外实践:
项目名称:中央商务区(CBD)的一个交通预测试点项目。利用来自某国陆路交通管理局(LTA)的i-Transport系统的历史交通数据及实时交通信息,IBM的"交通预测工具"在预先设定的时段内(10分钟、15分钟、30分钟、45分钟和60分钟)对交通流量进行了预测。总体预测结果远远高于85%的目标准确率。采用这些预测结果,陆路交通管理局的交通控制人员将能够更好的通过预判管理交通流,有效的防止交通堵塞。
技术实现:这套系统由IBM华生研究院(Watson Research Laboratories)开发,用于预测不同路段上的交通流量和速度。TPT提供能够及时准确地提供(流量和速度)数据以预测未来短期和中期的交通状况。
该技术采用的是自适应统计方法,同时结合自动误差校正方法,来对多时段交通状况进行预测。
i-Transport是某国陆路交通管理局的"智能交通系统(ITS)中心"的核心。该系统将陆路交通管理局的各种不同的ITS工具整合在了一起,这些工具包括该机构被称为优化交通信号系统Green Link Determining (GLIDE)System的计算机化的交通信号系统、电子扫描系统TrafficScan、城市快速路监控信息系统ExpresswayMonitoringAdvisorySystem(EMAS)、接合式电子眼JunctionElectronicEyes(J-Eyes)以及"电子道路计价"(ERP)系统。这些ITS工具为陆路交通管理局提供道路交通运行的现有数据和历史数据。
国内实践:
请看此图(涉及多数中国1234线城市目前现状)
国内多数城市交通的痛和挑战:发现车辆和道路增长的不平衡,城市发展过快,交通管理机制和手段以及跨部门的协调等原因造成了今天的状况和影响了交通资源优化的效率。 那么一个什么样的交通是社会需要的呢? 通过调研群众和政府管理部门,大家一致希望:便捷安全的出行– 道路通行能力的提高;公交优先-提升公交出行分担交通压力;交通诱导-改善交通信息服务和共同联动-提高规划、运营、应急决策能力。这样的一套动态灵活的大交通才是大家心中期待的交通场景。
那么据此目标其业务流程构图即是:
对应的业务逻辑便是: 通过在交通外场各种设备(信号灯,卡口,线圈,卫星,微波,智能终端)等各种采集的元数据通过无线/有线网络传输至交通内场机房或总控中心进行数据的分析和处理,请看下图。你会发现最核心的是一个IOC-Integrated Operation Center(运营总控中心,包含数据业务模型,数学&IT 算法),然后通过大屏幕推送数据展现的结果以供有关城市的管理和运营人员使用。
在这个基础上我们抽取出如下的IT大数据模型框架,请看下图。
我们从此图很清楚地看到它完全基于数据为核心的设计,那么刚才谈到的数据科学思维的大数据技术将在此发挥最重要的作用。这个架构是大而全的,技术上完全可行,那么智能交通的概念将由数据的互联互通和分析利用而显现。
要落地,除技术架构外还必须要考虑很多非技术因素(如:部门间数据共享,进口和国产设备的数据标准和格式是否兼容,数据的安全,法律隐私等…),所以,为了帮助城市解决交通这个大难题,此方案进行模块化设计,可以分步实施并可以对非技术因素作适度地处理而容易落地。
目前落地较好的如公交系统。
通过对现有交通传感器数据的可获得性,数据质量,可靠性和实时处理需求进行调研,论证实现基于流技术的多源交通数据融合的可行性和融合方法,实现通过数据融合分析预测道路交通流量的变化情况,并提出支持海量公共交通数据管理与分析的高性能数据仓库架构与基于大数据平台的分析应用框架,以及实施方案。此平台可以作为未来交通数据和应用开发整合标准,通过平台的建设充分融合各类数据并消除原来单个独立系统建设常见的公共功能重复建设的问题。我们可以做出4个功能。
面向政府管理部门公交智慧分析与决策:
面向公交运营公司的实施智能监控管理:
面向乘客的信息发布系统:
基于物联网/公交联网的综合信息平台:
应用界面实例:
此智能公交决策辅助系统在国内某些地区已经落地并已取得较好地商业运营。
其它可运用的领域:
金融个人信用分析:
房地产销售分析和预测
油井斟探数据模拟:
车站客流分析:
媒体内容对读者或观众影响的分析。
总结:大数据是21世纪最性感的技术之一,在智慧城市建设中大有可为。
因为时间关系,不能逐一详述,仅在此抛砖引玉供大家参考。如有兴趣的朋友请单独细聊。很高兴在这里和大家认识并分享,以上交流所谈仅代表个人观点和专业观察,不代表任何企业商业倾向。分享中个别引用的数据和图均为公开信息或已经本人同意。在此分享有关信息仅限此次交流用。
陈新河:联盟副秘书长;《软件定义世界,数据驱动未来》@卿刚再次感谢卿总的精彩分享!
欢迎大家加入科技杂谈菁英汇,交流思想、分享信息。仅限行业商端人士参与。参与方式:点击左下方“阅读原文”填写您的加入信息,科技杂谈通过审核后,会添加入群。
本文仅代表作者观点,科技杂谈授权刊登。
转载必须注明作者与科技杂谈,侵权必究。
科技杂谈文章,均同步发布于犀牛财经网。
已入驻搜狐新闻客户端,网易阅读客户端。