其他

想要玩转数据可视化?先弄清我们能用非结构化数据做什么吧

2018-03-21 张雪倩 数据猿

【数据猿导读】 数据可视化领域从业者面临的最重要挑战之一,就是能用非结构化数据来做什么


作者 | 张雪倩

官网 | www.datayuan.cn

微信公众号ID | datayuancn


我们越来越擅长理解非结构化数据,但仍未达到理想状态。


数据可视化发展近几年突飞猛进。企业使用愈发令人惊叹的软件来展现他们收集的海量信息,使用反应敏捷、互动性强、往往又非常漂亮的表现形式,让观看者参与进来——无论是会议室里的决策者还是科技馆里的孩子们。


数据可视化领域从业者面临的最重要挑战之一,就是能用非结构化数据来做什么。非结构化数据是指所有不能纳入关系数据库的数据,包括视频、幻灯片、公司记录、社交媒体、RSS、文件和文本——基本上就是绝大部分的交流。


据估计,世界上80%的数据都是非结构化的,而且这一数字正迅速增长,IDC预测非结构化数据将从2015年的9.3ZB到2020年增长至44.1ZB。它对企业的重要性也同样迅速增长着。墨尔本大学客座讲师与(商业分析)研究员Ranko Cosic曾指出:“在我看来,运用数据的方式在接下来几年中的变化将是,虽然企业会继续收集和分析数据仓库、传统数据库和关系数据库中的结构化数据,也将更多关注收集和分析传统网站与社交媒体网站上的以录音、图像、音乐、文本、视频和交互式内容形式出现的非结构化数据。”


非结构化数据如此重要,其原因是它所提供的语境。分析结构化数据能够告诉我们什么正在发生,但是通过分析复杂的非结构化数据流才能知道为什么会发生。结构化数据包含收入表现和运营指标,但是非结构化数据的文本能够展示对公司产品的看法、员工信息和竞争优势。


然而,对非结构化数据的分析则是一门相对来说比较新的科学,其规模和复杂性以往使得人们难以理解。高效处理非结构化数据是许多创业公司的目标,他们中的大部分现在关注于使用机器学习算法对其进行解锁,而不是像以前会将非结构化数据转化为结构化数据。他们将分析和可视化都自动化,所以公司能够立即从非结构化数据库得到结果。


BrainSpace和DeepDive是其中取得重大进展的两个创业公司,而且它们都获得了大型融资。Brainspace的CEO Dave Copps告诉我们:“之前,我们能够对非结构化数据做的只有搜索,搜集起来一堆文件,然后用关键词去尝试(搜索)。Tableau和Quickview之类的技术通常适 47 30209 47 14397 0 0 811 0 0:00:37 0:00:17 0:00:20 3186合检索结构化数据,但是一旦你从文件中抽出词来看,语境就不在了。所以,比如说你在分析简历,如果你从一名软件开发者的简历中找到了‘Java’,但你不知道这个词的存在是否只是因为那个人写了‘我的Java很差劲’。我们做的,不仅仅只是分析词句,而是着眼于词与词之间的空白——语境。”


然而,我们在非结构化数据的分析上取得了一些显著进步的同时,实际上仍未发挥信息的全部潜力。在动态数据专家Logtrust最近受委托的451研究中,有反馈的IT经理中有89%表示他们将结构化数据方案在企业中提升到很高的优先级,然而只有43%的人认为非结构化数据方案有一样的优先级。


改变这些态度的关键就是数据可视化。像BrainSpace这样的公司提供具有参与性、互动性的自动可视化,但仍有许多未被发现的潜力。洛克希德马丁的首席数据科学家Walter Storm指出:“技术确实使得非结构化数据更易被分析——一大问题却是:‘这种分析有什么用?’ 主题建模、图表分析、甚至降维和可视化都有许多艺术可言。有多少特征?都是些什么?深网中有多少层?有多少节点?多大的粒宽能展现良好的差异性?第二、第三顺序衍生出的特征空间中相邻两者之间的关系是什么?这种算法到底刚学习到了什么?我的假设是什么来着?”


探索新鲜事物是件很棒的事情,但是如果你不能说服决策者,让他们相信你想探索的东西确实是存在的,使他们采取合适的行动,那么这对企业来说就完全没有意义。数据可视化是实现这一点最好的方法,它揭示了数据中无法以其它方式来理解的复杂结构。人类大脑处理信息的方式意味着,通过视觉的方式将它传达给人们并使得他们参与其中,让你可以描述出你所发现的模式,甚至可以发现这种模式的洞察。这也能让更多的人更易理解数据,可能有助于提升整个企业的数据平民化,并带来更多的洞察。


相较于传统数字化的数据,非结构化数据可视化带来了独特的挑战,且仍处于初期阶段。在最近旧金山数据可视化峰会上,通用汽车的数据可视化专家Ken Cherven使用以往所有国情咨文做了示范。他的示范结果显示了为什么可视化对于理解非结构化数据是非常有必要的,它也为我们提供了激动人心的机会,来创造性地以之前被认为是不可能的方式来展示信息,并为我们提供从中学习的机会。


注:本文由TalkingData解决方案架构师 张雪倩 编译,并由TalkingData投递并授权数据猿发布,原文作者为James Ovenden


原文链接:

https://channels.theinnovationenterprise.com/articles/why-we-need-data-visualization-to-understand-unstructured-data



4月26日-4月27日,AI in China 之智能制造-数据驱动产业变革-高峰论坛即将开始,期待我们的见面👇



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存