MySQL 狠甩 Oracle 稳居 Top1,私有云最受重用,大数据人才匮乏! | 中国大数据应用年度报告
科技长河,顺之者昌,错失者亡。在这个技术百态之中,中国专业的 IT 社区CSDN 创始人&董事长蒋涛曾多次在公开活动中表示,开发者是对技术变革最敏感的人群。这不仅源于开发者、工程师创建了助力这个时代蜕变的工具,他们还极具前瞻性地缔造了真实世界之外的虚拟、数字化世界。
当前,在 AI、物联网、云计算、大数据等技术编织的巨网下,不想错失新的机遇,或许我们可以从已身在局中人的观点及整体趋势来汲取一二。
CSDN 最早从 2004 年开始针对中国开发者进行大规模调查,是迄今为止覆盖国内各类开发者人群数量最多,辐射地域、行业分布最广的调查活动。在《2019-2020 年中国开发者调查报告》中,面向具备超强计算力的数字化世界,我们进行了「大数据技术应用现状分析」,并发现:
Hadoop 社区正式发行版本开发者最受欢迎;Spark 是使用最普遍的大数据平台组件;Redis 和 Kafka 是最普遍使用的消息队列和数据采集技术组件。
大数据时代已至!
在全面云化时代下,正如《大数据时代》的作者之一维克托教授所分享的,大数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,绝大部分都隐藏在表面之下。而发掘数据价值、征服数据海洋的“动力”就是云计算。
在过去几年间,很多人亲眼见证并体验到了这一点。根据调研数据显示,我们发现在政府政策的驱动,以及算法、区块链、云计算等技术的成熟发展等多重因素下,自 2017 年起,应用大数据技术的企业出现迅速增长,截至目前,已有 81% 的企业正在运用大数据技术进行应用开发。
对于开发者/企业而言,大数据带来的利好显而易见。根据调研结果显示,有 64% 的开发者表示应用大数据能够实现更智能的决策;其次,54% 的开发者表示提升了运营效率;29% 的开发者表示其产品或运营决策大部分依赖A/B测试。
不过,从已从事大数据的企业中,我们发现有 78% 企业大数据团队规模在 30 人以下,其中 5 人以下规模的团队占比为 37%,而 100 人以上较大团队规模的仅有 5%。
从企业大数据团队的规模来看,这意味着,诸多的企业在这一方面的投入仍处于初探或刚起步阶段。
云时代下的企业困境
中国有句老话,「万事开头难」。对于刚处于初次尝试的大数据企业,面对需要具备强大的计算、分析、处理能力,万事起步更难。在调研数据报告中,这一点也得到了证实。在很多开发者/企业在踏出第一步时,56% 的受访者表示,「如何做大数据应用规划」成为其面临的主要难点,也成为影响企业大数据应用落地的最大障碍。此外,企业内部能够胜任这方面工作的人才也较为缺乏,本次调研数据也说明,大数据人才的缺乏是企业构建大数据应用时遇到的普遍问题之一。
事实上,基于这一点,业界不少领军企业也纷纷推出协作共赢计划,旨在帮助更多的同行者,共建、共享、共享完善的技术生态。以华为为例,华为将以“鲲鹏+昇腾”为底座,在未来 5 年投入 105 亿元(15亿美元),构建“华为鲲鹏生态”。基于鲲鹏生态,各行各业可快速上手基于华为鲲鹏和昇腾处理器的 IT 基础设施及行业应用,包括 PC、服务器、存储、操作系统、中间件、虚拟化、数据库、云服务及行业应用等,在大数据与人工智能场景,发挥其架构优势,释放多元算力。
目前,华为云已经拥有超过 4000 个鲲鹏生态合作伙伴。在“新基建” 34 万亿投资浪潮中,5G、人工智能、大数据中心和工业互联网领域所产生的算力需求和国产化需求,让华为鲲鹏生态充满机遇,吸引更多企业级应用与 SaaS 服务对华为鲲鹏做兼容性适配。
私有云是诸多的企业的首要选择
在井喷式爆发的信息之下,随着云计算技术的成熟及广泛应用和出于对数据安全性的考虑,很多企业选择了私有云解决方案来部署大数据应用,这一占比在 2019 年达到了 50%。除了安全方面的考虑,不少企业也基于部署速度、弹性扩展、运维流程从而选择了私有云。另外,也有 28% 的企业选择自主研发来构建大数据平台。
企业大数据平台构建现状
基于以上,当一部分企业正在着手做大数据应用规划之际,部分企业开始将传统的一些场景实现数据可视化。据调研数据显示,目前大部分企业对大数据的应用更多体现在统计分析、报表及数据可视化上,占比为 56%,相较于传统的人工输入统计分析,大数据的应用在很大程度上提高了效率并减少了劳动力。
其次,在机器或设备数据实时监控、告警与运维管理上,大数据应用也相对广泛,占 33%。随后,大数据还应用于用户画像建模、个性化推荐与精准营销中,占 29%。
整体而言,当下企业大数据应用场景仍相对单一。
企业数据主要来源于企业内部的日志数据,主要包括系统日志和用户行为日志,根据本次调研数据显示,此项占 60%,其次,来自供应商或合作伙伴提供数据的占 37%。
在数据规模上,据调研数据显示,45% 的企业日均处理数据规模在 1TB 以下,1-10TB 的企业仅占31%,日均处理数据规模在 10TB 以下的企业占到七成。
本次调研中,55% 的企业大数据平台集群规模拥有 20 个节点以上,其中 5% 的企业集群规模在 5000 个节点以上。
Spark、Redis、Kafka 成大数据开发者最喜爱的技术
据调查报告显示,开发者仍以主流的技术为主。
框架:Hadoop 社区正式发行版本最受欢迎
在大数据平台的技术应用层面,除了 Java、Linux 等语言及命令之外,Hadoop 是大数据开发的重要框架,它主要以一种可靠、高效、可伸缩的方式进行数据处理。Hadoop 除了社区发行版,还有商业发行版,主要提供了更为专业的支持,这对于大型企业较为重要。
据调研报告显示,仅 19% 企业使用商业发行版 Hadoop 版本搭建数据平台,更多的企业主要是选用了社区正式发行版,占比 34%。不过,也有 32% 的企业表示未使用 Hadoop 搭建数据平台。
Spark 是使用最普遍的大数据平台组件
作为专为大规模数据处理而设计的快速通用的计算引擎,Spark 是大数据开发者们必备的技能之一,它可以独立运行,也可以在 Hadoop、 Mesos、云端运行,它可以访问各种数据源包括 HDFS、Cassandra、HBase 和 S3,可以提升 Hadoop 集群中的应用在内存和磁盘上的运行速度。Spark 生态系统中除了核心 API 之外,还包括其他附加库,可以为大数据分析和机器学习领域提供更多的能力。
本次调研中,Spark 是使用最普遍的大数据平台组件,使用率达到 44%。而 MapReduce 使用率仅为 21%。分布式文件系统 HDFS 作为核心组件之一,使用率也达到了 39%。企业对大数据平台应用最多的场景是统计分析、报表生成及数据可视化,38%企业使用ELK(ElasticSearch + Logstash + Kibana)实时日志分析平台。
Spark组件中,SparkSQL处理速度快并且能够和 Hive 完全兼容,以 56% 的使用率排在使用 Spark 组件首位。Streaming、SparkR 使用率分别为27%、24%。
Redis 和 Kafka 是最普遍使用的消息队列和数据采集技术组件
消息队列中间件是分布式系统中重要的组件,主要解决应用解耦、异步处理、流量削峰、消息通讯等 问题。Kafka 使用最为普遍,占 42%。Redis 占比为38%。其次为 ActiveMQ,占比 28%。
开发者在全面云化时代下的技术应用
在数字化世界中,技术不分家,如文章伊始所述,发掘数据价值、征服数据海洋的“动力”就是云计算。在云方面,据调研报告显示,34% 的开发者用容器进行开发,33% 的开发者不使用容器技术。开发者基于云上/浏览器 IDE 进行软件开发的三要素,最普遍的是启动速度快,操作便利性和桌面版 IDE 可以媲美。
在使用国产新架构平台(如国产 AI 芯片、ARM 服务器芯片等)进行开发时,如果常用的软件栈/开源组件/基础库/加速库缺乏对应的适配,28% 的开发者会选择与厂家联合开发相应适配。此外,在对比 ARM 架构的 CPU 和 x86 系列的 CPU 时,很多受访者选择 ARM 架构的最核心原因方面,除了价格、兼容性之外,有 13% 的开发者认为是 ARM 架构具备多核分布式优势。
在这一点上,华为发布的具有高性能、高吞吐、高集成等特性的鲲鹏处理器,也在 ARM 生态的基础上,针对大数据、分布式存储、数据库、原生应用和云服务等优势场景进行了深度优化。其中在大数据场景下,华为鲲鹏的多核高并发高度匹配海量数据处理需求的能力,可在性能上提升 30%,同时节省空间和功耗。
如何抢占大数据的“风口”?
综上,时钟运转,大数据已逐步从概念延伸到了科学和商业领域,并在各种信息数字化的趋势下,早已不再是一门单一的学科。对此,墨尔本大学讲师宫明明点评道,「目前大数据的发展热潮令人欢欣鼓舞。企业要想真正从数据中获益而不是盲目跟风,首先需要建立优秀的大数据人才团队。正所谓将不在多而在精,一个优秀的大数据团队,需要有对产品开发具有高敏感性同时对技术有一定理解的人才,同时需要理论基础极其扎实,能对实际问题进行抽象建模和算法设计的人才。只有双管齐下,在产品和技术方面进行深层次探索,才能真正实现大数据产业的繁荣。」
版权声明:《2019 - 2020 中国开发者调查报告》版权属于 CSDN,转载、摘编或利用其他方式使用本调查报告文字或观点应注明来源。