数据治理 | 遇到海量数据stata卡死怎么办?这一数据处理利器要掌握
我们将在数据治理板块中推出一系列原创推文,帮助读者搭建一个完整的社科研究数据治理软硬件体系。该板块将涉及以下几个模块:
计算机基础知识
编程基础 数据采集 数据存储 (1)本期内容:社科研究软硬件体系搭建——团队数据资源整合利器安装
数据清洗 数据实验室搭建
Part1前言
随着云计算、物联网、移动互联网的广泛应用,人类社会真正进入了大数据时代。大数据对社会科学的发展有显著的促进作用,一方面,大数据为本身具有数据需求与实证传统的社会学科研究提供了更为丰富的数据基础;另一方面,数据为社会科学的各个研究领域带来了新的视野和新的研究方法,提供了更为广阔的跨学科、跨领域研究的可能。
以往的统计数据、工企数据等数据资源,大家可能存在excel表格中,或存在dta文件中;使用这些数据时,用Stata等计量软件进行读取与处理;需要分享给其他研究人员时,通过文件拷贝的方式共享。当社会科学领域的学者们试图用大量的数据(上亿条记录)进行实证分析时,传统的数据存储、调用、共享的方式将变的低效甚至可能失效。
当社科研究邂逅大数据,我们必须有能力处理海量的数据,其中最基础的能力是如何存储与调用海量数据。我们将推出一系列关于数据库的推文,希望读者能够掌握海量数据处理的基本能力。本文是数据库相关推文的第一篇,主要介绍数据库相关概念,并指导大家安装MySQL数据库。
为更好运用本文知识,推荐大家先阅读上一篇推文:社科研究软硬件体系搭建——虚拟化技术概述与实践。
Part2什么是数据库
相信读者都有过刷身份证乘坐高铁的经历,当我们购买车票后,我们的身份信息和购票信息会对照起来起来,存储在数据库中,当我们刷身份证入站时,检票系统就会通过查询数据库,判断我们的身份信息上是否绑定了购票信息。如果用人工完成上述工作,不知要花多少时间,而使用数据库系统则可以大大提高查询效率。
数据库(Database,DB)是信息(一般以电子形式存储在计算机系统中)的有组织的集合。如果把书看成“信息”,那么数据库就是一个书柜。数据库通常由数据库管理系统 (Database Management System,DBMS) 来管理和控制。
在现实中,数据库和数据库管理系统高度关联,一起被称为数据库系统,通常简称为数据库。比如,我们常说的MySQL软件,就是一个数据库系统,它由MySQL数据库和MySQL管理系统组成。其中,MySQL数据库其实是计算机系统中的一系列文件的集合,这些文件有特殊的格式,能够被MySQL管理系统读写和管理。
当今最常见的数据库通常以行和列的形式将数据存储在一系列的表中(如下图所示),支持用户便捷地访问、管理、修改、更新、控制和组织数据。这种数据库系统叫关系型数据库系统(Relational Database Management System,RDBMS)。具有代表性的关系型数据库系统有:Oracle、MySQL、SQL Server等。
读者需要注意,MySQL的数据库管理系统无法控制Oracle数据库,因为Oracle数据库是一堆特殊格式的文件,这些文件只能够被Oracle数据库管理系统控制。同样,Oracle数据库管理系统也无法控制MySQL数据库。
关系型数据库的常见结构如下图所示,用户通过客户端程序与数据库管理系统进行交互,数据库管理系统是一个程序,用来管理数据库,数据存放在数据库中。站在使用者的角度上看,数据库管理系统是透明的,使用者只要发出SQL指令(SQL是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理数据库系统),就能对数据库进行增、删、改、查的操作,而这些功能都是由数据库管理系统提供的。
Part3MySQL 数据库安装
学习数据库系统的最好方法就是动手安装与操作一款数据库。本小节我们将为大家演示如何安装MySQL数据库系统。
系统准备
MySQL数据库可以安装在Windwos或Linux操作系统上,为了让大家更快上手,我们选择在windows server 2016 操作系统上搭建MySQL数据库 8.0 版本,我们可以在虚拟机中安装 windows server 2016 用于学习(见上期推文:社科研究软硬件体系搭建——虚拟化技术概述与实践)。
在安装MySQL数据库 8.0 版本前,我们需要按照MySQL 8.0 官方文档[1]的提示,配置好我们的系统环境。
MySQL官方文档提示我们需要在 Windows 操作系统上安装 Microsoft .NET Framework 4.5.2 或更高版本。首先,我们需要确认当前 windows 系统中 Microsoft .NET Framework 的版本,在Windows资源管理器的搜索栏中,输入C:\Windows\Microsoft.NET\Framework
回车。
进入【v4.0】开头的文件夹,选择一个文件(例如:AddInProcess.exe),右击查看属【属性】,在属性窗口中,点击【详细信息】,可以看到产品的版本为【4.6.1586.0】,已经高于MySQL要求的版本。
如何版本不符合要求,我们可以到 Microsoft .NET Framework 4.5.2 网站[2]进行下载,现在完成后双击安装程序进行安装即可,过程略。
下载 MySQL 社区版
MySQL社区版安装程序下载地址:https://dev.mysql.com/downloads/installer/。
点击【下载】后,会有一个注册提示,我们可以选择【不,谢谢,开始我的下载】。
安装 MySQL 数据库
下载完毕后,我们双击打开安装程序,稍等片刻后,我们进入MySQL安装界面。该安装程序旨在简化 MySQL 产品安装的复制性,里面整合了:MySQL服务器、MySQL应用程序、MySQL连接器等内容。
我们只需要安装 MySQL 数据库,选择【Custom】,然后点击【Next】。
在【MySQL Servers】下选择【MySQL Server 8.0.27 - X64】,点击箭头【→】。
选中【MySQL Server 8.0.27 - X64】后,点击下方【Advanced Options】。
这里我们可以指定 MySQL数据库的安装位置【Install Directory】,以及数据库相关文件的存放位置【Data Directory】,设置好后点击【OK】。(注意:这些文件夹不需要事先创建)
设置好目录后,点击【Next】继续下一步。
接下来,我们进入到了【Check Requirements】这个步骤,安装程序会检查当前系统环境是否满足安装MySQL数据库,如果不满足则会弹出提示。我们需要点击【Execute】,执行安装前的环境检查。
检查过程中如果出现弹窗,说明需要安装一些依赖程序,同意许可后,点击【安装】,安装完成后点击【关闭】。
环境检查完毕后,点击【Next】。
下面开始正式安装MySQL数据库的核心组件,点击【Execute】。
完整完成后,显示【Complete】,然后点击【Next】。
接下来,开始配置MySQL的参数,点击【Next】,进入参数配置。
配置【Type and Networking】,我们选择【Config Type】为:Server Computer,其他选项保持不变,需要注意,3306端口是我们访问MySQL库的专用端口。点击【Next】进入下一个设置。
配置【Authentication Method】,这个选项用来设置密码的复杂模式,默认即可,点击【Next】进入下一个设置。
【Account and Roles】用来配置用户及密码。我们先设置好【MySQL Root Password】这个选项,然后记住输入的内容。
Root是超级管理员,我们最好添加一个普通的管理员,对数据库进行管理使用。点击【Add User】出现【MySQL User Account】弹窗,我们填写好用户名【User Name】和密码【Password】,点击【OK】,其他选项表示默认即可,点击【OK】完成用户添加。注意:【Host】一栏中的【<All Hosts (%)>】表示该用户可以通过网络访问到MySQL服务器。
点击【Next】进行下一步配置。
接下来配置【Windows Service】。Windows Service 是主要用于服务器环境而长期运行的应用程序设置。MySQL数据库需要长期运行在操作系统上,将 MySQL 配置到 Windows Service 中,我们可以方便管理 MySQL 的启动与关闭。我们保持默认即可,点击【Next】进行下一步配置。
进入到【Apply Configuration】,点击【Execute】,让之前的配置生效。
稍等片刻后,配置完成,点击【Finish】。
回到安装界面后,可以看到 MySQL Server 已经配置完成(Configuration complete),点击【Next】,进行下一步。
最后,安装界面显示安装完毕,点击【Finish】退出安装程序。
安装完成后,我们可以打开【任务管理器】在【服务】界面中,可以找到【MySQL80】这个服务,它已经默认启动了,我们的计算机重启后,该服务也会自动重启。
然后在我们指定的安装磁盘中也出现了我们手工设置的目录。【mysqldata】文件夹中的各类文件的集合可以看做MySQL数据库,【mysqlserver】文件夹中的各种可执行文件组成了MySQL数据库管理系统。
Part4MySQL 客户端安装与使用
安装客户端
MySQL 数据库软件是一个客户端/服务器系统,上面我们安装的只是MySQL服务器,我们需要一款客户端软件来连接MySQL服务器。
常见的 MySQL 客户端软件有:Navicat for MySQL、phpMyAdmin、MySQL Workbench、DBeaver等。其中,DBeaver是一款很强大的数据库连接工具,支持多种数据库,并且有免费使用的社区版本,我们使用DBeaver连接MySQL数据库。
我们先将 DBeaver 安装在本地,然后去连接虚拟机上的MySQL服务器。选择 DBeaver Community 版本[3],我们下载ZIP版本,可简化安装过程。
解压后,点击【dbeaver.exe】,进入dbeaver,如果没有显示文件后缀,按下图操作。
如果出现【 Windows 安全警报】 提示,则选择取消。
客户端连接到服务器
进入软件后出现【create sample database】点击 “否”。
随后,自动弹出【创建新连接】窗口,点击【取消】。
点击菜单栏中的【数据库】中的【驱动管理器】,在弹窗中,找到【MySQL】,点击【编辑】。
在弹窗【编辑驱动‘MySQL’】中,选择【库】,然后点击【下载/更新】。
在【驱动设置】弹窗中,点击【下载】。
下载完毕后,【驱动设置】窗口自动关闭,我们点击【确定】,然后关闭【驱动器管理器】窗口。
点击菜单栏的【数据库】下的【新建连接】,在弹窗【创建新连接】中,点击【MySQL】,然后点击【下一步】。
在安装好MySQL的虚拟机中,打开【命令提示符】工具,输入:ipconfig,查看虚拟机的IP地址。
在弹窗【创建新连接】中,点击【驱动属性】,将【allowPublicKeyRetrieval】的值改为TRUE。
点击【常规】,在【服务器地址】中填写MySQL数据库服务端所在主机的IP地址,在【数据库】中填写数据库名称,在【用户名】和【密码】中填写安装MySQL过程中设置的账号密码,最后点击完成。
完成,后我们双击连接就可以连上数据库了。用户 newbie 下,默认可以使用【sys】的数据库,因为我们设置的 newbie 是一个管理员类型的用户。
客户端与服务器交互
在继续学习前,我们需要掌握如何在DBeaver客户端中运行SQL语句。首先,点击客户端界面中的【SQL】按钮,打开SQL编辑器。
客户端界面右侧会出现叫做【Script】的编辑窗口。
在编辑窗口输入SQL命令,点击编辑窗口左侧三角形按键,即可执行SQL语句。运行完毕后,出现结果展示窗口。
如果需要保存当前编辑的SQL代码,可以点击【文件】,然后点击【保存】,也可以使用【Ctrl+S】快捷键进行保存。
保存完毕后,在【Project - General】窗口的【Scripts】中会出现保存好了SQL代码文件。
选中一个SQL代码文件,使用【F2】可以修改文件名称。
右击SQL代码文件,选中【属性】可以看到当前存放的位置、文件大小、修改日期等信息。
需要补充一点,我们可以点击连接,然后按【F2】,给连接取名。
Part5总结及预告
本文主要涉及了以下内容
大数据时代,社科研究需要掌握的最基础的技能 数据库以及关系型数据库的基本概念 如何安装 MySQL 关系型数据库 如何通过客户端程序(DBeaver)与MySQL数据库进行交互
后期推文预告
如何将数据导入数据库 如何操作数据库中数据 如何将数据共享给团队使用 敬请期待!
参考资料
MySQL 8.0 官方文档: https://dev.mysql.com/doc/refman/8.0/en/
[2]Microsoft .NET Framework 4.5.2 网站: https://www.microsoft.com/zh-CN/download/details.aspx?id=42642
[3]DBeaver Community 版本下载地址: https://dbeaver.io/download/
点击搜索你感兴趣的内容吧
往期推荐
数据Seminar
这里是大数据、分析技术与学术研究的三叉路口
文 | 陈煌杰
欢迎扫描👇二维码添加关注