机器学习环境配置
所谓工欲善其事必先利其器,因此接下来首先需要完成的任务就是将后续所要用到的环境进行配置。总体来讲配置过程主要可以分为两大部分:一是Python管理环境的安装和配置,另一个是开发环境IDE的安装和配置。
1.1 安装Conda
作为在Python开发中一款优秀的包管理工具,Conda一直以来有着其独特的优势,尤其是在机器学习和深度学习的开发中。例如最新版本的Conda在安装TensorFlowgpu版本时,如果通过conda install命令进行安装,则它还能够自动根据TensorFlow的版本匹配好对应的CUDA驱动程序及cuDNN的版本号,这一点可谓十分友好,因此下面笔者就来介绍其基本的安装与使用。
1.1.1 Windows环境
首先在官网 [1].下载最新版Windows平台下的Anaconda3安装包,然后按照如下安装步骤进行即可。这里顺便提一下,安装Anaconda的目的主要是为了使用里面的Conda环境管理器,因此这里下载并安装的是Miniconda [2]。Anaconda和Miniconda本质上是一样的,Anaconda拓展自Miniconda,里面包含了更多的Python包,因此文件也比较大。由于后续需要创建自己的虚拟环境,所以可以下载更加小巧的Miniconda(安装过程完全一样)。
1. 安装Miniconda
双击扩展名为.exe的安装包进行安装,如果后续无特殊说明,保持默认安装项并直接单击Next按钮即可,如图1-1所示。
2. 指定安装目录
在安装过程中还可以自定义安装路径,但一般情况下保持默认安装路径即可,如图1-2所示。
3. 高级设置
当安装过程执行到这一步时,直接单击Install按钮即可,不用勾选任何复选框,如图1-3所示。
4. 安装完成
安装完成后,单击Finish按钮,如图1-4所示。接下来可以通过打开命令行,然后输入相关命令来测试是否安装成功。
5. 测试
当完成上述安装后,便可以在“开始”菜单栏中找到Anaconda Prompt命令行终端,单击此命令行终端,打开后输入conda -V
命令,如果出现相关版本信息则表示安装成功,如图1-5所示。
1.1.2 Linux环境
1. 下载Miniconda
首先,需要在网址 [3] 中找到对应版本的Miniconda安装包,并复制对应的链接地址,然后通过Linux中的wget
命令来完成安装包的下载,这里以下载最新版本的Miniconda为例,代码如下:
1 #下载Miniconda
2 wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
如果由于网络原因不能完成上述下载过程,也可以从由清华大学维护的镜像中 [4] 找到相应的Anaconda的下载地址,然后同样以wget
命令进行下载,代码如下:
1 #下载Anaconda
2 wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.3.1-Linux-x86_64.sh
2. 安装Miniconda
在完成安装包下载后,打开命令行终端进入安装包所在的目录,然后通过bash Miniconda3latestLinuxx86_64.sh
命令进行安装。如果下载的是Anaconda,则对应安装命令为bash Anaconda35.3.1Linuxx86_64.sh
,要注意区分。在上述安装的过程中,一直按回车键即可。在遇到如图1-6所示的情况时,输入yes,继续按回车键,直到安装结束。如果没有看到这一步也无妨,继续进行即可。
3. 测试
在安装结束后输入conda -V
命令进行测试。如果出现如图1-7所示的版本提示信息,则表示安装成功。
但如果出现conda: command not found
提示,则可试着执行命令source ~/.bashrc
,然后执行测试命令。在这之后如果依旧提示找不到conda
命令,则可试试通过如下两行命令手动添加环境变量,代码如下:
1 echo 'export PATH="/home/username/miniconda3/bin:
2 $PATH"' >> ~/.bashrc
3 source ~/.bashrc
然后执行图1-7中的测试命令便能看到正确的版本提示信息了。同时需要注意的是,上述命令中的username和miniconda3(如果主机安装的也是miniconda3则此处不需要更改)需要根据自己的实际情况确定。
1.1.3 替换源
在安装完成Miniconda后(无论是在哪个平台下),为了加快后续Python包安装过程中的下载速度,这里需要将默认的conda源和pip源替换成清华大学对应的镜像源。替换方式如下。
1. 替换conda源
打开命令行终端,然后依次输入的命令如下:
1 conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
2 conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
3 conda config --set show_channel_URLs yes
2. 替换pip源
打开命令行终端,然后依次输入的命令如下:
1 pip install pip -U
2 pip config set global.index-URL https://pypi.tuna.tsinghua.edu.cn/simple
当然,如果只是临时使用某个pip源,则可以用如下方式进行Python包的安装:
1 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple numpy
1.2 Conda环境管理
由于在实际项目开发过程中,可能会根据情况使用不同版本的Python解释器或者一些相互不兼容的Python包。例如一个项目依赖的Python版本是3.6而另外一个项目依赖的版本却是2.7,显然这两者不能同时存在于同一个环境中。此时,便可以通过Conda环境管理器进行创建与管理Python环境。接下来,笔者将会依次介绍虚拟环境的安装与使用。
1.2.1 虚拟环境安装
在完成Miniconda安装后,便可以通过使用conda create -n env_name
命令来创建一个名为env_name的虚拟环境。同时,如果需要一个特定的Python版本,则可以通过命令conda create -n env_name python=3.6
来创建一个名为env_name,并且Python版本为3.6的虚拟环境。接下来,笔者以安装一个名为py36,并且同时指定Python版本为3.6的过程为例进行演示。
1. 创建新环境
输入conda create -n py36 python=3.6
命令创建新环境,如图1-8所示。
2. 继续安装
在执行上一步的命令后,便会看到如图1-9所示的提示内容,直接按回车键即可。同时从图1-9中可以看到,上一步的命令将会安装一个Python版本为3.6.12的虚拟环境。
3. 完成安装
如果出现如图1-10所示的提示,则表示安装成功。
如果在后续使用过程中想再次更换某个虚拟环境中的Python版本,则可以先进入对应的虚拟环境,然后用以下命令来完成Python版本的更换,代码如下:
1 conda install python==3.6.7
1.2.2 虚拟环境使用
在完成环境的创建后,可以通过命令conda activate env_name
进入对应的虚拟环境。同时,还可以使用命令conda env list
来列出当前存在的所有虚拟环境,可以通过命令conda remove n env_name all
来删除名为env_name的虚拟环境。同时如果需要在对应的虚拟环境中安装相应的Python包,则可以使用pip install package_name
命令来完成,如图1-11所示。最后,可以使用conda deactivate
命令退出相应的虚拟环境。
同时,在本书中所使用的相关Python包的版本如下:
1 jieba==0.42.1
2 matplotlib==3.2.1
3 NumPy==1.18.2
4 pandas==1.1.5
5 scikit-learn==0.24.0
如果需要安装指定版本号的Python包,则可以通过如下命令进行:
1 pip install jieba==0.42.1
1.3 PyCharm安装与配置
在Python开发中,最常用的IDE为PyCharm,从名字也可以看出它是专门为Python开发而设计的。不过也有部分读者更习惯于使用Jupyter来进行程序开发,因为它最大的一个特性就是可以记录整个程序的运行结果。在这一小节中,笔者将会分别就这两种开发环境进行介绍。
1.3.1 PyCharm安装与配置
首先需要到PyCharm官网 [5] 下载离线安装包,如图1-12所示。
页面提供了两种版本:专业版和社区版,其主要区别是前者收费而后者免费。对于初学者来讲社区版就已经足够了。单击Download按钮,然后等待下载完成。
1. 安装PyCharm
双击下载好的安装包,然后持续单击Next按钮。当执行到图1-13所示的界面时,可以勾选如图1-13所示的两个选项,然后继续单击Next按钮即可安装完成。
2. 配置PyCharm
在安装完成后双击PyCharm图标,在第一次打开时可能会有如图1-14所示的提示。
此时选中Do not import settings单选按钮,单击OK按钮即可。最后,单击图1-15所示的New Project按钮以便创建一个新的工程。
按照如图1-16所示的内容输入相应的工程名称和选择对应的Python解释器。
通常图1-16中Interpreter的路径为C:\Users\Username\miniconda3\envs\py3\python.exe
,并且由于这里安装的是Miniconda,所以路径里是miniconda3,其具体的选择方法如图1-17所示。
在解释器选择完成后单击OK按钮,便能回到如图1-16所示的页面,最后单击Create按钮即可完成工程的创建。
3. 更换解释器
如果在后续过程中需要更换虚拟环境(解释器),则可先单击File→Settings,再单击其中的Project Interpreter,然后单击右上角的设置按钮,如图1-18所示。这样便可以回到如图1-16所示的相同的配置页面,最后选择相应的环境即可。
4. 运行示例
将鼠标指针指向工程名,单击New选项,然后选择Python File子选项,输入文件名即可创建新的Python文件,如图1-19所示。
在空白处输入代码后,右击,在弹出的快捷菜单中,选择Run 'test'命令即可运行该程序,如图1-20所示。同时也可使用快捷键Ctrl+Shift+F10来运行该程序。
1.3.3 小结
在本章中,笔者首先介绍了如何在Windows和Linux两种环境中安装和配置Conda管理器,接着介绍了如何一步步创建一个新的虚拟环境和安装Python包,最后介绍了如何下载并安装和配置PyCharm集成开发环境,同时还以一行简单的代码进行了示例。在第2章中,我们将开始正式学习机器学习中的第1个算法模型——线性回归。
引用
[1] https://www.anaconda.com/distribution/
[2] https://docs.conda.io/en/latest/miniconda.html
[3] https://repo.anaconda.com/miniconda/
[4] https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/
[5] https://www.jetbrains.com/pycharm/download/#section=windows