爱收集资源网

AI工程师和数据分析师的必学技能

网络整理 2023-10-01 11:06

作者:李禹锋,重庆芝诺大数据分析有限公司数据挖掘工程师。

#4:4:9:7:a:c:3:7:b:a:e:f:1:5:e:6:1:f:b:3:c:e:0:b:1:9:b:1:b:8:3:3#

在开始写正文之前,说点引言,憋了几个月,终于开始着手写第一个系列,现在网上各类从零开始系列,我写这个意义就觉得不是很大啊,其实我很想写个手把手搭建深度学习网路或则从小白到人工智能达人等等一类的系列文章,不过没点编程基础还确实有些难堪,自己几斤几两心上面没点。。。

#4:d:a:e:f:2:a:9:5:f:a:9:b:1:b:d:e:2:5:9:f:0:8:7:6:e:a:d:6:b:b:6#

#4:4:9:7:a:c:3:7:b:a:e:f:1:5:e:6:1:f:b:3:c:e:0:b:1:9:b:1:b:8:3:3#

真正要学会深奥的算法,真正要将算法应用到现实问题中进行数据剖析,至少是要学会一门语言的,无论是python还是R或则Java、JS等等,这是一个计算机语言百家争鸣的时代,只是近些年来python和R在数据挖掘、深度学习、人工智能等领域火得有些令人发指,如前百度首席科学家吴恩达、计算机视觉领军人物李飞飞等人使用的工具均为python。

#1:0:a:c:2:9:a:9:7:6:e:3:7:f:1:0:f:b:8:a:6:d:b:0:1:1:1:a:7:9:f:f#

#a:d:1:3:0:2:e:c:e:2:e:8:8:a:1:f:f:d:b:f:0:7:e:f:5:6:7:4:b:e:7:6#

一直有不少同学在问我怎么做数据剖析,如何爬虫,如何学习python,数据分析师、AI工程师该从什么方向学习,跟着接下来几个系列一步一步的学,首先是这个基础系列,之后会有爬虫系列,数据挖掘系列,深度学习系列,如果诸位看官兴趣比较浓重,也会写一些图象辨识、语音识别、文本挖掘、情感剖析的案例。不过若果一开始就写这些听起来就感觉高档的东西,任谁都看一眼就丢了,所以一切从基础开始,从零开始。主要会从python的角度来写,如果希望学习R的朋友也比较多的话也会写一些R的文章,爬虫部份和数据库部份可能会讲解一些会用上的JavaScript,有兴趣自己搭建点网站来玩儿的后期也会写一些python和NodeJS的网路编程。

正如前几年大数据的概念很火爆,这三年人工智能的概念同样如日中天,但那并不是如今才有的东西,我们身边早就参杂着人工智能的产品,例如前些时侯发布的iPhone X刷脸系统(支付宝不是前些年才能刷脸登陆了吗),阿里的无人商场,百度地图、高德地图等等地图路线规划,语音转文字,再广泛一些的话,例如手写文字辨识,各大电商网站推荐系统,各种网站广告推送系统,网易云音乐推荐系统(那是一个厉害,我就天天听日推)。并不只是像AlphaGo、AlphaGoZero一类的产品才是人工智能,也并不是像终结者那样影片里的那个机器人才是人工智能。别整天都吵着闹着人工智能又要毁灭人类了啥的,Sparta!超凶的。

#b:1:7:7:2:d:f:a:0:a:5:9:1:7:e:5:6:7:c:d:1:b:9:a:2:5:1:c:c:7:8:e#

人工智能的核心虽然是背后的算法,对于做数据剖析的人来说,其实就是数据挖掘,深度学习也不过是深层神经网路的别称,应用的话大体上有几个方向,自然语言处理,计算机视觉,机器人等等。当然,绝大多数的产品并不这么智能,成功的案例少之又少,失败的产品就如前段时间饥荒联机版出的成就系统里空SAN值那种成就一样——人工残障。

#c:9:2:a:a:4:7:d:4:d:8:1:5:f:6:b:d:c:8:0:2:e:4:f:2:f:2:c:a:2:a:b#

(扯了半天,其实我就是想放一张威尔逊233)

前言扯了快一千字了,不过了解行情也是十分特别重要滴。下面开始即将开启python基础篇,首先是运行系统,安装和编辑器选择等问题。对于大部分学习的人来说,Windows或Mac系统是用得比较多,但是实际生产环境中Linux也是较多的,特别是一些互联网企业,but … whatever(李飞飞口头禅你信么),需要写的代码差异都不会太大(前期只有部份文件系统有些差别,大概吧。。。),本系列就从Windows入手。Win7、Win8、Win10都无所谓,对于学习来讲,系统的选择都没啥差别,如果确实苦恼可以使用VMware建虚拟机。

接下来是安装,python和R都有个特别可恶的事儿——版本兼容问题。Python主流有2和3两个版本,生产环境中均有使用,不过针对数据挖掘,用python3.6做开发的较多。Python版本控制是很操蛋的事儿,程序、代码都不是哪些事儿,写程序无非抄抄抄,改插口,抄抄抄,改插口,然后re-pe-pe-peat…最困难的一步永远是环境的配置(针对非专业人来说的话),曾经还是小白的我哭着四处找运行库的安装包(pip退散pip退散pip退散)。直到后来用anaconda,把很多运行库都外置了,还包括c++的环境(python上面有很多代码底层是用c++实现的),下面是anaconda的下载地址,不用害怕网速问题,这是清华大学的镜像,不用翻墙。

当然前提是得安装python。

并不大,在官网下载即可。Anaconda的大版本号对应着python的大版本号(2或3)。安装时注意要对应。

#6:9:b:e:2:5:b:b:e:2:a:0:3:d:8:0:7:4:1:0:3:e:a:d:d:5:a:d:d:8:7:f#

推荐使用如下两个版本

#e:9:c:b:6:a:5:6:5:a:2:3:4:8:4:8:6:6:5:b:7:c:1:c:2:1:4:5:8:6:f:5#

#a:1:c:4:b:6:a:1:6:2:7:8:1:7:e:b:e:9:f:8:b:6:6:2:2:8:e:7:2:0:c:8#

安装完毕打开以后可以看着如下界面:

#9:2:f:4:6:e:a:d:e:1:3:8:9:1:1:d:4:f:b:8:9:a:2:9:0:c:a:d:d:5:d:e#

纠结版本问题的朋友可以在Environments上面随便创建自己想要的版本。部分版本,如2.6、3.4等曾经的难以直接在Environments里进行键盘点击创建,可打开命令行(win7:开始菜单,输入cmd;win10:小娜输入cmd),使用cd命令步入到anaconda安装路径下的Scripts目录,使用conda create -n 虚拟机名称 python=X.X(X.X是想要创建的版本)来创建对应版本的虚拟机。一般情况下使用一个版本一个环境就足够了。

同时须要学习的框架,例如后文要使用的爬虫scrapy、pyspider、portia等,数据挖掘numpy、pandas、scikit-learn,深度学习theano、tensorflow、keras等等库都可以在Environments里一键搭建,而不需要自己再去下载各类依赖库(主要是c++的)。

同样还有另外一个问题,用啥来写代码——编辑器的选择问题,其实吧,编辑器选啥和系统的选择一样,啥用着舒服就用啥,没有最好的,我个人用过eclipse+pydev、idle、nodepad++、sublime3、pycharm、spyder、jupyter等等十几种编辑器,最后发觉编辑器用啥根本无所谓,核心的代码几乎没啥变化。新手的话推荐使用anaconda自带的Spyder和Jupyter。Spyder的提示功能较强悍,与RStudio有些类似。

#9:3:0:9:1:e:c:1:4:4:e:9:f:e:c:0:5:e:a:8:5:5:e:2:f:b:2:9:0:a:e:6#

Jupyter属于网页编辑器,吴恩达Coursera的课程也是拿Jupyter来进行编程,可以将代码分成多个块分别运行(全局变量和导出的包会通用),提示功能偶尔会有些扯犊子,不过总体来说用着较易上手。

#7:8:2:2:f:8:8:a:a:0:9:6:d:b:1:c:f:0:1:8:c:5:0:e:d:0:9:7:e:4:6:4#

本系列使用Python3.6.3,编辑器采用Jupyter进行讲解。首先打开anaconda里的jupyter(上图那种),打开后会是如下界面(文件和文件夹依照笔记本安装过的软件各有差别)。

#a:e:1:1:9:8:e:6:a:1:8:8:c:6:2:6:b:8:f:6:4:c:1:c:7:b:e:a:2:6:a:9#

这个目录可能你会有些陌生,这是哪,我是谁,我在干嘛,今天的风儿真是喧闹啊~~~

别懵,这或许就是你笔记本上的一个路径,我使用的是微星本,根据电脑的不同,路径会有一些差别,但都大同小异,这个文件路径在C:\Users\Administrator。

打开磁盘后,咦,没Users文件夹啊,提问,Users英文哪些意思,来,跟着我一起念,用——户——(mdzz),部分朋友在使用笔记本的时侯有创建自己的用户,那对应步入自己的哪个用户即可。进入后会发觉好多以“.”开头的文件和文件夹,对应着Jupyter打开界面,所有“.”开头的文件和文件夹都没有显示。

如果想要修改Jupyter的起始工作路径(打开界面后显示的那种路径),找到.jupyter文件夹,里面有一个jupyter_notebook_config.py配置文件(打不开啊,双击直接运行了啊,用IDLE打开吧亲,右键即可),找到如下两行(ctrl+f快速查找)

## The directory to use for notebooks and kernels.

# c.NotebookApp.notebook_dir = ''

将第二行的#去掉,在单冒号中输入自己的初始工作路径,保存(ctrl+s快速保存),最好使用全英语路径,python2对英文略不友好。

终于,环境配置完成,始终有一种完结撒花的觉得。这个小编能不能行啊,别人那么多字都讲了好几篇了,你还半点程序没开始写。

其实对于初学者和非计算机专业的人士,环境的配置是十分困难的事情,不少研究生和博士生常常会来问我一些依赖库和环境的问题,程序会莫名其妙的出错,我都根据教程里面写的啊,一个字不漏啊,怎么程序老是运行不了?这种问题一般情况下是版本问题或则依赖库问题,想要学习一门语言,先会安装包,安装环境。

扯回去,在Jupyter中步入到自己的工作路径

#6:c:9:4:d:f:0:1:d:7:d:d:3:9:a:c:9:d:7:b:e:5:6:5:6:0:a:b:0:8:b:f#

可以创建一个新的工作环境

#1:f:a:6:e:7:7:4:b:3:f:3:a:f:c:5:4:2:0:e:6:2:7:b:b:9:a:b:5:6:4:b#

致敬一下老前辈们定下的不成文的规定,在输入框中输入以下指令

print(“Hello World”)

点击Run或按shift+enter(运行并创建一个新的代码块)或ctrl+enter(运行不创建新的代码块)。

输出如下

#1:5:e:e:d:d:2:2:7:d:a:3:a:5:3:c:9:1:6:6:3:6:6:7:6:7:3:0:8:1:1:6#

人生苦短,我选Python。

饥荒输入代码没用
相关文章