ZwY*-CSDN博客

原创数据挖掘之航空公司客户价值分析——K-Means

本文主要包括以下几部分：1：对航空公司的数据分析去掉无关特征，去掉有误的数据（例如：一年票价为0，第二年票价也是0）2：根据LCRFM模型选取有关特征，对特征数据进行标准化3：使用k-means算法模型对特征聚类分析，比较不同类客户的客户价值4：对不同类客户提供不同的个性化服务，提供不同的营销策略一数据探索：拿到航空公司的数据之后熟悉数据的特征属性，打印一下数据的最大值，...

2019-08-21 17:37:25 4358 3

原创决策树实践案例一之拍拍贷客户逾期还款预测

本文分为两大部分第一部分简单举例讲述决策树算法的原理概念第二部分基于决策树用案例实现贷款是否逾期预测决策树算法是机器学习经典算法之一，原理相对简单易懂。首先决策树毕竟是帮助做出更好的决策的一种算法，决策树ID3根据信息增益的大小作为结点进行分支，拿最经典的西瓜书里判断是否好瓜来举例子，有十七课西瓜各有各的特征，但是我们第一思维是:好瓜毕竟有某种一致的属性，相同不好的西瓜也有它...

2019-08-21 13:02:20 2879

原创特征工程

七种常用的特征工程这位大佬总结的特征工程我觉得真的特别好，我就转载过来有需要的时候看看原文链接：https://www.cnblogs.com/peizhe123/p/7412364.html像一个优秀的工程师一样使用机器学习，而不要像一个机器学习专家一样使用机器学习方法。 ---google当在做数据挖掘和数据分析时，数据是所有问题的基础，并且会影响整个工程的流程。相比一...

2019-08-10 21:36:36 356

原创数据分析项目实战之淘宝女装店铺销售分析（二）excel数据分析篇

淘宝的XX店铺女装信息已经都放到数据库里了，这篇主要是记录一下把得到的数据合理整合分析。读完本文可以了解到：店铺的的销售额在哪个价位相对稳定的，如果有不稳定的有改进的方式吗？不同商品的价格区间的销售情况，提高那个价位的销量能更快提升销售额？线上价位热销是否受爆款影响？使用数据的大小是1126*5数据属性包括衣服名称，现价，原价，销量，评论数一：数据导出...

2019-07-30 15:14:42 9887 2

原创 Oracle数据库部署（64位sqldeveloper不兼容32位jdk）

应需求部署了一下oracle，遇到了不少坑，在这里记录一下首先我的电脑是64位的我就装了一个64位的oracle，刚开始安装步骤挺顺利的：链接: https://pan.baidu.com/s/1R5wtjtDA2z76D0tNq0hLlw提取码: uaux这里是两个文件，根据下个链接的教程吧两个文件合成一个里。安装教程网上都有很详细：https://www.cnblogs.com/y...

2019-07-27 13:29:23 675

原创数据分析项目实战之用户消费行为分析

数据分析项目中固然是用到很多的数据分析工具和技巧，但是业务知识也占比不小，本案例分析了来自CDNow网站的一份用户购买CD明细，业务结合技术进一步分析用户的消费行为，提高决策质量。CD数据包括用户ID，购买日期，购买数量，购买金额四个字段。数据下载：https://pan.baidu.com/share/init?surl=pL2qo1H密码g6vv用到的工具，pycharm，pyth...

2019-07-23 14:38:50 15280 9

原创 51job pandas数据清洗与pycharts画图分析

上一篇想要的数据已经基本都爬到了，下一步就是数据的清洗了。仔细观察了数据的特征，发现数据中存在太多的脏数据了，就例如很多搞房地产的，销售的，等等很多其他的一些无关职业，并且还包含很多重复项。我就把数据一遍一遍的清洗，第一遍我先在职位标题中挑出来带有特定关键词的职位，例如我搜索的是大数据的工作，那么我的关键词里就包含['数据', '分析', 'ETL', 'java', 'JAVA', '人工智...

2019-06-13 16:12:01 1435 3

原创数据分析之pandas 数据清洗

（1）当打印dataframe的时候数据多可能pycharm 的控制台会显示不全，下面几行代码显示所有行和列：#显示所有列pd.set_option('display.max_columns', None)#显示所有行pd.set_option('display.max_rows', None)#设置value的显示长度为100，默认为50pd.set_option('max_co...

2019-06-06 20:07:40 1094

原创轻松爬51job（二）

第一次爬的数据太少了，应老师要求要爬的数据不止三种，所以这次要进入详情页来抓取数据，跟上次的抓取格式有点不一样稍微繁琐一些不过爬51job相对于拉钩，boss直聘等招聘网站要轻松一些，反爬基本没遇到，，但是里边有一些“VIP”的网站，也就是说这些的网站跟其他网站构造有点不同，没办法用匹配其他网站的办法来对它们，然而我想的是直接就把这种网站先过滤出来在想办法专门对付他们。首先是先把详情页的u...

2019-06-04 11:35:25 1187 1

原创轻松爬51job（一）

近期的期末作业时爬51job并分析，我就分享一下我的代码其实爬这个没有遇到反扒轻轻松松就爬下来了，应该也是数据量少的原因但是这里呢我用了列表推导式，还别说，程序真的快了一些代码量也减少了，用了map这个函数发现也是超级好用，我大致说一下map，至于列表推导式的话一看就懂了。map这个函数允许接收一个可迭代对象和一个函数，当然这个函数可以是匿名函数，就是lambda，举个栗子吧，f =...

2019-06-03 22:15:23 964

原创关于pyecharts安装导入Bar，Grid出错飘红

在做可视化分析的时候需要用到pyecharts，然而呢，我就直接pip install pyecharts，默认安装的是最新版的，但是安装完毕发现Bar包导入会失败，然后再网上找了好久有博主说版本不匹配直接换成0.1.9.4版本的，然后我试了试，发现一部分包能导入，但是仍然有一部分不行，之后有看到其他博主说下载最新版，因为有扩展包，要在charts子文件下导入，例如：from pyechar...

2019-06-02 08:45:43 3882 1

原创关于requests.get(url)" ´óÊý¾ÝÍÚ¾ò¹¤³ÌÊ£¨Ò½ÁÆ½¡¿µ·½Ïò£©"

在写爬虫的时候发现requests(url)之后得到的responses.text,这里的中文都是" ´óÊý¾ÝÍÚ¾ò¹¤³ÌÊ£¨Ò½ÁÆ½¡¿µ·½Ïò£©"这种乱码，懵了，之前没见过百度也没百度到，最后看到网上的一个方法，说把responses转化一下转成gbk编码的，然后试了一下中文就出来了，不知道有没有小伙伴跟我遇到同样的问题。主要原因在于解码时候用的是utf-8，但是这个网页的...

2019-06-01 12:42:44 2301

原创 Dataframe取差集你记牢了吗？

哇，时间好快一个多月没更新文章了，在这一个月里发生了很多事也是没有太多时间。不过我胡汉三又回来了，哈哈，，，废话不多说，今天我要记录一个很容易用到的知识点。就是取两个dataframe的差集，遇到这个情况我第一个想到的是循环遍历，然它一一匹配，但是慢慢我觉得小数据的速度还行，但是数据量大了以后可能会比较繁琐。不停扒网页我发现的确有简单方法：df1 = DataFrame([['a', 1...

2019-04-24 17:44:26 6548 4

原创 python 爬拉勾网之”您操作太频繁，请稍后访问“

爬拉钩的时候发现平常的爬取思路走不通，往headers里边加上cookie，Referer,Accept,User_Agent之后返回的responsre都是“status false msg "您操作太频繁,请稍后再访问" clientIp "117.136.107.190"”，然后就把参数更详细的添加进去发现也不好用，然后查资料看到了别人用requests，尝试了一下果然可以...

2019-03-19 11:48:43 4513 9

原创 selenium破解bilbili滑动验证码

登陆b站的时候大家都会见到滑动验证码，打开开发者工具分析一下这里的验证码1：首先需要鼠标触碰到滑动按钮才会显示出完整的验证码图片2：点击按钮出现缺口图片3：查看图片元素会（打开图片链接）发现完整的图片被打乱了。把整个分成了上下两部分各是26张。但是会发现虽然图片的顺序是乱的可是它的坐标还是有规律可寻解决思路：先来分析一下这个坐标的规律，我就打开查找元素一直在那看他们之间的关系，最后发...

2019-03-17 12:08:12 506

原创解决pycharm中tesserocr安装问题

课余时间在倒腾破解验证码，就发现验证码类型可真是多，为了防爬虫也是费尽心机，，什么滑动验证码点选验证码图片验证码九宫格等等。我就打算从最简单的图片验证码开始研究了，然后安装需要的pypi呗，看到网上说用tesserocr 并且次库依赖于tesseract (ocr图像识别引擎)OCR，即Optical Character Recognition，光学字符识别，是指通过扫描字符，然后通过其形状将...

2019-03-15 12:59:13 3102 1

原创知乎里那些绝美的壁纸在这里！

**喜欢刷知乎的同志们会知道知乎里好看的壁纸有很多，今天笔者就把它全爬下来。问题链接：https://www.zhihu.com/question/308072414/answer/581633043打开知乎的这个回答下拉右边的滑动框，不难发现这个网页是动态加载的，打开f12分析请求所有的回答都被写入了js每当下拉框拉到最底部客户端就会发出一个请求，然后服务器返回js文件。再次观察这个请求ur...

2019-03-10 09:25:33 14177 2

原创 python的元组，列表，字典，集合大综合

元组每个元素都有它的索引，并且内置确定最大最小元素的方法。与列表不同的地方是元组它不能修改，创建的时候用圆括号（或者不用括号）列表用方括号。元组中的元素用逗号分隔开，当元组中有一个元素时末尾要用逗号分隔开&amp;gt;&amp;gt;&amp;gt;tup1 = ('Google', 'Runoob', 1997, 2000);&amp;gt;&amp;gt;&amp;gt; tup2 = (1

2019-03-09 18:51:02 310

原创 python3 网易云音乐评论走一波

音乐的评论相对来说有一丢丢困难，主要在于它嵌套的循环多一点，还多了个翻页，下面详细介绍：思路1.驱动浏览器匹配到歌曲总页数，这个页数会不断刷新导入使用的模块：from lxml import htmlimport timefrom selenium import webdriverimport reimport csvimport pymysql...

2019-03-06 23:15:19 480 1

原创 python3 爬取网易云歌曲详情

上一篇介绍了爬网易云歌手id，在这里我们可以用获取的id数据来构造歌手详情页的url。在这里呢我还是比较习惯使用selenium来爬。首先简单介绍一下简单介绍一下这里selenium：它是浏览器的一个自动化测试框架，运行在浏览器中模拟人操作浏览器，支持Mozilla Firefox,Ie,Google Chrome,Safari,Opera等浏览器。在这里笔者用的是Chrome 72，使用...

2019-03-05 11:31:27 853 3

原创 python 爬网易云歌手id和歌手姓名

成功爬网易云的关键点在于获取网易云网站的框架源码，打开网易云音乐然后右键查看源码发现歌手的id源码中找不到，观察源码会发现有标签iframe即网页嵌套网页，打开开发者工具，输入歌手id能够定位到歌手的id位置，右击查看框架源码会发现很多东西藏在框架源码里，寻找框架源码的链接规律，依此遍历。源码如下：import requestsimport csvfrom bs4 import B...

2019-02-27 13:57:42 1192

原创 python pandas多种方式写入excel

使用pandas模块中的DtaFramesep =‘，’即使用分隔符分割需要保存的内容，‘’如果里面不写默认是用” ，“来分割na_rep='NA'确实值保存为'NA'如果不写默认是空float_format='%.2f'保留两位小数原始值columns=['a_name']建立索引并且保留列名是‘a_name’这一列不写默认‘None’headers = False...

2018-12-08 17:39:21 10404

原创 python3 爬csdn博主详情

经常在csdn上看博文，受益匪浅，然而现在想爬一下csdn的博主信息。先说一下有关ajax技术：AJAX即“Asynchronous JavaScript and XML”（异步JavaScript和XML)，AJAX并非缩写词，而是由Jesse James Gaiiett创造的名词，是指一种创建交互式网页应用的网页开发技术。组成：基于XHTML和CSS标准的...

2018-12-02 22:29:46 301

原创 Python3爬豆瓣电影详情并写入表格

Python3爬豆瓣电影详情并写入表格直接上干货，嘿嘿1：可以首先从电影详情页入手，打开豆瓣选择找电影随便点开一个电影查看详情，会看到很多详情，然后右击查看源代码，把需要抓取的详情在源代码中搜索找到具体位置。2：在这里呢我用的是Beautiful soup4来匹配电影详情...

2018-11-09 17:49:42 580

啦啦啦~~