Edward_is_1ncredible-CSDN博客

原创 2.信用卡欺诈案例——19.10.7

该案例的主要知识点：1.对于数据集标签分布不均衡条件下的分类方法（下采样，上采样及两者的差异）2.逻辑回归模型的实施（交叉验证，正则化惩罚系数c，判定阈值的设定）3.简单的数据预处理（标准化）4.精度，召回率以及混淆矩阵的概念import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimpor...

2019-10-03 22:07:05 411

原创 [Python爬虫] 7-Charles抓取微信小程序

最近在尝试抓取微信的小程序，用到了Charles，微信小程序的话需要使用HTTPS抓包，网上有些教程内容有步骤的缺失，所以重新整理一份傻瓜式的教程，环境WIN10+IOS，内容基于Roy_Liang前辈：https://www.jianshu.com/p/5539599c7a25：1.Charles安装官网下载安装Charles:https://www.charlesproxy.com/d...

2018-11-13 10:06:27 4088 2

原创 [Python爬虫] 6-Scrapy框架

# I.Scrapy框架架构:# 1)框架概念:写一个爬虫,需要[发送网络请求,数据解析,数据存储,反反爬虫机制(更换ip代理、设置请求头等),异步请求等]这些工作如果每次都要自己从零开始写的话,比较浪费时间,因此Scrapy把一些基础的东西封装好了,在他上面写爬虫可以变的更加的高效(爬取效率和开发效率) # 2)框架模块功能:# 1.Engine:核心部分,负责在Spider和It...

2018-10-23 16:57:20 353

原创 [Python爬虫] 5-爬虫进阶(多线程爬虫/动态网页抓取/图形验证码识别)

# I.多线程爬虫# 1)概念:多线程是为了同步完成多项任务,通过提高资源使用效率来提高系统的效率# 线程:火车的车厢,进程:火车头## 2)threading模块:专门提供用来做多线程编程的模块# tips:可在打印时设置这两个打印内容: # threading.enumerate():查看当前线程的数量 # threading.current_thread():...

2018-10-15 20:53:59 730

原创 [Python爬虫] 4-数据存储(JSON/CSV/MySQL/MongoDB)

# I.json文件处理# 1)简介:# 1.json是什么:json(JavaScript Object Notation),是一种轻量级的数据交换格式# 2.json有什么数据格式:# i.对象(Python中的字典):{}# ii.数组(Python中的列表):[]# iii.整形,浮点型,布尔类型,null类型# iv.字符串类型(必须使用"...

2018-10-10 17:08:38 339

原创 [Python爬虫] 3-数据解析(lxml/bs4/正则)

# I.Xpath语法和lxml模块# 1)Xpath语法# 1.概念:XPath是一门在XML/HTML文档中查找信息的语言# 2.工具:Chrome的XPath Helper和Firefox的XPath Checker# 3.语法:使用//获取整个页面当中的元素,然后写标签名,然后写谓词进行提取,例://div[@class="abc"]# 4.几个注意点: # i.//子...

2018-09-26 22:43:05 956

原创 [Python基础] 4-Python练习

1.有四个数字1,2,3,4.能构成多少个互补相同且无重复数字的三位数?分别是什么?for x in range(1,5): for y in range(1,5): for z in range(1,5): if x!=y and x!=z and y!=z: result = x*100+y*10+z ...

2018-09-25 23:08:38 433

原创 [Python爬虫] 2-网络请求

# I.urllib库:最基本的网络请求库,可以模拟浏览器的行为,向指定的服务器发送一个请求,并且可以保存返回的数据,常用函数如下:# 1)urlopen:抓取内容from urllib import requestresponse = request.urlopen("http://www.baidu.com")print(response.read())# 在函数上ctrl+b跳转...

2018-09-22 17:19:26 565

原创 [Python爬虫] 1-爬虫前奏

I.爬虫概述1)爬虫的实际例子 1.搜索引擎 2.伯乐在线 3.惠惠购物助手 4.数据分析研究(数据冰山知乎专栏) 5.抢票软件2)什么是网络爬虫通俗理解:模拟人请求网站行为的程序,可以自动请求网页并抓取下来,然后使用一定的规则提取有价值的数据3)通用爬虫和聚焦爬虫 1.通用爬虫:搜索引擎的重要组成部分,将互联网上的网页下载到本地,形成一个互联网内容的景象备份...

2018-09-21 16:00:55 345

原创 [Python数据分析] 7-模型评估

# I.理论部分# 1.模型评估 # 分类模型评估 # 回归模型评估 # 聚类模型评估 # 关联模型评估# I-1.分类模型评估# 1.二分类（正类与负类）# 概念：混淆矩阵 # TP（True Positive）:实际为正，预测为正 # FN（False Negative）:实际为正，预测为负（漏） # FP（False Positive）:实际为负，预测为正（错） ...

2018-09-16 14:44:32 530

原创 [Python数据分析] 6-挖掘建模(无监督学习)

# III.无监督学习编码实现(聚类和关联)# 1.数据集的设定import numpy as npimport matplotlib.pyplot as pltimport scipy.stats as ss# 引入sklearn包中的datasets接口模拟一些点from sklearn.datasets import make_circles,make_moons,make_b...

2018-09-05 17:42:15 402

原创 [Python数据分析] 5-挖掘建模(监督学习)

# I.理论部分:机器学习是过程,模型是这个过程的结果# 1)机器学习和建模# i.学习:通过接收到的数据,归纳提取相同与不同# ii.机器学习:让计算机以数据为基础,进行归纳和总结# iii.模型:数据解释现象的系统# 2)数据集:通常来说各部分占比:训练集6:验证集2:测试集2# i.训练集:训练拟合模型# ii.验证集:通过训练集训练出多个模型后,使用验证集数据纠正或比较预测...

2018-08-29 22:56:20 763

原创 [Python数据分析] 4-预处理理论

I.理论部分数据和特征决定了机器学习的上线,而模型和算法只是逼近这个上限而已1)特征工程i.特征使用:数据选择,数据可用性ii.特征获取:特征来源,特征存储iii.特征处理:数据清洗,特征预处理 1.数据清洗:抽样,异常值处理 2.特征预处理:特征选择,特征变换,特征降维,特征延伸iv.特征监控:现有特征,新特征II.编码实现# 1)特征预处理:# 概念:标注(标记,...

2018-08-25 15:35:24 535

原创 [Python基础] 7-Pandas:数据分析库

import pandas as pdimport numpy as npI.数据结构1.Seriess = pd.Series([i * 2 for i in range(1,11)]) # 创建一个10位的序列print(type(s))dates= pd.date_range("20170301", periods=8) # 创建一个从20170301起的往后8位的日期...

2018-08-21 14:56:55 330

原创 [Python基础] 6-Matplotlib:绘图,可视化的必备

import numpy as npimport matplotlib.pyplot as pltI.绘图及设置x = np.linspace(-np.pi,np.pi,256,endpoint=True) # 设定x轴的范围,点的个数,点的个数越多越平滑c = np.cos(x)s = np.sin(x)plt.figure() # 设定画布plt.title("COS &...

2018-08-21 14:54:03 679

原创 [Python基础] 5-Numpy:开源,数据计算的扩展

import numpy as npI.数据结构numpy的底层语言为C,因此nparray的解决了这个问题,nparray是np中最基础的数据结构1.nparraylist = [[1,3,5],[2,4,6]]print(type(list))np_list = np.array(list)print(type(np_list))# 可以用dtype指定数据类型,数据类型有...

2018-08-21 14:52:38 282

原创 [Python数据分析] 3-多因子探索性数据分析与复合分析

I.理论部分1)假设检验与方差检验i.假设检验: 根据一定假设条件由样本推断总体的一种方法,包括了: 1.正态分布检验 2.卡方检验: 实际观测值与理论推断值之间的偏离程度,检验两个因素建有没有联系 3.独立t检验:判断两个平均数的差异是否显著(条件:n<30,总体标准差σ未知的正态分布) 4.方差检验/F检验: 判断该模型中的全部或一部分参数是否适合用...

2018-08-15 11:46:32 1487

原创 [Python数据分析] 2-单因子探索分析与可视化

I.理论部分 1)概念相关：集中趋势：均值，中位数，众数，分位数离中趋势：标准差，方差数据分布：偏度系数，峰度系数，正态分布，三大分布抽样理论：抽样误差(确定样本量)、抽样精度 2)数据分类定类(类别)：根据事物离散，无差别属性进行的分类。性别，民族定序(顺序)：可以界定数据的大小，但不能测定差值。低中高定距(间隔)：可以界定数据大小的同时测定差值，但无绝对零点(乘除比率等...

2018-08-14 14:31:01 965

原创 [Python数据分析] 1-数据获取

1)数据仓库 I.特点： 1.全部事实的记录 2.部分维度和数据的整理(数据集市) II.数据库与数据仓库的不同 1.数据库面向业务存储，数据仓库面向主题存储(主题：较高层次上对分析对象数据的一个完整并且一致的描述) 2.数据库针对应用，数据仓库针对分析 3.数据库组织规范，数据仓库数据量大且杂乱2)监测与抓取直接解析网页、接口、文件...

2018-08-13 16:55:04 675

原创 [Python基础] 2-笨办法学Python3小结III

39.字典的使用小结：字典{}相较于列表[]更加全能一些，可以通过任何东西（不止是数值）找到列表中的元素字典和列表的不同：列表是一些项的有序排列，字典将一些项对应到另外一些项上的数据结构，有点类似数据库了字典用在哪里：各种需要通过某个值去查看另一个值的场合列表用在哪里：专供需要有序排列的数据使用练习：# 创建一个州名及其对应简称的字典statesstates = { ...

2018-08-07 11:43:18 541

原创 [Python基础] 2-笨办法学Python3小结II

34.访问列表元素小结：这节主要讲了列表基数（从0开始）与序数（从1开始）的区别练习：animals = ["bear", "python3.6", "peacock", "kangaroo", "whale", "platypus"]print("位置为1的动物是第二只动物,是python3.6", animals[1])print("第

2018-08-06 17:39:22 368

原创 [Python基础] 1-笨办法学Python3小结I

1.准备工作安装完Python后，选用一个简单的文本编辑器（Atom），一个命令行终端（PowerShell），在文本编辑器上输入指令并保存，并在命令终端行上查看结果，用cd文件的形式逐层选择合适的路径，再运行python ex1.py2.注释和禁用用＃禁用代码或做注释3.变量和命名=的作用是将右边的值赋给左边的变量名，==的作用是检查两侧是否相等4.格式化字符串（格式字符...

2018-08-02 22:00:00 1139

原创 [R] 4.基本统计分析

R in action整理1.描述性统计数据使用R自带的mtcars，mpg每加仑行驶英里数，hp马力，wt车重1）连续型变量描述性统计myvars<-c("mpg","hp","wt")①summary():>summary(mtcars[myvars]) mpg hp wt Min. :...

2018-07-17 19:15:52 370

原创 [R] 3.制图及相关

R in action整理**各制图函数可设定参数不尽相同，可用?+function的命令具体查看对应函数可以设置的参数，？barplot **1.制图流程1)数据的输入或数据框的绑定 #attach()函数2)opar<-par(no.readonly=TRUE) #增加新的作图设置参数的设定 #par()函数3)确定是否为多幅图形的组合par(mfrow=...

2018-07-16 10:45:45 310

原创 [R] 2.高级数据管理

R in action整理1.数值处理函数1）数学函数abs(x),sqrt(x),ceiling(x),floor(x),trunc(x)取整,round(x,digits=n)舍入为n位的小数,signif(x,digits=n)舍入有效位数为n的数2）统计函数mean(y),median(y),sd(y),var(y),，sum(y),min(y),max(y),ra...

2018-07-13 17:30:31 236

原创 [R] 1.基本数据管理

R in action整理，示例manager<-c(1,2,3,4,5)date<-c('10/24/08','10/28/08','10/1/08','10/12/08','5/1/09')country<-c('US','US','UK','UK','UK')gender<-c('M','F','F','M','F')age<-c(32...

2018-07-12 16:34:55 466

原创 [Mysql] 2.存储过程练习

存储过程实验一、实验要求：1. 理解存储过程的概念2. 掌握存储过程的语法格式、使用方法3. 掌握存储过程的创建、执行二、实验前提：Create table student(Id varchar(255), #学号Name varchar(255), #姓名Roomid varchar(255), #班级Sex char(1), #性...

2018-07-11 09:38:09 8369

原创 [Mysql] 1.MySQL查询练习

2019.11.21更新：重新看了下之前的东西，发现几个错误，做一个更正最近在初学MySQL,在网上找相关查询语句练习的时候发现一些答案有一些问题，这边做出了更正，当然也不能保证完全正确，有更好的写法也欢迎交流。:-)前提：设有一数据库包括：学生表（Student）、课程表（Course）、成绩表（Score）、教师信息表（Teacher）#以下的语句可以直接复制使用#学生表...

2018-06-25 22:55:02 637

Edward_is_1ncredible的博客