一匹脱缰的野马-CSDN博客

原创 scrapy框架爬取王者荣耀皮肤

创建项目创建项目命令：scrapy startproject wangzhePhotoMax创建爬虫：scrapy genspider WangZheCrawl https://pvp.qq.com更改settings.py中的设置：USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36'# Obe

2021-01-06 11:49:42 688 1

原创单身吧，后浪！

毕业一年，来到北京一年。身份从一个学生转变成“社会人”。很想拒绝这个转变过程，但岁月的车轮滚滚向前，岂是一只螳螂能阻挡。人在18周岁的时候，就会被法律认定为成年人。我觉得自己真正成年应该是在大学毕业之后，之前只是年龄上进入成年，但心智上仍是少年。我还是曾经那个少年，没有一丝丝改变，哈哈。谁能没有一丝丝改变呢，就算还是曾经那个少年，也是要有一丝丝改变的好吧。进入北京之后，脱离了生活四年的大学环境，远离了家乡。我们逐渐走向不同的道路，一个孔雀东南飞，一个连翩西北驰。第一次回头还...

2020-07-15 16:34:29 416

原创 fiddler的使用方法总结

Fiddler是位于客户端和服务器端HTTP代理，可以监控所有的http和https。浏览器访问网站都是基于B/S架构的，这个时候我们连接上fiddler，所有服务器发送到浏览器的资源都会被我们截获。fiddler的方法如下。如何将请求报文保存到本地？右键选择save就可以将我们需要的内容保存成想要的格式，...

2019-11-10 16:55:59 541

原创 SVNClient的使用方法

首先安装SVNClient，然后需要有SVN的账号和密码，还需要有远程主机的ip地址和账号密码。这样就可以连接到远程主机了。但是如何才能看到远程可视化界面呢？然后ctrl+R，输入mstsc，这样就会出现下面的界面，在计算机的后面写入远程主机的ip ，然后按照提示输入账号和密码，然后按照提示就能连接到可视化界面。SVNClient软件已经上传到CSDN，需要的话自行下载。...

2019-11-09 14:47:37 10905

原创放弃使用phantomJS吧，新版的无界面好用多了

selenium放弃使用phantomJS,需要使用无界面的话使用下面的方法。在使用过程中亲测，phantomJS会被防住，但是使用下面的方法不会被防。使用下面这种方法不让访问from selenium import webdriverurl = 'https://www.ipip.net/ip.html'driver = webdriver.PhantomJS(execut...

2019-11-09 14:06:10 709

原创利用tensorflow实现线性回归

线性回归原理（1）根据数据构建线性模型（2）计算损失--均方误差损失（3）直接求解、或者梯度下降算法进行优化损失，来获取最优的 w 和 b（4）利用 w 和 b 对新的数据进行预测代码实现如下import tensorflow as tf#面向对象class MyLinearRegression(object): def __init__(self): ...

2019-09-23 22:57:47 404

原创 tensorflow的变量

变量的本质变量是一个内存空间的别名创建变量opimport tensorflow as tfinit_val = tf.random_normal( dtype=tf.float64, shape=[2,2], stddev=...

2019-09-23 22:53:03 158

原创 tensorflow的tensor张量

'dtype=tf.数据类型' 来改变张量的数据类型import tensorflow as tfa = tf.constant(3.0,dtype=tf.int32)b = tf.constant([3.0,4.0],dtype=tf.float64)c = tf.constant([[1,2],[3,4]],dtype=tf.float64)'to_数据类型'将张量的数...

2019-09-23 22:17:28 154

原创 tensorflow的会话

什么是会话？一个运行 TensorFlow operation 的类。tensorflow的底层是c++实现的，而上层调用使用的是python，所以在使用的时候中间环节需要使用到会话来作为中介，使用python来调用c++代码。会话完整流程1.会话初始化2.会话执行op3.关闭会话placeholder起到占位的作用，与feed_dict在运行时共同使用，在运行时fe...

2019-09-23 21:21:44 244

原创 tensorflow图的可视化

首先需要序列化数据数据序列化的代码如下，第一个参数是序列化数据要存放的位置，第二个参数是需要被序列化的图import tensorflow as tf#op名称在op指令空间内是唯一的，如果op名字相同，会给后面的一次加索引名称，可以通过name修改op名称a = tf.constant(3.0,name='a') #赋给了tensor名字，name是op名称b = tf....

2019-09-23 20:24:27 360

原创 tensorflow数据流图

数据流图如下所示什么是数据流图（Data Flow Graph）?官方的解释为：数据流图用“结点”（nodes）和“线”(edges)的有向图来描述数学计算。“节点” 一般用来表示施加的数学操作，但也可以表示数据输入（feed in）的起点/输出（push out）的终点，或者是读取/写入持久变量（persistent variable）的终点。“线”表示“节点”之间的输入/输出...

2019-09-23 20:09:14 1245

原创金融量化交易案例

什么是量化交易？量化交易是指以先进的数学模型替代人为的主观判断，利用计算机技术从庞大的历史据中海选出能带来超额收益的多种“大概率”事件以制定策略。它极大的降低了市场波动给投资者情绪带来的影响，避免在市场极度狂热或者悲观的情况下做出非理性的投资决策。策略分析我们想要的结果就是我们在历史数据中回测表现较好的分析方法和策略。可以通过专业的网站来进行量化交易，网址如下http...

2019-09-23 09:30:50 1804

原创基于逻辑回归的癌症预测案例

加载数据给数据中的每一列起列名称#把数据的头置为空，因为要自己设置列名称data = pd.read_csv('./breast-cancer-wisconsin.data',header=None)# print(data)#增加列名columns = ['Sample code number','Clump Thickness','Uniformity of Cell S...

2019-09-20 22:43:08 1606

原创基于线性回归的波士顿房价预测

波士顿数据集在sklearn中自带，使用的时候引入就可以直接使用from sklearn.datasets import load_boston#加载波士顿数据集获取特征值、目标值和列名称数据以字典的形式保存，获取的时候需要按照字典的方式提取数据feature = boston['data'] #特征值feature_names = boston['featur...

2019-09-20 22:14:04 6352

原创基于朴素贝叶斯的书籍评价分类

首先需要将书籍的信息导入进来data = pd.read_csv('./data.csv',encoding='ansi')将目标值转化为数值类型好评的转化0，差评的转化为1data.loc[data.loc[:,'评价'] == '好评','评价'] = 0data.loc[data.loc[:,'评价'] == '差评','评价'] = 1data.loc[...

2019-09-20 20:41:25 696

原创词汇的重要程度统计

词汇的重要程度统计可以统计出词汇在文章中的重要程度，从而对文章的类型和其他特征可以做出相应的判断from sklearn.feature_extraction.text import TfidfVectorizercontent = ['Hong Kong residents express feelings through anthem; Guangzhou Museum off...

2019-09-19 22:08:35 586

原创文章中的英文和汉语词数出现次数的统计

对英文词语的统计如下import pandas as pdimport numpy as npfrom sklearn.feature_extraction.text import CountVectorizer#需要处理的文字content = ['Hong Kong residents express feelings through anthem; Guangzhou Mu...

2019-09-19 21:41:06 426

原创 KNN算法手写字识别案例

实验前准备如下手写字分别存储在两个文件中，一个是训练集文件，一个是测试集文件。两个文件夹下的txt文件命名格式是，下划线前面的数字代表文本内存储的文字内容，下划线后面的数字代表是第几个如：1_12.txt代表文件内存储的内容为手写字1，这是存储手写字1的第12个文件。本实验中K值与预测准确率的关系如下图实现代码如下import pandas a...

2019-09-19 21:16:41 678

原创 KMeans对NBA球员聚类案例分析

NBA球员数据的格式如下本文的目的主要是对NBA球员的数据进行分析，通过分析数值数据判断球员的表现，进而可以研究球员在赛场上是属于哪一类球员，下面是对结果进行雷达图的绘制对球员情况分析，并画出雷达图，代码和结果如下：import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom skle...

2019-09-19 19:25:34 3731 4

原创 KNN算法原理与自实现

KNN英文全称K-Nearest Neighbors ，中文名称为K最近邻算法，它是由Cover和Hart在1968年提出来的KNN算法原理1. 计算已知类别数据集中的点与当前点之间的距离；2. 按照距离递增次序排序；3. 选择与当前距离最小的k个点；4. 确定前k个点所在类别的出现概率5. 返回前k个点出现频率最高的类别作为当前点的预测分类这里计算使用的是欧式距...

2019-09-18 19:29:38 223

原创 kmeans算法示例--航空公司数据分析

航空公司的excel表中的各个数据对应的含义如下航空价值分析步骤如下航空数据分析雷达图如下解决方案步骤如下了解航空数据的含义，观察窗口就是时间段丢弃票价为空的数据保留票价大于0，折扣不为0,飞行里程大于0的数据，---花钱坐飞机筛选特征时，筛选出与LRFMC五特征相关的数据构建特征的时候需要构建LRFMC五特征模型进行异常值处理 3s...

2019-09-18 15:55:14 1743

原创超市用户的k-means聚类处理

导入超市用户的数据import pandas as pdfrom sklearn.preprocessing import StandardScaler #标准差标准化com = pd.read_csv('./company.csv',encoding='ansi')导入剔除异常值的函数def box_analysis(data): ''' 进行箱...

2019-09-18 11:07:30 1289 1

原创 k-means原理实现

原理如下：代码如下：import pandas as pdimport numpy as npimport matplotlib.pyplot as pltdef build_data(): ''' 准备数据 :return:准备好的数据 ''' data_list = [] with open('./test.txt')...

2019-09-17 22:29:27 153

原创银行坏账数据分析

加载数据import pandas as pdimport numpy as npdata = pd.read_csv('loan.csv',encoding='ansi')print(data)好坏用户，0代表信用好用户，1代表信用坏用户。data = pd.read_csv('loan.csv',encoding='ansi')print(data.isnu...

2019-09-17 22:22:02 817

原创数据离散化

使用get_dummies将类别型数据转化为哑变量矩阵加载数据，并将数据离散化detail = pd.read_excel('./meal_order_detail.xlsx')# print(detail.loc[:,'dishes_name'])res = pd.get_dummies(detail.loc[:,'dishes_name'],prefix='菜品',pref...

2019-09-17 21:15:12 870

原创标准化数据

离差标准化离差标准化，将数据转化到0到1之间。离差标准化容易受到异常点影响，不常用。def min_max_sca(data): ''' 离差标准化 :param data:传入的数据 :return:标准化之后的数据 ''' data = (data-data.min())/(data.max()-data.min()) r...

2019-09-17 10:31:45 1517

原创 dataframe数据拼接

准备数据import pandas as pddata_1 = pd.read_excel("concat数据拼接.xlsx",sheetname=0)data_2 = pd.read_excel("concat数据拼接.xlsx",sheetname=1)print(data_1)print(data_2)两份数据如下利用concat进行拼接在列的方向上...

2019-09-16 22:53:13 2245

原创数据填充

excel中sheet1和sheet2的数据如下使用combine_first来进行数据合并import pandas as pd# 加载数据data_1 = pd.read_excel("./数据填充.xlsx",sheetname=0)data_2 = pd.read_excel("./数据填充.xlsx",sheetname=1)print("data_...

2019-09-16 21:50:18 173

原创去重与去空案例

数据的去重案例drop_duplicates，只能按列不能按行去重去除数据里面所有NA ，或者数据单一的列。使用的方法为循环，对所有的列进行判断。columns = detail.columns#取出所有的列drop_list = []for column in columns: # print(column) # 进行去重，在一列下，数据一样的进行去重...

2019-09-16 21:33:26 255

原创数据的相关性

对数据进行去重加载数据detail = pd.read_excel("./meal_order_detail.xlsx")print("detail :\n",detail)对amounts 进行去重，拿到菜品的单价数据来评估这家餐厅的消费水平预估。相关性在[-1,1]之间，0<corr是正相关，0>corr是负相关。method默认是皮尔逊相关系数，相...

2019-09-16 20:34:10 677

原创异常值处理

根据正态分布处理异常数据根正据态分布得出99.73%的数据都在（u-3sigma，u+3sigma）之间，认为超出这个区间的值为异常值，我们按照这个原则提出异常值。设置函数返回正确的数据def three_sigma(data): ''' 进行3sigma剔除 :param data:传入的数据 :return:剔除之后的数据，或者剔除异常值...

2019-09-16 19:22:07 741

原创缺失值处理方法总结

加载数据import pandas as pdimport numpy as np#加载数据data = pd.read_excel('./qs.xlsx')print(data)如何确定数据里包含缺失值---缺失值检测print(data.isnull()) #缺失地方的值为Trueprint(data.notnull()) #不缺失地方的值为True...

2019-09-16 16:14:33 1288

原创 pandas连锁超市数据处理案例

加载数据import pandas as pd#加载数据order = pd.read_csv('./order.csv',encoding='ansi')print(order)print(order.columns)哪些类别的商品比较畅销？异常数据的处理#剔除销量小于0的数据bool_id = order.loc[:,'销量'] > 0da...

2019-09-12 22:16:53 627

原创 pandas透视表与交叉表

pivot_table透视表透视表是一种plus版的分组聚合，透视表的传入数据的参数指标如下：data是dataframe数据values是最终统计指标针对的对象index 按照index进行行分组columns 按照columns进行分组aggfunc 是对主题进行什么指标的统计margins=True 是否在数据表的边缘新添加一列数据。import pandas...

2019-09-12 21:47:24 249

原创 pandas计算店家的每日营业额示例

获取时间day属性，生成一个新的列detail.loc[:,'day'] = [i.day for i in detail.loc[:,'place_order_time']]新建价格的列detail.loc[:,'price'] = detail.loc[:,'counts']*detail.loc[:,'amounts']按天分组求每日的营业额res ...

2019-09-12 21:03:31 1765

原创 pandas分组聚合

加载数据import pandas as pdimport numpy as npusers = pd.read_excel('./users.xlsx')groupby指定分组的列可以是单列，也可以是多列根据班级分组，统计学员的班级的平均年龄res = users.groupby(by='ORGANIZE_NAME')['age'].mean()按照ORG...

2019-09-12 20:45:34 208

原创 pandas时间数据

关于时间的数据类型datatime64[ns]是numpy中的数据类型，Timestamp是pandas默认的时间点类型，DatetimeIndex是pandas默认支持的时间序列结构。可以通过to_datatime或者DatetimeIndex将时间数据转化成pandas默认支持的时间数据传入的数据可以是单个数据，数据是Timestamp格式。也可以是一个列表，数据格式会转变成...

2019-09-12 19:40:42 488

原创 pandas数值型数据和非数值型数据统计

对单列数据进行统计加载数据import pandas as pddetail = pd.read_excel('./meal_order_detail.xlsx')常见的数值统计的方法如下：统计detail中的，单价相关指标print('最大值',detail.loc[:,'amounts'].max())print('最小值',detail.loc[:,'amo...

2019-09-12 11:42:10 5153

原创 matplotlib饼图的绘制

饼图的适用场景统计部分与部分，以及部分与整体的关系代码和参数如下import numpy as npplt.rcParams['font.sans-serif']='SimHei'plt.rcParams['axes.unicode_minus']=Falseres = np.load(r'.................\国民经济核算季度数据.npz')col...

2019-09-12 08:43:40 269

原创 matplotlib直方图的绘制

设置20个人的体重数据weights = []for i in range(20): weights.append(random.randint(40, 80))print(weights)weights = np.array(weights)设置bins的间隔ptp = weights.max()-weights.min()#计算向上取整的步长step =...

2019-09-12 08:43:28 268

SVN Client.zip

空空如也