自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(35)
  • 资源 (2)
  • 收藏
  • 关注

原创 python利用PIL及openpyxl实现图片转为excel表格

最开始是看了一个b站视频,他采用了python加vba实现了将一个图片转化在excel表格当中。https://www.bilibili.com/video/av55033139?t=300首先是python代码这里有个相对陌生的模块pIL(Python Imaging Library),pip install Pillow即可安装这里分析标量图里各个像素的rgb值,并生成一个txt文件f...

2019-06-28 01:10:00 2875 1

原创 线索报班分析

3数据探索性分析略4

2020-11-12 09:23:07 185

转载 xgboost的调参步骤

参数含义是否需要调参booster[默认gbtree]迭代模型 gbtree或gbliner否silent[默认0]1时不输出信息否nthread[默认最大可能线程数]否eta[默认0.3]学习率是0.01-0.2min_child_weight[默认1]最小叶子节点样本权重和;回归问题里min_child_weight代表的意思是,...

2020-03-06 18:44:47 1132

转载 转-sklearn总结

在机器学习和数据挖掘的应用中,scikit-learn是一个功能强大的python包。在数据量不是过大的情况下,可以解决大部分问题。学习使用scikit-learn的过程中,我自己也在补充着机器学习和数据挖掘的知识。这里根据自己学习sklearn的经验,我做一个总结的笔记。另外,我也想把这篇笔记一直更新下去。1 scikit-learn基础介绍1.1 估计器(Estimator)估计器,很多...

2020-03-05 21:45:03 319

原创 特征选择---SelectKBest

在sklearn中特征选择函数SelectKBestfrom sklearn.feature_selection import SelectKBest调用方式#skb = SelectKBest(chi2, k=3) ## 只考虑3个维度#X1_train = skb.fit_transform(X1_train, Y1_train) ## 训练模型及特征选择参数1、score_fun...

2020-03-05 21:43:46 5376

原创 sklearn的K折交叉验证函数KFold使用

K折交叉验证时使用:KFold(n_split, shuffle, random_state)参数:n_split:要划分的折数shuffle: 每次都进行shuffle,测试集中折数的总和就是训练集的个数random_state:随机状态 from sklearn.model_selection import KFold kf = KFold(5, True, 10) X, Y...

2020-01-28 08:37:59 4725

原创 工作内容总结

工作内容总结1,爬虫工作八爪鱼使用经验及爬取院校数据库内容2,python爬取每日业绩排名3,python实现的用户数据库4,seleium爬取高校信息5,产品数据库及项目数据库...

2020-01-13 08:26:54 177

原创 excel搭建产品数据库

1目录页2数据监控设计数据均为改编,与实际无关。3分校工作表4产品工作表

2020-01-12 22:33:53 1798

原创 使用excel构造工作计划表

目的:为方便设计部领导清楚了解各个员工的工作情况,帮助其制作了工作计划表。表内容:共包含目录页、说明页、工作分布页、工作详情页、任务需求与实际情况页以及原始数据表6个工作表。具体每表内容如下所示1目录页2说明页3工作分布页可通过时间、姓名、日期,查看其工作完成情况4,工作详情页通过时间、项目、设计类型得到各个老师的工作详情。下方是任务详情...

2020-01-12 21:46:19 486

原创 python实现用户数据库信息查询

目的:利用python构造一个小程序,可以连接数据库,实现通过电话查看其订单情况、批量显示某时间段内各分校名单量、转化率、报名金额等信息功能。步骤1,在mysql构造相关数据库,将订单、市场活动等数据导入2,利用python编写程序3,使用pyinstall将py文件打包成exe文件具体代码import xlrdimport pymysqlimport matplotlib.py...

2020-01-12 21:29:21 2014

原创 通过selenium八爪鱼爬取研招网各专业的初试信息

任务需求:因工作需要,需要爬取研招网各个高校每个专业研究生考试的初试科目信息。处理步骤:1,查看研招网页面(https://yz.chsi.com.cn/zsml/zyfx_search.jsp),发现需要根据省市,学科类别等选项进入下一界面新进入分校界面后可以点击学校进入具体学校信息的网页进入学校界面,点击考试范围处的查看进入具体的专业信息界面在这里有具体需要爬取的信息(已用红框标...

2020-01-12 21:08:39 1561 2

原创 python爬取erp每日业绩

前情提示:因工作需要,每日需要从公司erp中读取各个分校的每日业绩一起往期业绩,制作业绩排名情况表(包含的指标包括各个分校的每日业绩,本月业绩,往期业绩等)。这里涉及的几个困难点是:1,我所在项目组包含考研、考研MPAcc,管理类硕士事业部三大项目,需要各自单独查看分校各部分业绩然后求和。2,部分分校的实际架构与erp不完全符合,需要进一步处理。具体情况是辽宁分校实际分为辽宁大连及其他地市...

2020-01-12 19:45:53 2813

原创 集成学习之bagging及随机森林的python实现

集成学习的思想是将若干个学习器(分类器&回归器)组合之后产生一个新学习器。 弱分类器(weak learner)指那些分类准确率只稍微好于随机猜测的分类器(error rate < 0.5);集成算法的成功在于保证弱分类器的多样性(Diversity)。而且集成不稳定的算法 也能够得到一个比较明显的性能提升。常见的集成学习思想有:BaggingBoostingStackin...

2020-01-05 22:37:51 1137

原创 KNN算法及其python实现

邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。KNN算法不仅可以用于分类,还可以用于回归。通过找出一个样本的k个最近邻居,将这些邻居的属性的平均值赋给该样本,就可以得到该样本的属性。kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻...

2020-01-05 10:06:08 357

转载 LabelBinarizer 函数与独热编码

数据处理时有时需要将离散特征进行独热编码或者哑变量编码。两者的区别如下所示上述图片引用自 https://www.cnblogs.com/lianyingteng/p/7792693.html两者区别似乎不是很大。LabelBinarizer 将标签矩阵二值化from sklearn import preprocessingfrom sklearn import tree# hel...

2020-01-05 09:51:41 1922

原创 logistic回归算法进行分类的python实现

logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释,多类可以使用softmax方法进行处理。实际中最为常用的就是二分类的logistic回归。下面基于logistic回归对乳腺癌分类进行研究import numpy as npimport matplotlib as mplimport matplotlib.pyplot as pltimp...

2020-01-04 20:40:07 2286

原创 sklearn中pipeline的实现,及GridSearchCV寻找最优参数

Pipeline可以将许多算法模型串联起来,比如将特征提取、归一化、分类组织在一起形成一个典型的机器学习问题工作流。主要带来两点好处:直接调用fit和predict方法来对pipeline中的所有算法模型进行训练和预测。可以结合grid search对参数进行选择。...

2020-01-04 18:51:28 1712 1

原创 如何用python实现哑变量的转换

在数据样本中有一类特征属性彼此是平行的关系,不能简单的以数值或字符赋予其含义。例如 职业:教师 工人 商人… 面对这种情况可以通过构建哑变量来解决。例如含有三个因子的特征可以将其转化为三列每列都只有0-1构成的向量。这样的向量就是哑变量。下面来看一下再python中的实现import pandas as pd #dummy = pd.get_dummies(iris['Species'],pr...

2019-12-26 09:57:39 7139

原创 线性回归模型中的过拟合比较及不同模型的比较,python实现

在进行回归模型预测时,当变量间的线性关系不足,会出现欠拟合,即模型得分低,决定系数低,于是我们可以进行多项式拓展来提升模型的准确性,但是随着多项式拓展阶数的提升,很容易产生过拟合,即由于模型过分契合训练集,导致测试集的得分反而低,这便是我们需要关注的过拟合import numpy as npimport matplotlib as mplimport matplotlib.pyplot as...

2019-12-24 22:49:57 1852

原创 线性回归中的多项式拓展及pyhton实现

在利用线性回归进行预测时,经常由于数据的线性关系不好,导致模型出现欠拟合,lr。score比较低,就是决定系数低,这时候我们可以用多项式拓展方式来改进、多项式扩展,可以认为是对现有数据进行的一种转换,通过将数据映射到更高维度的空间中,该模型就可以拟合更广泛的数据。需注意:多项式拟合的应用,仍然变为线性模型下面是多项式拓展的实现# 引入所需要的全部包import sklearnfrom ...

2019-12-24 18:27:30 252

原创 如何用python进行最小二乘分析

首先需要理解基于最小二乘法求解参数其中涉及到了 损失函数,最大似然估计等内容,经过一系列计算后得到的结果就是所以用python实现最小二乘法估计的方法如下所示# 引入所需要的全部包from sklearn.model_selection import train_test_splitimport numpy as npimport matplotlib as mplimport ma...

2019-12-24 16:09:21 2739

转载 selenium的显式等待和隐式等待

selenium的显式等待和隐式等待显式等待隐式等待显式等待显示等待,就是明确的要等到某个元素的出现或者是某个元素的可点击等条件,等不到,就一直等,除非在规定的时间之内都没找到,那么久跳出Exception显式等待 WebDriverWait():是针对于某个特定的元素设置的等待时间。WebDriverWait(driver, timeout, poll_frequency=POLL_FR...

2019-12-16 21:24:39 193

转载 运行patsy 时报错 assert pytype not in (tokenize.NL, tokenize.NEWLINE)

在使用简单的例子实验patsy库的时候发现报错import patsyimport pandas as pddata = pd.DataFrame({'x0': [1, 2, 3, 4, 5], 'x1': [0.01, -0.01, 0.25, -4.1, 0.], 'y': [-1.5, 0., 3.6,...

2019-11-25 15:53:47 275

原创 pycharm 运行pymysql出现问题Warning: (1292, "Truncated incorrect DOUBLE value: '178-'")

出现了该问题后,返回查看sql数据发现查询列为char类型的电话号码,但是数据中存在几个异常的汉字,影响了搜索,导致出现warning,把异常的汉字删除后,能够正常查询O(∩_∩)O哈哈~...

2019-07-09 20:06:17 4050 1

原创 如何固定电脑的ip

之前尝试电脑搭建一个sql数据库,其他电脑可以通过封装py(包含pymysql函数)的程序访问。但是后来发现公司自身的ip总是更改,于是需要一种固定电脑ip的办法。参考链接是:https://jingyan.baidu.com/article/7908e85c7c1147af481ad237.html...

2019-07-08 17:04:30 294

转载 python tkinter实践之制作看视频小软件

利用tkinter制作一个可视化界面,能够进行选择播放接口,播放某链接的视频(支持优酷,腾讯等多平台),清空搜索框等操作。界面如下所示,代码也如下import requestsimport reimport tkinter as tkimport webbrowser#第一步从qumail网址获取解码urlurl='http://www.qmaile.com/'headers={...

2019-06-29 20:58:53 5322 2

原创 GUI之tkinter入门各种控件的使用

Tkinter模块(“Tk 接口”)是Python的标准Tk GUI工具包的接口,能够实现图形可视化。1,首先是最基础的import tkinter as tk#创建窗口root=tk.Tk()#设置标题root.title('tkinter的标题')#设置窗口的高度和位置root.geometry('500x250+100+100') #500,250为宽高,100100为左上角...

2019-06-29 20:16:59 340

原创 python常见的API(预先定义的函数)查询方式

第一种,在ide中找到目标函数,然后鼠标右击,选择GO- To下的Declaration(公告生声明的意思),2在ipython 中,函数后面加问号,或两个问号例子import collectioncollection.defaultdict?collection.defaultdict??3搜索引擎。。。搜索python3 函数名,进入官方文档4Mac的dash软件python...

2019-06-29 16:43:00 578

转载 如何用python实现聚类离散化

起始聚类离散化就是根据利用一定规则对数据进行分类,可以用分桶式或者k-means 等方法这里用中医证型关联规则挖掘里面的离散化举例,k-means 举例首先看下图的原数据,该病存在六种证型系数,为了后续的关联算法,需要先将其离散化。from __future__ import print_functionimport pandas as pdfrom sklearn.cluster im...

2019-06-27 00:10:34 3005

转载 python rfm模型实现

原数据是航空公司客户数据,目的是对客户分类(按价值等因素),对不同客户类别进行特征分析,比较不同客户的客户价值,对不同价值的客户提供个性化服务。所有数据指标如下图所示RFM模型,及最近消费时间间隔recency,消费频率Frequency,消费金额Monetary来进行客户细分。本案例用一定时间累积飞行里程M,和乘坐舱位所对应的折扣系数的平均值C代替消费金额。增加客户关系长度L,构成了LRF...

2019-06-26 09:00:53 2994

原创 python dataframe如何设置并处理(删除、填充)空值

当测试或实际应用需要设置空值缺失值时可以用None 、np.nan 、pd.NaT处理空值异常值有两种办法,一种是将空值行/列删除,一种是将替代空值如何对空值计数a=df.isnull()b=a[a==True]b.count()#用来计算nan数量删除的方法将nan的行全部删除df.dropna()print(‘dropna’,df.dropna())#将带nan的行删除 ax...

2019-06-26 00:45:05 20675

原创 python GUI graphics

该部分依旧是学习的北理的普通课程,感恩!Tkintergraphics Tkinter的拓展尝试使用graphics发现竟然无法pip install 然后抄了网上前人发的代码自己建一个graphics.py,放入python的路径第一步导入图形模块import graphics#创建图形窗口win=graphics.GraphWin()#关闭窗口win.close()更简洁的...

2019-06-21 20:25:57 230

原创 goto语句以及其替代方法;python的while循环制作目录?

最近在尝试用python做一个数据库,通过pymysql调取数据库的数据然后处理展示在搭建数据库的目录时,存在一个问题—如何在操作完或者错误点进某一部后返回目录选择的界面?开始的时候想尝试用goto语句先安装 很简单pip install goto-statement然后通过小程序测试from goto import with_goto@with_gotodef ceshi(star...

2019-06-21 16:42:11 1442

转载 初学pygame第一天

在b站搜索嵩天教授的Python游戏开发教程开始学习import pygame,sys#初始化intitle()及设置pygame.init()size=width,height=600,400speed=[1,1]BLACK=0,0,0screen=pygame.display.set_mode(size)pygame.display.set_caption("pygame壁球"...

2019-06-21 16:23:22 66

转载 初学pyinstaller

今天学习了如何使用pyinstaller第一步 安装pyinstallercmd,然后pip install pyinstaller第二步pyinstallercd到目标文件夹##pyinstaller -F ceshi.py然后会在c盘的build\ceshi 文件夹放一些过程文件目标文件夹的dict文件夹会有一个ceshi.exe点击 exe文件即可运行。第一次尝试的时候发现...

2019-06-20 23:06:02 245 1

设计部工作计划表3.0.xlsx

设计部工作计划表3.0.xlsx,工作计划表及完成情况。

2020-01-12

研招网_硕士目录(已完成).otd

无,使用八爪鱼对研招网初试信息进行爬取的文件。

2020-01-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除