小白自留地-CSDN博客

原创 python函数to_dict使用

to_dict函数是将数据框数据转换为字典形式。DataFrame.to_dict(*self*,orient='dict',into=)都是转换为字典，但具体形式不同：orient='dict',默认,字典套字典：{column:{index:value}}orient ='list' ,字典里面为列表：{column：[values]}orient ='series',字典里为series形式：{column: Series(values)}orient ='split',字典里是数据对应

2021-06-30 10:32:10 14019 3

原创 python时序数据处理2--提取年月信息、时间作差等

同样首先先生成时序数据1.生成时序数据import pandas as pdimport numpy as npfrom datetime import datetime,timedeltatest=pd.date_range('2020-05-09', periods=50,freq='H') #生成时间序列，期数是12，时间间隔按照分钟test[1:10]#构造时间序列数据ts=pd.Series(np.arange(50),index=tes

2021-06-19 12:46:25 2044

原创 python时序数据操作1--字符串转日期

1. 生成日期数据import pandas as pdpd.date_range( )同生成随机数的思想类似，使用pandas库中的函数pd.date_range(start=None，end=None，periods=None，freq=None，tz=None，normalize=False，name=None，close=None，**kwargs)参数解释：1 设定开始时间、长度、频率start_date='20200101'length=10date_1=pd.dat

2021-05-22 20:44:07 987

原创爬虫实操1-静态网页-3个解析方式比较

以天涯论坛的简单网页爬取为例子，BeautifulSoup、PyQuery以及Xpath都使用一下。1. 网页访问使用requests库访问import requestsurl='http://bbs.tianya.cn/hotArticle.jsp?pn=1' #天涯论坛req=requests.get(url)req输出：<Response [200]>表示能够成功访问展示下网页源代码：print(req.text)2. 确定想要抓取的内容打开开发者工具，

2021-05-16 20:22:37 7467

原创 python读写、导入导出数据操作（简）

这里的读写文件，与导入导出数据不同，导入数据是直接连接csv或xlsx文件，将数据导入进来或导出保存出去。这里读文件，是可迭代的，文件使用完毕后还需要关闭。1. 读取操作open()可以读取csv、txt、html文件open(file,encoding,errors)file：文件或文件路径encoding：文件编码解码方式，常见有utf-8,gbkerrors：如果读取文件前两个参数都确认没问题，还是读取失败，可使用errors='ignore'例子：open('data.txt

2021-05-16 10:55:50 8653 1

原创 python语法句法（简）

一些复杂问题可以用编程解决，一个重要基础是逻辑，循环等，（对于仰望计算机专业数学专业大神的小白来说，编程好难…逻辑好难…哭泣）1. 条件语句1.1 if 语句简单的 if 语句：if 条件：执行当“条件”为真时，开始执行内容例子：a=18if a>=10: print('a:',a) print('True')输出：a: 18True1.2 if-else 语句if 条件：执行内容1else : 执行内容2当“条件”为真时，执行内

2021-05-16 09:56:24 445

原创 notebook使用

1. 在notebook中执行命令行命令命令行的命令前面加个! 即可在notebook中进行。!pip3 install pandas2. pip镜像pip默认使用国外站点来下载python包，可能存在网速、网络稳定问题。可以配置国内镜像来加速下载(国外用戶无须此操作)。阿里云 http://mirrors.aliyun.com/pypi/simple/豆瓣 http://pypi.douban.com/simple/清华大学 https://pypi.tuna.tsinghua.edu

2021-05-15 21:04:14 1634

原创爬虫08-Selenium使用（简）

Selenium是一个自动化测试框架，可以模拟浏览器行为。当网页是动态加载，没办法定位内容时，可以使用Selenium模拟浏览器操作网页。基本使用加载工具包：from selenium import webdriver #浏览器驱动对象from selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keys #控制键盘from selenium.webdriver.support

2021-05-15 18:20:11 7129

原创 Anaconda环境的chromedriver安装配置

使用selenium工具包时，必须安装浏览器和浏览器驱动。谷歌浏览器安装谷歌浏览器驱动，火狐浏览器安装火狐浏览器驱动。1. 驱动下载网站两个下载地址：淘宝镜像网站：https://npm.taobao.org/mirrors/chromedriver/驱动官网：https://npm.taobao.org/mirrors/chromedriver/驱动版本需要和chrome浏览器的版本一样，不然不起作用。2. 查看chrome浏览器版本在浏览器中输入chrome://version/

2021-05-05 10:51:13 2994 6

原创爬虫07-Xpath使用（简）

1. 什么是xpathxml是用来存储和传输数据的,和html的不同有两点：html用来显示数据，xml用来传输数据html的标签是固定的，xml标签是可以自定义的(二者写法、结构基本相同，所以xpath能在html中搜索内容)Xpath是一门在XML文档中查找信息的语言，是一种路径表达式。主要用的节点：元素、属性、文本。常用的路径表达式：// 不考虑位置，从匹配选择的当前节点选择文档中的节点./ 从当前节点开始往下查找../ 从当前节点的父节点查找@ 选择属性

2021-05-05 09:39:18 196

原创爬虫06-正则表达式使用（简）

正则表达式是对字符串操作的一种逻辑公式，用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个规则字符串用来表达对字符串的一种过滤逻辑python的re库正则表达式在线测试工具使用场景使用平常解析库bs/pq无法提取信息时，可用正则表达式提取...

2021-05-05 09:13:18 106

原创爬虫05-PyQuery使用（简）

pyquery网页解析库同样的，是网页解析的前提是成功访问网页，能够获取到内容，之后再是解析。from pyquery import PyQuery as pq初始化字符串初始化以下面一段html为例html = '''<div> <ul> <li class="item-0">first item</li> <li class="item-1"><a href="link2.htm

2021-05-04 17:08:51 152 6

原创爬虫04-BeautifulSoup使用（简）

BeautifulSoup的基本使用；适用的选择器：标签选择器、标准选择器、CSS选择器

2021-05-04 15:35:52 357 3

原创爬虫03-requests使用（简）

Requests是基于urllib，采用Apache2 Licensed开源协议的HTTP库，比urllib更加方便，满足HTTP测试需求。是一个python实现的简单http库。requests实例引入import requestsresponse = requests.get('https://www.baidu.com/')print(type(response),'\n')print(response.status_code)<class ‘requests.models.R

2021-05-04 11:05:59 269 2

原创爬虫02-urllib使用（简）

urlliburllib是python内置的HTTP请求库，感觉现在不常用这个，不好用，但是了解爬虫的基础四个模块urllib.request ：请求模块urllib.error ：异常处理模块（保证程序不会意外终止）urllib.parse ：url解析模块（拆分、合并等）urllib.robotparser ：robots.txt解析模块请求模块urlopenurlopen的get请求发送requests请求给服务器 :urllib.request.urlopen(url, da

2021-05-04 10:04:44 121 2

原创爬虫01-基本原理（简单理论基础）

爬虫基本流程1. 发起请求通过HTTP库向目标站点发起请求，即发送一个requests,请求可以包含额外的headers等信息，等待服务器响应。2. 获取响应内容如果服务器正常响应，会得到一个response,其内容便是所要获取的页面内容，类型可能有HTML,Json字符串，二进制数据（如图片视频）等类型3. 解析内容得到的内容可能是HTML,可以用正则表达式，网页解析库进行解析；可能是Json，可以直接转为Json对象解析；可能是二进制数据，可以做保存或者进一步的处理4. 保存数据保存形式

2021-05-04 08:59:13 171

原创描述分析时的数据可视化探索（简）

对一份数据进行分析或探索时，针对连续型数据或离散型数据，有对应的探索方式分析数据特征，以更好地服务于之后的建模或深入分析。这里结合python中作图包的使用（主要是matplotlib和seaborn），小小总结一下对连续型数据和离散型数据的分析思路（思维导图），希望之后能够结合实践不断完善和丰富，不断进步。（不正确的地方还请朋友们指正！）...

2021-05-03 16:41:07 154

原创 pyecharts做柱形图（简）

使用pyecharts做柱形图举例数据from pyecharts.charts import Barfrom pyecharts import options as opts#数据attr=["衬衫", "羊毛衫", "雪纺衫", "裤子", "高跟鞋", "袜子"]v1=[5,20,36,10,10,100]v2=[55,60,16,20,15,80]柱形图第一种方式：链式调用#链式调用bar=( Bar() .add_xaxis(attr) .add_

2021-05-03 16:29:15 1279

原创使用seaborn作直方图/柱形图/散点图

使用seaborn作图并不多，记录也不详尽，之后如果用的多再进行补充。seaborn其实是在matplotlib的基础上进行了更高级的API封装，使得作图更加容易。在matplotlib上构建，支持numpy和pandas的数据结构可视化多个内置主题及颜色主题可视化单一变量、二维变量用于比较数据集中各变量的分布情况可视化线性回归模型中的独立变量及不独立变量加载包：import numpy as npimport pandas as pdimport matplotlib.pyplot

2021-05-03 16:23:15 2130 2

原创常用统计作图-使用matplotlib

使用matploylib作图并不多，记录也不详尽，之后如果用的多再进行补充。多个子图首先加载包import matplotlib.pyplot as pltimport numpy as npplt.rcParams['font.sans-serif']='SimHei'plt.rcParams['axes.unicode_minus']=False子图设置需要的函数：figure- Matplotlib的图像均位于figure对象中- 创建figure: fig=plt.figu

2021-05-03 16:06:32 1015 2

原创使用bokeh包作散点图和柱形图

python中的bokeh包也是作图神器，现在了解到了如何作散点图和柱形图，先记录一波。Bokeh专门针对Web浏览器的呈现功能的交互式可视化python库。Bokeh接口Charts:高层接口，以简单的方式绘制复杂的统计图Plotting:中层接口，用于组装图形元素Models:底层接口，为开发者提供最大灵活性首先bokeh图举例如下：个人认为绘图的基本框架可以为：设置hover提示框的内容设置画布figure绘图（添加散点图/柱形图等）绘图空间设置加载需要的包im

2021-05-03 11:36:10 2041 3

原创使用pyecharts包作简单的中国地图

只摸索出全部省份的地图，直接设置参数即可，做出来的图挺好看，所以记录一下。选择部分省份作图或对某一个具体地区作图，特别是用于论文、研究等，需要图片十分清晰，还是专业地图绘制软件更合适。创建备用数据import pandas as pdgeo_test_data=[('北京',100),('上海',90), ('江苏',88),('陕西',78), ('河北',10),('湖南',66)]df=pd.DataFrame(geo_test_d

2021-05-02 22:54:49 1894 2

原创大数据相关知识点记录

内容主要是大数据入门的知识点记录，部分总结的不够专业，用于理解。

2021-04-28 21:16:51 386

原创统计学小知识点-白话记录

记录统计学方面小知识点，白话记录，常看常新。什么是概率：概率反映的是随机事件出现的可能性大小。就随机事件来看，其受偶然因素的影响，出现是没有规律性的，但在大量重复实验的情况下，某一事件出现的频率可以作为该事件发生概率的估计，也就是概率反映的是“多次试验”中频率的稳定性。概率的定义：在大量重复试验中，如果事件A发生的频率稳定在某一个数值附近，那么这个数值叫做事件A的概率。如何理解假设检验：假设检验的思想是基于“小概率事件在一次试验中不可能发生的思想”。为什么要进行假设检验，是要验证一个我们未知的东

2021-04-28 20:44:54 434

原创小知识点记录

数据分析常用方法、活动分析思路、用户生命周期管理、数据分析报告思路、如何理解金融科技

2021-04-28 20:34:27 119

原创 pandas常用操作（小小结..）

pandas是基于numpy数组构建的，但最大不同是pandas是专门为处理表格和混杂数据设计的。数据结构有一维Series和二维DataFrame。直接将excel或csv数据导入python进行操作分析时，常用到数据框各种操作，使用pandas操作基本能满足大部分需求。...

2020-12-04 17:20:05 123

原创 numpy常用操作（小小结..）

numpy是以矩阵为基础的数学计算模块，数据结构是n维的数组对象ndarray。数组可以用python常规方式定义，但引入Numpy工具包后，使用array函数构建，更容易处理和操作。'''python常规方式定义数组 '''a_1=[1,2,3,4,5] print(type(a_1)) #数据类型是列表lista_1+1 #无法对数据计算'''引入Numpy工具包，使用array函数创建'''a_2=np.array([1,2,3,4,5])print(typ

2020-12-04 17:17:22 109

原创 python常见数据类型（参考总结）

python常见数据类型，刚开始接触python，觉得数据类型不重要，最先看数据类型也最不重视，但当选择使用python作为数据处理与分析的工具，数据类型有哪些不是需要背下来，而是了解后对处理过程有帮助，能够提高效率。借鉴博客：Python中常见的数据类型总结用思维导图的形式记录下来...

2020-12-04 17:06:58 757

原创理论-决策树小补充

之前的决策树只简单介绍了决策树思想，决策树还有多种类型，做一个小总结，待补充完善。ID3算法使用信息增益选择属性，C4.5用信息增益率，克服信息增益容易选择取之类别偏多的特征的不足！！ID3，C4.5都只用于分类问题；CART（Classification And Regression Tree）即可用于分类，也可用于回归，sklearn中使用的是CART算法，可以做分类（DecisionTreeClassifier），也可以做回归（DesicionTreeRegression）.CART是二叉树.

2020-10-29 11:19:43 77

转载理论-AdaBoost（转载）

转自一位老师的博客，供学习使用。AdaBoost是Boosting算法的一种，而Boosting算法都需要解决一些问题，这篇博客有解答：1）如何计算学习误差率e?2) 如何得到弱学习器权重系数α?3）如何更新样本权重D?4) 使用何种结合策略？集成学习之AdaBoost算法...

2020-10-29 10:34:19 98

原创 python-XGBoost应用（回归）

以下内容笔记出自‘跟着迪哥学python数据分析与机器学习实战’，外加个人整理添加，仅供个人复习使用。通过一个数据集展示XGBoost的回归建模过程，保险赔偿预测。import pandas as pdimport numpy as npimport matplotlib.pyplot as plt%matplotlib inlinefrom scipy import statsimport seaborn as snsfrom copy import deepcopyimport w

2020-09-14 16:53:09 27351 8

原创 python-XGBoost应用（分类）

以下内容笔记出自‘跟着迪哥学python数据分析与机器学习实战’，外加个人整理添加，仅供个人复习使用。XGBoost为Boosting集成算法，这里为XGBoostClassifier举例。import xgboostfrom numpy import loadtxtimport pandas as pdfrom xgboost import XGBClassifierfrom sklearn.model_selection import train_test_splitfrom sklea

2020-09-14 11:17:32 4112 2

原创 python-基于softmax方法的简单神经网络（程序）

以下内容笔记出自‘跟着迪哥学python数据分析与机器学习实战’，外加个人整理添加，仅供个人复习使用。softmax分类器可以说是在线性的SVM分类上，将wx+b的分值进行了转化（指数函数、归一化），将分值转化为概率值，还是线性分类。首先构造需要的数据import numpy as npimport matplotlib.pyplot as pltplt.rcParams['figure.figsize']=(8,6)plt.rcParams['image.interpolation']='

2020-09-14 10:50:10 752

原创 python-sklearn实现神经网络（数据量小的情况）

以下内容笔记出自‘跟着迪哥学python数据分析与机器学习实战’，外加个人整理添加，仅供个人复习使用。神经网络（neural_network)模块重要的有两个类，MLPClassifier(分类)和MLPRegressor(回归)。多层感知器（MLP）是一种监督学习算法，前馈神经网络模型。两类都适用参数alpha作为正则化（L2正则化）系数。skalern中的神经网络，在数据规模较大时，不适用！MLPClassifier的训练使用BP算法，使用交叉熵损失函数（Cross-Entropy loss f

2020-09-14 10:39:33 6688 1

空空如也

空空如也