自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 Golang课后作业练习一

Golang学习进度过半,第一次独立完成课后作业····加油!package mainimport ( "fmt" "math/rand" "time")func main(){ // 随机生成10个整数【1,100】保存到数组,并倒叙打印、求平均值、最大值和最大值的下标,并查找里面是否有55 // 1、声明数组;2、循环10次随机生成数字,3、倒序排序,二分法或冒泡法,4、计算均值、最大值,在前面倒序打印时,就将最大值赋值给一个变量,使用for循环判断 与最大值相等时,取出其下标即可

2022-01-20 22:05:54 480

原创 selenium python采集数据样例

不说了,直接上代码,但是登录验证还没找到办法绕过,找的各种资料也看不懂。# 公司股权穿透内容采集#%%from time import sleepfrom time import timeimport randomfrom selenium import webdriverbrower = webdriver.Chrome()src_url = r"https://aiqicha.baidu.com/?from=pz"brower.maximize_window()brower.i

2021-11-28 20:44:55 623 1

原创 2021-10-27 pandas的填充fillna 与 pandas的df[columns_list]重新生成datafrmae的踩坑指南

先上标题!!!踩坑记录 - pandas填充和非填充的区别以及df=df[cols_list]的重点注意事项以下疑难杂症,你可能永远不会遇到,就像我以前只是用pandas做自己熟悉的事情,使用相对成熟、稳定的数据源。然鹅,某一天开始工作转向了,开始要用到一些非标的数据、人工定义的一些数据。悲剧就开始发生了df_fillna0 = pd.read_excel('filename',sheet_name='xxx').fillna(0)df_nofillna = pd.read_excel('filena

2021-10-27 21:10:22 577

原创 matplotlib、seaborn 绘制多图

matplotlib、seaborn 绘制多图-函数编写思路对于这种不常用,但有时候做分析又会用的到,因为绘图用的少,总是会在生产中被卡壳。谨以此记录python 的漫漫路对于这种不常用,但有时候做分析又会用的到,因为绘图用的少,总是会在生产中被卡壳。谨以此记录python 的漫漫路源代码是在jupyter-lab上面写的,为了方便阅读,就全部放在了一起。import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimp

2021-04-22 20:41:10 5564 1

原创 使用python将pdf文档转换为txt、docx文档

使用python将pdf文档转换为txt、docx文档感谢@IT农民工1。提供了好用简洁的第三方库,实测有效。一开始试了好几个,环境变量都不支持,捣腾起来太费劲了。github又太会用。# -*- coding: utf-8 -*-"""Created on Tue Dec 15 20:49:28 2020@author: heater"""import osos.chdir(r'D:\study\linux')import docximport pdfplumberdef pd

2021-03-17 22:42:57 479

原创 菜鸟爬虫一_接数据简单整理并发送邮件_主要是打通流程

接爬虫练习,利用smtplib包发送邮件。最近刚好工作中需要python处理报表的自动发送任务,就chao到了smtplib的资料。主要三步:一、pandas读取数据转换为DataFrame格式,做好清洗。这是邮件的主体部分二、写好html的css样式,包在head头部里。三、调试smtp包的发送函数。整个是怎么实现的,老实讲不懂。不过感觉邮件内容主要是文本内容,所以非常好的支持html文本标记语言,css样式+to_html后的内容+html的标签,实现起来也比较直观。截图部分取了邮件的标题、

2020-10-28 23:21:21 550

原创 菜鸟爬虫自由练习一>改进版

本篇主要是在爬取环节,引入正则,进行数据清洗。对【菜鸟爬虫自由练习一】的改进版。https://blog.csdn.net/heart_FW/article/details/109189803emmmm 正则挺不容易的,但正则太有用了# -*- coding: utf-8 -*-"""Created on Sun Oct 25 17:13:18 2020@author: heart"""import requestsfrom bs4 import BeautifulSoupimport

2020-10-25 18:51:00 590

原创 菜鸟爬虫自由练习一

本次是对前一次爬虫代码的练习。内容估计对从事互金的同学有些帮助,如能起到一点帮助作用,深感荣幸。这也是第一次自行尝试构建爬虫。当然起步还是捡容易的做,毕竟在尝试这个网站之前,另一个网站被反爬了暂时还无解。hhhhh同样的在代码部分dic_c和dic_h部分做了删减处理,请使用的同学替换为自己电脑的heager和cookies,查看路径newwork–doc-刷新页面–name找到右边的header和cookies,相信聪明的你百度下很快能找到的。第一部分内容为源代码构建,爬取的是总平台数据信息,结果来

2020-10-20 21:36:17 546

原创 菜鸟温习python爬虫

时隔一年重新温习python爬虫代码一年前跟着视频敲过一次代码,但囫囵吞枣。这次刚敲完一遍linux基础命令(不过都忘了。。。),敲过一遍html5的标签命令和部分css3的属性语法。果真对爬虫代码的理解有所帮助。理解代码的实现思路很关键,全文可复制,需要修改两个地方,dic_h和dic_cook,这个自行登录豆瓣网站之后,去network–doc–刷新后取User-Agent和cookies对应的值,替代就行。"""需求:任意图书类别的书籍信息数据采集实现方法:第一步,数据采集 1

2020-10-17 17:56:05 244 2

原创 英国电商用户行为数据分析-python

分析案例练习。数据连接https://archive.ics.uci.edu/ml/datasets/online+retail#。原文是用jupyter写的,周末专门用spyder实现了一遍,对原文多次调用的绘图,直接写成了函数,同时原文应该有个别语法错误的地方的。# -*- coding: utf-8 -*-"""Created on Thu Aug 6 07:11:46 2020@author: heart"""import numpy as npimport pandas as

2020-08-09 21:04:47 991

原创 python - pandas对json值进行分列处理

昨天又碰到一个难题,对于DataFrame中某一列值都是json格式的数据如何通过pandas进行分割转化。下面给出造句的思路。其实想明白之后也就很简单了。主要是用到列表的有序性,但前提要保证原DF中的值都是非空值。sst = 'c:2,d:2,aa:0'ssa = 'c:1,d:-1,aa:2'lst = [sst,ssa]data = pd.DataFrame({'a':lst})# 制造数据[ 's'+str(i) for i in range(101,103,)]data['in

2020-08-07 07:44:10 2789

原创 pymongo - 基本用法 -导入导出

最近鼓捣各种数据库,MySQL、sqlite3、mongo,但是感觉工作中很少能用到,既不用爬虫,工作中也是常用hive,诶。待哪一天用到,好翻翻笔记import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport osimport reimport warningsimport timewarnings.filterwarnings('ignore')'''(1) pymong基本语法'''.

2020-06-14 12:14:35 1370

原创 sqlit3,数据库读取

sqlit3 emmm,轻量级,读取数据库是方便,但是写入就比较麻烦了。-没事用来练习还是比较好用。import sqlite3import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport osimport reimport warningswarnings.filterwarnings('ignore')'''(1)顺序查询获取'''con = sqlite3.connect(r'D:\s

2020-06-11 22:23:37 257

原创 基于python pandas模块的简单实践-(1)

一个类似于真是工作中的事情,需要定时将数据导出系统,然后用excel去重、分类、汇总结果。就想吧,能不能做成一键生成的东西了。下一步,看看能不能做成一个exe文件。等做好再分享。import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport osimport reimport warningswarnings.filterwarnings('ignore')'''(1)列表+ 函数生成数据'''

2020-06-04 22:48:27 206

原创 真正的python pandas模块实现SQL-jion连接的方法。关键在indicator参数。

有好几次想要用python实现SQL的join查询功能,找了好多教程,都没有给出完整的sql 中 七种经典join查询。而且有的博客给出的merge参数也不完整。对于未查过模块原文档的同学真是挠头。正常的inner outer left right 四种表连接查询都很容易理解,关键在于左连接只包含左表,右链接只包含右表两种查询需求,而merge中的indicator参数返回结果,就可以轻松实现了。寄代码、图如下。有问题可以讨论哦…import numpy as npimport pandas

2020-06-03 22:06:37 566

原创 正则表达式,强密码判断

def isstrongpwd(pwd): '''强密码判断,必须同时包含大小写字母和至少一个数字''' pat0 = re.compile(r'[A-Z]') mo0 = pat0.findall(pwd) pat1 = re.compile(r'[a-z]') mo1 = pat1.findall(pwd) pat2 = re.compile(r'\d+') mo2 = pat2.findall(pwd) if len(pwd) <

2020-05-24 11:51:14 599

原创 二项式分布,excel实现后,尝试用pandas实现

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport mathdef get_var(n,k,p_y,p_n): ''' n:实验次数(譬如投篮) k:全部实验命中的次数 p_y:实验命中的概率 p_n:实验...

2020-04-12 17:59:26 316

原创 python_word_excel 读取-写入

读取word表格数据,写入excel。之上半部import docximport osimport numpy as npimport pandas as pdimport repath = r'D:\hard_way' #定义word文件路doc = docx.Document(path+'\ceshi.docx') #读入word文档len(doc.paragraphs)...

2020-01-12 20:54:49 739

原创 selenium框架爬取p2p问题平台信息,需加载点击页面的。

@TOCselenium框架爬取p2p问题平台信息# -*- coding: utf-8 -*-"""Created on Tue Dec 10 07:03:57 2019@author: heart"""import randomfrom selenium import webdriverimport reimport time import osimport wa...

2019-12-10 08:01:54 204

原创 Python合并excel,合并sheet插页,且sheet命名毫无规律的情况

Python合并excel,合并sheet插页,且sheet命名毫无规律的情况在上一篇的基础上进一步改进,当时未考虑sheet插页在不同的excel表里或有或无的情况主要就是引入了 while... try... except.. 的机制生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能...

2019-10-31 20:22:43 797

原创 Python 使用pandas 合并多个excel文件的多个sheet插页

@TOC在这里插入代码片优点是支持多个excel合并,支持多个规律的sheet插页合并,但如果多个sheet插页毫无规律,,,还没想到。后续sheet的读取,只需要变更sheet参数名称,调用getexcel()函数就可以了。最后再用pd.concat([])方法完成数据拼接即可import numpy as npimport pandas as pdimport ospath = ...

2019-10-30 22:01:09 3507

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除