有人喜欢你-CSDN博客

原创 Golang课后作业练习一

Golang学习进度过半，第一次独立完成课后作业····加油！package mainimport ( "fmt" "math/rand" "time")func main(){ // 随机生成10个整数【1,100】保存到数组，并倒叙打印、求平均值、最大值和最大值的下标，并查找里面是否有55 // 1、声明数组；2、循环10次随机生成数字，3、倒序排序，二分法或冒泡法，4、计算均值、最大值，在前面倒序打印时，就将最大值赋值给一个变量，使用for循环判断与最大值相等时，取出其下标即可

2022-01-20 22:05:54 480

原创 selenium python采集数据样例

不说了，直接上代码，但是登录验证还没找到办法绕过，找的各种资料也看不懂。# 公司股权穿透内容采集#%%from time import sleepfrom time import timeimport randomfrom selenium import webdriverbrower = webdriver.Chrome()src_url = r"https://aiqicha.baidu.com/?from=pz"brower.maximize_window()brower.i

2021-11-28 20:44:55 623 1

原创 2021-10-27 pandas的填充fillna 与 pandas的df[columns_list]重新生成datafrmae的踩坑指南

先上标题！！！踩坑记录 - pandas填充和非填充的区别以及df=df[cols_list]的重点注意事项以下疑难杂症，你可能永远不会遇到，就像我以前只是用pandas做自己熟悉的事情，使用相对成熟、稳定的数据源。然鹅，某一天开始工作转向了，开始要用到一些非标的数据、人工定义的一些数据。悲剧就开始发生了df_fillna0 = pd.read_excel('filename',sheet_name='xxx').fillna(0)df_nofillna = pd.read_excel('filena

2021-10-27 21:10:22 577

原创 matplotlib、seaborn 绘制多图

matplotlib、seaborn 绘制多图-函数编写思路对于这种不常用，但有时候做分析又会用的到，因为绘图用的少，总是会在生产中被卡壳。谨以此记录python 的漫漫路对于这种不常用，但有时候做分析又会用的到，因为绘图用的少，总是会在生产中被卡壳。谨以此记录python 的漫漫路源代码是在jupyter-lab上面写的，为了方便阅读，就全部放在了一起。import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimp

2021-04-22 20:41:10 5564 1

原创使用python将pdf文档转换为txt、docx文档

使用python将pdf文档转换为txt、docx文档感谢@IT农民工1。提供了好用简洁的第三方库，实测有效。一开始试了好几个，环境变量都不支持，捣腾起来太费劲了。github又太会用。# -*- coding: utf-8 -*-"""Created on Tue Dec 15 20:49:28 2020@author: heater"""import osos.chdir(r'D:\study\linux')import docximport pdfplumberdef pd

2021-03-17 22:42:57 479

原创菜鸟爬虫一_接数据简单整理并发送邮件_主要是打通流程

接爬虫练习，利用smtplib包发送邮件。最近刚好工作中需要python处理报表的自动发送任务，就chao到了smtplib的资料。主要三步：一、pandas读取数据转换为DataFrame格式，做好清洗。这是邮件的主体部分二、写好html的css样式，包在head头部里。三、调试smtp包的发送函数。整个是怎么实现的，老实讲不懂。不过感觉邮件内容主要是文本内容，所以非常好的支持html文本标记语言，css样式+to_html后的内容+html的标签，实现起来也比较直观。截图部分取了邮件的标题、

2020-10-28 23:21:21 550

原创菜鸟爬虫自由练习一＞改进版

本篇主要是在爬取环节，引入正则，进行数据清洗。对【菜鸟爬虫自由练习一】的改进版。https://blog.csdn.net/heart_FW/article/details/109189803emmmm 正则挺不容易的，但正则太有用了# -*- coding: utf-8 -*-"""Created on Sun Oct 25 17:13:18 2020@author: heart"""import requestsfrom bs4 import BeautifulSoupimport

2020-10-25 18:51:00 590

原创菜鸟爬虫自由练习一

本次是对前一次爬虫代码的练习。内容估计对从事互金的同学有些帮助，如能起到一点帮助作用，深感荣幸。这也是第一次自行尝试构建爬虫。当然起步还是捡容易的做，毕竟在尝试这个网站之前，另一个网站被反爬了暂时还无解。hhhhh同样的在代码部分dic_c和dic_h部分做了删减处理，请使用的同学替换为自己电脑的heager和cookies，查看路径newwork–doc-刷新页面–name找到右边的header和cookies，相信聪明的你百度下很快能找到的。第一部分内容为源代码构建，爬取的是总平台数据信息，结果来

2020-10-20 21:36:17 546

原创菜鸟温习python爬虫

时隔一年重新温习python爬虫代码一年前跟着视频敲过一次代码，但囫囵吞枣。这次刚敲完一遍linux基础命令（不过都忘了。。。），敲过一遍html5的标签命令和部分css3的属性语法。果真对爬虫代码的理解有所帮助。理解代码的实现思路很关键，全文可复制，需要修改两个地方，dic_h和dic_cook，这个自行登录豆瓣网站之后，去network–doc–刷新后取User-Agent和cookies对应的值，替代就行。"""需求：任意图书类别的书籍信息数据采集实现方法：第一步，数据采集 1

2020-10-17 17:56:05 244 2

原创英国电商用户行为数据分析-python

分析案例练习。数据连接https://archive.ics.uci.edu/ml/datasets/online+retail#。原文是用jupyter写的，周末专门用spyder实现了一遍，对原文多次调用的绘图，直接写成了函数，同时原文应该有个别语法错误的地方的。# -*- coding: utf-8 -*-"""Created on Thu Aug 6 07:11:46 2020@author: heart"""import numpy as npimport pandas as

2020-08-09 21:04:47 991

原创 python - pandas对json值进行分列处理

昨天又碰到一个难题，对于DataFrame中某一列值都是json格式的数据如何通过pandas进行分割转化。下面给出造句的思路。其实想明白之后也就很简单了。主要是用到列表的有序性，但前提要保证原DF中的值都是非空值。sst = 'c:2,d:2,aa:0'ssa = 'c:1,d:-1,aa:2'lst = [sst,ssa]data = pd.DataFrame({'a':lst})# 制造数据[ 's'+str(i) for i in range(101,103,)]data['in

2020-08-07 07:44:10 2789

原创 pymongo - 基本用法 -导入导出

最近鼓捣各种数据库，MySQL、sqlite3、mongo，但是感觉工作中很少能用到，既不用爬虫，工作中也是常用hive，诶。待哪一天用到，好翻翻笔记import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport osimport reimport warningsimport timewarnings.filterwarnings('ignore')'''(1) pymong基本语法'''.

2020-06-14 12:14:35 1370

原创 sqlit3，数据库读取

sqlit3 emmm，轻量级，读取数据库是方便，但是写入就比较麻烦了。-没事用来练习还是比较好用。import sqlite3import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport osimport reimport warningswarnings.filterwarnings('ignore')'''(1)顺序查询获取'''con = sqlite3.connect(r'D:\s

2020-06-11 22:23:37 257

原创基于python pandas模块的简单实践-（1）

一个类似于真是工作中的事情，需要定时将数据导出系统，然后用excel去重、分类、汇总结果。就想吧，能不能做成一键生成的东西了。下一步，看看能不能做成一个exe文件。等做好再分享。import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport osimport reimport warningswarnings.filterwarnings('ignore')'''(1)列表+ 函数生成数据'''

2020-06-04 22:48:27 206

原创真正的python pandas模块实现SQL-jion连接的方法。关键在indicator参数。

有好几次想要用python实现SQL的join查询功能，找了好多教程，都没有给出完整的sql 中七种经典join查询。而且有的博客给出的merge参数也不完整。对于未查过模块原文档的同学真是挠头。正常的inner outer left right 四种表连接查询都很容易理解，关键在于左连接只包含左表，右链接只包含右表两种查询需求，而merge中的indicator参数返回结果，就可以轻松实现了。寄代码、图如下。有问题可以讨论哦…import numpy as npimport pandas

2020-06-03 22:06:37 566

原创正则表达式，强密码判断

def isstrongpwd(pwd): '''强密码判断，必须同时包含大小写字母和至少一个数字''' pat0 = re.compile(r'[A-Z]') mo0 = pat0.findall(pwd) pat1 = re.compile(r'[a-z]') mo1 = pat1.findall(pwd) pat2 = re.compile(r'\d+') mo2 = pat2.findall(pwd) if len(pwd) <

2020-05-24 11:51:14 599

原创二项式分布，excel实现后，尝试用pandas实现

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport mathdef get_var(n,k,p_y,p_n): ''' n：实验次数（譬如投篮） k：全部实验命中的次数 p_y：实验命中的概率 p_n：实验...

2020-04-12 17:59:26 316

原创 python_word_excel 读取-写入

读取word表格数据，写入excel。之上半部import docximport osimport numpy as npimport pandas as pdimport repath = r'D:\hard_way' #定义word文件路doc = docx.Document(path+'\ceshi.docx') #读入word文档len(doc.paragraphs)...

2020-01-12 20:54:49 739

原创 selenium框架爬取p2p问题平台信息，需加载点击页面的。

@TOCselenium框架爬取p2p问题平台信息# -*- coding: utf-8 -*-"""Created on Tue Dec 10 07:03:57 2019@author: heart"""import randomfrom selenium import webdriverimport reimport time import osimport wa...

2019-12-10 08:01:54 204

原创 Python合并excel，合并sheet插页，且sheet命名毫无规律的情况

Python合并excel，合并sheet插页，且sheet命名毫无规律的情况在上一篇的基础上进一步改进，当时未考虑sheet插页在不同的excel表里或有或无的情况主要就是引入了 while... try... except.. 的机制生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能...

2019-10-31 20:22:43 797

原创 Python 使用pandas 合并多个excel文件的多个sheet插页

@TOC在这里插入代码片优点是支持多个excel合并，支持多个规律的sheet插页合并，但如果多个sheet插页毫无规律，，，还没想到。后续sheet的读取，只需要变更sheet参数名称，调用getexcel()函数就可以了。最后再用pd.concat([])方法完成数据拼接即可import numpy as npimport pandas as pdimport ospath = ...

2019-10-30 22:01:09 3507

heart_FW的博客