掉进大海里over-CSDN博客

原创 python 对socket的理解

python socket创建客户端和服务器之间的链接。1、首先是服务器设置好了监听2、然后客户端发起响应请求3、服务器接收到响应请求，将信息发送给客户端4、循环往复，客户端发出请求，服务器根据请求反馈信息。所以，服务器和客户端的互动为：对服务器而言：import socketimport threading# 设置一个socket对象s = socket.socket(s...

2018-10-18 20:33:30 149

原创 python pandas DataFrame的创建

import numpy as npimport pandas as pddf = pd.DataFrame({"a":[range(10)], "b":list(range(10,20))})

2018-07-09 14:55:01 2785

原创 AES加密算法

刚刚拜读两位大神的加密算法解释，做一个小记录。 https://blog.csdn.net/qq_28205153/article/details/55798628 https://blog.csdn.net/lrwwll/article/details/78069013加密说到底就是对原有明文进行处理，形成密文的过程。AES是当前最流行的加密手段。根据密匙长度不同，可以分为128、1...

2018-07-04 20:10:02 188

原创关于int、byte、bit，以及函数运行桟帧的问题

1、数据类型、byte、bit 编程中遇到很多数据类型，有int，char，float，bool等等。数据类型往下是字节byte，比如一个int有4个byte大小，一个字符是一个byte，一个汉字是两个byte。再往下，一个字节是4位bit。一台机器的编译器可以是16位，或者是32位，所以int类型的大小就是不同的。除最高位的0表示正数，1表示负数外，那么最大值就是剩余位数全部为1。...

2018-06-28 21:09:36 460

原创 python struct模块

python struct模块用来进行C语言结构体和python语言的转换首先，我是从来没接触过C语言的小白，不知道语言结构体是什么。网上搜了一下，说说我的理解。C语言结构体的写法是#include <stdio.h> struct student //结构体类型的说明与定义分开。声明{int age; /*年龄*/float score; /*分数*/char sex; ...

2018-06-28 16:26:07 1333

原创 python 带账号密码的爬取

某些网页需要输入账号密码才能进入到特定的页面，比如cdsn登陆之后才能进入自己的博客管理页面。博客页面url：https://mp.csdn.net/postlist 登陆的方式有几种，如下具体描述。假如没有输入用户名密码的原始爬取，代码import urllib.requesturl = "https://mp.csdn.net/postlist"headers = {'...

2018-05-13 14:24:32 20216 1

原创 python urllib设置代理服务器爬取数据

了解到爬虫在爬取时，有时会受到ip一定时间内访问数量的限制，按照网上大神的说法，应当设置通过代理服务器访问网页。我还没有爬取过那么庞大的数据，当前没遇到这个问题。这里只是把方法记录整体步骤为：1、设置代理服务器2、爬取数据设置代理服务器的方法为import urllib.requestdef set_proxy(): handler = urllib.request.ProxyHandl...

2018-05-11 13:32:23 1064

有些网页在进行换页时，只是改动很小的部分，绝大多数位置不变，那么网页制作的过程中就不会更改初始的url，只是调整内部部分。这种改动我现在了解到的使用javascript来进行。js表现就是，在同一个url下，点击不同的查询页，出现不同的数据。比如评论的分页等。这个情况下，爬取的主体部分是不变的，需要调整的是url部分，需要找到正确的url。爬取过程仍然是1、通过url读取到网站网页2、将网站的文本...

2018-05-10 16:25:21 3309 2

原创 python urllib 静态网页的爬取

python之前有urllib和urllib2，在我接触到时已经合并，所以暂时不清楚之间的差别。现在只有urllib我暂时了解到的，爬虫的基本逻辑：1、通过url读取到网站网页2、将网站的文本数据读取3、通过正则表达寻找数据4、保存需要的数据5、数据处理，这里不是爬虫的内容所以爬虫入门就4个步骤：1、通过url打开网站from urllib import requesturl = "www.ba...

2018-05-09 13:35:43 366

weixin_39695028的博客