自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (3)
  • 收藏
  • 关注

原创 BeautifulSoup补充

此博文是对之前博文的补充 :https://blog.csdn.net/Clany888/article/details/81986302from bs4 import BeautifulSoupsoup = BeautifulSoup(html,'lxml') # 不标准的HTML字符串BeautifulSoup可以自动更正格式soup.prettify() # 将要解析的字符串按照...

2018-11-21 23:47:41 335

原创 Mac安装Anaconda3

下载地址:https://www.anaconda.com/download/#macos下载哪一个都可以,一个是窗口安装,一个是命令行安装,以命令行为主:cd到下载目录下,执行如下代码:# bash 您下载的文件名bash Anaconda3-5.3.0-MacOSX-x86_64.sh一直回车即可。添加环境变量:编辑 .bash_profile ,如果你命令行安...

2018-10-30 22:31:41 12490

原创 Mac「macOS Mojave 10.14」安装MySQL(其他版本也通用)

1、brew update更新包2、brew install mysql 安装mysql先使用 brew search mysql 查看可下载的版本,然后指定版本下载安装mysql$ brew install mysql==> Downloading https://homebrew.bintray.com/bottles/mysql-5.7.21.high_sierra....

2018-10-30 22:18:23 5268

原创 Mac安装Homebrew

安装1. 自动安装(推荐)执行如下命令:/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"上边的命令行时两个命令,首先下载install文件,然后用系统的ruby工具安装。尽量再bash或者zsh下安装,fish下会提示不识别'$'...

2018-10-30 21:59:31 854 1

原创 Python操作Hive的两种方法总结

方法一:使用PyHive库安装依赖包:其中sasl安装可能会报错,可以去https://www.lfd.uci.edu/~gohlke/pythonlibs/#sasl下载对应版本安装。pip install saslpip install thriftpip install thrift-saslpip install PyHivePython脚本代码操作:from p...

2018-10-09 21:37:17 28689

原创 云服务器Python相关配置

Linux安装Anaconda安装包获取:1.在线下载安装包:访问:https://repo.continuum.io/archive/ 查看自己要安装的Python版本,和系统要求。选择一个目录用于放置安装包,然后用wget命令进行在线下载:# 本服务器是64位wget https://repo.continuum.io/archive/Anaconda3-5.2.0-L...

2018-09-30 14:44:34 552

原创 网络爬虫笔记(Day9)——初识Scrapy

爬虫步骤:分析需求 获取网页的URL 下载网页内容(Downloader下载器) 定位元素位置, 获取特定的信息(Spiders 蜘蛛) 存储信息(ItemPipeline, 一条一条从管里传输) 队列存储(Scheduler 调度器)Scrapy:学习文档:https://scrapy-chs.readthedocs.io/zh_CN/0.24/index.html首...

2018-08-23 19:40:56 240

原创 网络爬虫笔记(Day8)——IP代理

可以去某宝或其他渠道购买,具体使用看自己购买商家的API文档,查看使用方法。ip_proxy.pyimport requestsclass ip_getter(object): def __init__(self): self.ip_proxy_str = get_ip_string() def update_ip_proxy_str(self)...

2018-08-23 19:19:13 321

原创 网络爬虫笔记(Day8)——BeautifulSoup

BeautifulSoup我们到网站上爬取数据,需要知道什么样的数据是我们想要爬取的,什么样的数据是网页上不会变化的。Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。Beautiful Soup自动将输入文档转换为Unico...

2018-08-23 19:12:33 294

原创 网络爬虫笔记(Day7)——Selenium

首先下载chromedriver 将其放入Python运行环境下,然后再去pip安装selenium。最简单的结构 代码如下:from selenium import webdriver# ----------------------不打开浏览器窗口-------------------------option_chrome = webdriver.ChromeOptions(...

2018-08-22 09:28:33 246

原创 进程和线程——Python中的实现

一、进程(Process)    进程是一个实体。每一个进程都有它自己的地址空间,一般情况下,包括文本区域(text region)、数据区域(data region)和堆栈(stack region)。文本区域存储处理器执行的代码;数据区域存储变量和进程执行期间使用的动态分配的内存;堆栈区域存储着活动过程调用的指令和本地变量。    进程是一个“执行中的程序”。程序是一个没有生命的实体,...

2018-08-20 23:02:50 313

原创 网络爬虫笔记(Day5)——腾讯社招&拉勾网

分析过程与链家是一样的。腾讯社招完整代码如下:import requestsfrom lxml import etreefrom mysql_class import Mysql # 自己封装好的Mysql类def txshezhao(keywords, page): ''' :param keywords: 指定搜索关键字进行数据爬取 :param ...

2018-08-19 14:58:23 956

原创 网络爬虫笔记(Day5)——链家

注意:请不要爬取过多信息,仅供学习。分析:业务需求分析......(此例为住房信息...) 查找相关网页信息(以链家为例) 分析URL,查找我们需要的内容,建立连接 定位数据 存储数据首先进入链家网首页,点击租房,F12检查网页,查找我们需要的信息。如图:第一页url:https://bj.lianjia.com/zufang/第二页url:https://bj....

2018-08-17 17:01:34 592

原创 网络爬虫笔记(Day4)

爬取今日头条图集 进入今日头条首页:https://www.toutiao.com/      步骤:1、查看网页,查找我们需要的URL,分析URL                 2、获取网页内容,分析内容                 3、定位我们需要的内容                 4、将数据存储 在搜素框 输入要搜索的内容(例如:街拍),然后选择图集,F12...

2018-08-16 22:06:47 266

原创 用TensorFlow训练卷积神经网络——识别验证码

需要用到的包:numpy、tensorflow、captcha、matplotlib、PIL、randomimport numpy as np import tensorflow as tf # 深度学习库from captcha.image import ImageCaptcha # 用来生成验证码import matplotlib.pyplot as plt # 用来将验证...

2018-08-15 22:01:31 3554

原创 网络爬虫笔记(Day3)

首先分析 雪球网 https://xueqiu.com/#/property第一次进去后,第一次Ajax请求得到的是 若下图所示的 max_id=-1, count=10。然后往下拉,第二次Ajax请求,如下图; 发现URL里面就max_id 和count不同,max_id为前一次Ajax的最后一条数据的id,以后的每次请求都是count=15,故我需要对url进行拼接。URL...

2018-08-15 21:05:07 219

原创 网络爬虫笔记(Day2)

爬取个人 人人主页 的代码:首先用最原始的方法进行,可以看出这样写代码,比较麻烦,重复代码很多:from urllib import request, parseurl = 'http://www.renren.com/ajaxLogin/login?1=1&uniqueTimestamp=2018721913553'headers = { 'User-Agent...

2018-08-14 21:32:04 397

原创 Ubuntu安装OpenCV

OpenCV安装:首先去官网下载:https://opencv.org/releases.html   (选择sources版本)将其放入自己的文件夹下,然后执行以下命令解压:zip opencv-3.4.1.zip安装依赖库和cmake ,如果提醒需要apt-get update,那就先sudo su进入root权限,再sudo apt-get update,然后在执行下面命令...

2018-08-13 21:30:39 320

原创 网络爬虫笔记(Day1)

                                                      Day 1爬虫的过程1.首先需要了解业务需求2.根据需求,寻找网站3.将网站数据获取到本地 (可以通过urllib,requests等包)4.定位数据(re  xpath  css  json等)5.存储数据(mysql   redis   文件格式) 最简单...

2018-08-13 19:57:14 248

原创 Cookie 和 Session

            cookie 和 session 的区别cookie:由于http请求是无状态的。它第一次和服务器连接后并且登录成功后,之后再次请求浏览器,浏览器还是不知道当前访问用是谁。因此cookie的出现就是为了解决这个问题,能够把第一次登录后服务器返回一些数据(cookie)给浏览器,然后浏览器保存在本地,当该用户发送第二次请求的时候,浏览器就会自动的把上次请求存储的coo...

2018-08-13 19:20:26 256

原创 GitHub入门之旅

这篇文章是我自己首次使用GitHub创建库,克隆库,操作库以及上传的操作过程记录。1、注册一个GitHub账号:https://github.com/ 注册完成后登陆自己的GitHub账号,点击网页右上角的小加号,用来创建自己的库的按钮,之后的步骤按提示进行创建自己的库即可。2、创建好库之后,要做的就是把库克隆到本地,方便自己电脑上的文件同步到GitHub上你创建的库中。为了实现这一步需要安装Gi...

2018-05-29 16:37:14 304

Python机器学习与大数据实战Spark 2.0+Hadoop林大贵(著)高清带书签

Python机器学习与大数据实战 Spark 2.0+Hadoop 林大贵(著)高清带书签.pdf

2018-10-09

利用Python进行数据分析 (Markdown文件)

第三版 利用Python进行数据分析 Markdown格式,学习时可以添加自己的学习代码上去。

2018-10-09

OpenCV计算机视觉(Python语言)

OpenCV+3计算机视觉+Python语言实现+第二版 貌似是唯一一本 当然也可以去结合Python的OpenCV库资料文档一起学习

2018-10-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除