mengyeweiwu-CSDN博客

此篇博客为普通方式爬取安居客租房数据一共提取出1200条，但是在进行大规模的数据爬取时，不建议使用这种方式,速度太慢是最大的诟病,在进行大规模爬取时，使用分布式爬虫是第一选择爬取过程一、指定爬取数据二、设置请求头防止反爬三、分析页面并且与网页源码进行比对四、分析页面整理数据五、保存到excel表中六、使用jupyternotebook进行简单的数据分析一、指定爬取数据需求:提取价格、面积、详细标题、名称、具体位置、房屋结构、装修情况二、设置请求头这里设置请求头依然使用最常见的.

2020-12-15 23:54:38 6890 4

原创 ELK学习（七） python操作 es基本操作

1.下载安装elasticsearch模块pip install elasticsearch2.python连接elasticsearchfrom elasticsearch import Elasticsearches = Elasticsearch(["192.168.229.140:9200"])#连接自己的localhost3.创建一篇文档\查询文档\删除文档#创建一篇文档es.index(index='p2',id=2,body={"name":"zhang"})#查询文档p

2020-12-12 12:36:43 708

原创 ELK学习(六、)

1.es的copy_to参数2.嵌套类型的创建3.es分片的设置4.match其它参数的应用5.ik分词器安装以及介绍1.copy_to参数copy_to字段是将一个字段的值传递给另一个字段创建copy_to类型(在设置字段类型(mapping)时，传入这一参数)PUT s7{ "mappings": { "properties": { "t1":{ "type": "text", "copy_to": "t3" },.

2020-12-10 23:23:32 227

原创 ELK学习(五、)

1.聚合操作2.高亮查询和过滤操作3.mapping之.dynamic4. es的mapping之ignore_abovePUT s5{“mappings”: {“dynamic”:“strict”,“properties”: {“name”:{“type”: “text”}}}}# 一、聚合操作聚合操作用到了 agg关键字可以先用match关键字确定一个大范围列如搜索男性的平均年龄,可以先设置match为gender；male在使用aggs进行关键词的聚合查询1.列如.

2020-12-05 09:53:01 212

原创 elasticsearch学习 (四)

目录1.elasticsearch基本增删改查2.两种查询方法3.match和match_all函数4.sort排序5.分页6.bool索引一、基本增删改查1.增加文档并填写数据put 索引/_doc/id2.查看文档数据get/索引/_doc/_search （查看所有文档数据）3.修改文档post 索引/_doc/id/_update { “doc”:{“要修改的字段”:”修改的数据”} }列如修改第一个文档中的性别为famale4.删除文档.

2020-12-03 00:05:03 160

原创 ELK学习二、(elasticsearch基本概念)

1.基本概念Node :单个节点运行单个ES实例的服务器Cluster :一个或多个节点构成集群Index:索引是多个文档的集合Document:Index里的每条记录称为Documet 若干个文档构成一个IndexType:一个index可以定义一种或者多种类型，将Document逻辑分组(7之后不在有这一概念每一个index默认分一个doc-_doc)Field 存储的最小单元Shards:将INDEX分为若干份，每一份就是一个分片Replicas:Index的一个或多个副本二、与关

2020-11-28 09:17:36 78

原创 ELK学习一（基本概念）

一、 ELK 介绍ELK分别是 Elastisearch logstash kibana的简写1.logstash 是开源的数据处理管道能够从多个来源采集数据,转换数据然后存储在数据库中2.elasticsearch 搜索、分析和存储数据、是一个分布式数据库3.kibana 数据可视化4.Beats 轻量型采集器平台5.filebeat轻量型日志采集器大致流程如下ELK Stack框架如下input 输入数据filter 过滤将日志格式化,有丰富的过滤插件output 输出.

2020-11-28 09:07:01 117

原创 ELK学习三、centos7安装elasticsearch以及集群配置和简单命令的使用

上一章介绍了ELK的基本概念,这一篇主要介绍在centos7中配置elasticsearch以及集群的配置第一步环境准备1.虚拟机和主机产生联系，在windows上使用secure crt操作虚拟机2.清空防火墙,并且使用防火墙规则使各台虚拟机可以互相访问设置防火墙规则的命令为iptables -I INPUT -s 192.168.229.0 -j ACCEPT表示各台虚拟机在此网段下可以互相访问3.关闭SELINUXSELINUX是一个加强安全性的组件,如果不关闭肯能会导.

2020-11-26 00:09:59 211

原创 Mysql高级操作

大二学生党一枚只是热爱此篇博客主要讲述mysql高级操作新增数据、更新数据、删除数据、查询数据。目录一、新增数据二、更新数据三、删除数据四、查询数据一、新增数据1.插入多条数据命令格式 insert into 表名 values (),(),()2.主键冲突当向表中插入数据时,无法判断是否向主键中会插入相同的数据因此mysql系统给出两种办法解决（2.1）insert方法命令格式:insert into 表名 values on duplicated key upda.

2020-11-17 23:59:15 96

原创 python爬虫selenium登陆-破解验证码

验证码目前最常见的有两种一种是图片验证码另一种是滑块验证码本篇博客主要用来破解图片验证码博主是大数据专业大二学生,如果有纰漏望各位大佬指正本篇文章使用打码平台(超级鹰)对登陆验证码进行破解，目的-使用自动化selenium框架输入用户名密码验证码之后点击登陆。一、思路1、首先使用selenium框架打开登陆界面,截取页面屏幕并保存2、将保存的图片通过选取像素左上右下的方式截取到验证码的照片并保存。3、通过超级鹰破解源码对验证码图片进行破解并提取出图片中的数字或者字母.

2020-11-11 20:14:01 1211

原创 2020-11-06 MYSQL列类型

mysql学习-列类型整型小数型时间类型字符串类型mysql记录长度一、整型分为五种形式1 tinyint -迷你整型系统使用一个字节保存一个字节有16位最大数值为2552 smallint -小整型系统使用两个字节保存数值范围为0-655353 medium int 中整形系统使用三个字节保存4 int 标准整形5 big int 系统使用八个字节保存(一、)设置无标志符号在整型中列如 tinyint表示有255个长度数值范围是为 -127-128插入12

2020-11-06 16:19:46 87

原创爬虫笔记(三)常见几种解析工具

一、正则表达式目录1.1正则表达式简介和match函数1.2预定义字符集1.3元字符1.4重复匹配1.5贪婪匹配和非贪婪匹配1.6re模块介绍1.7模块分组1.8爬取百度图片实例二、xpath使用2.1xpath简介2.2xpath语法说明2.3模块的使用三、Beautifulsoup目录3.1 bs4对象3.2 bs4的使用3.3 遍历子节点3.4 遍历父节点3.5搜索树1.1正则表达式简介和match函数首先使用pip install re 下载r

2020-08-06 12:07:00 694 2

原创 bs4爬取中国天气网(城市和天气)

import requestsfrom bs4 import BeautifulSoupdef getsorce(url): # proxy = {'http':'175.42.123.28: 9999'} headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.40

2020-08-06 12:05:36 406

原创 (三-1)xpath访问豆瓣实例

import requestsfrom lxml import etreeimport csvurl = "https://movie.douban.com/top250?start={}&filter="def getcode(url): headers = { 'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.

2020-08-06 10:57:42 118

原创爬虫2-requests

爬虫2-requests库目录1.requests基本介绍2.读取网页源代码的三种方式3.request设置代理ip4.requests处理不信任的ssl证书5.cookie值介绍6.json数据类型1.requests基本介绍requests是一种请求网页源代码的方式，常见的用法有两种requests.get()和requests.post()格式如下requests.get(url,params,headers)params表示的是连接url的字符可以是字符串也可以是字典2

2020-07-21 08:55:47 120

原创 urllib库基础入门

简介目前获取请求的爬取工具-requests模块绝对是独占鳌头，但是urllib库作为python的内置模块，实力也不容小觑，在爬虫项目中，urllib还是时常会被用到，因此许多爬虫课也将urllib作为入门学习的前期课程。目录一、urllib库常见内置函数及其使用1.urllib.request.urlretrieve2.urllib.request.urlopen3.urllib.request.Request4.urllib.parse.urlencode5.urllib.pars

2020-07-16 18:06:04 343

原创使用urllib爬取百度贴吧

博主是新手，只是做个笔记，不好勿喷爬取目标手动输入主题，并爬取目标主题内容的前三页爬取之后保存在html文件当中爬取思路第一步创建一个类，类中定义三个函数，分别为主函数、爬取函数和保存函数。第二步找到相应的请求头以及url，为防止将url写死，观察url组成部分，为最终进行相应的拼接做准备。第三步手动设置输入主题以及想获取的页数。爬取函数主要运用urllib中的request和parse模块保存函数中主要运用open方法保存文件详见代码import urllib.request

2020-07-15 17:24:22 2025 1

原创我的第一个博客

访问网站步骤第一步客户端向浏览器中输入url后按回车，客户端向服务器发送一个 http请求，请求包括get和post请求。第二步输入url后浏览器向服务器发送一个request请求，之后服务器向浏览器反馈回一个response结果第三步浏览器解析返回的response结果即HTNL，发现其中有许多类型文件列如 js、css等等。第四位所有文件下载完成后，利用HTML语法将其完整的表现出来代码： http请求是用来提交申请并获取资源爬虫基本知识1.爬虫简介2.爬虫出现的作用以及意义3爬

2020-07-14 10:27:10 80

mengyeweiwu的博客

原创 django初始学习day01——html语言基础

原创 python爬虫爬取安居客并进行简单数据分析