自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 基于 Holt-Winters季节性预测模型 的时间序列预测

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom statsmodels.tsa.api import ExponentialSmoothingdata = pd.read_excel('时间序列预测数据集.xlsx')# data.columns=[时间,投递人数,投递次数,工程师投递人数,工程师投递次数,招聘发布公司量,发布职位量,工程师岗位发布公司,工程师岗位发布量]for i in dat

2021-02-02 14:12:22 1281

原创 【爬虫】大街网爬虫

import requests,csv,timedef save_data(row): f=open('大街网职位爬虫.csv','a',encoding='GBK',newline='',errors='ignore') csv_writer = csv.writer(f) csv_writer.writerow(row) f.close()def ParserResponse(response): #解析函数 for i in range(30):

2020-08-24 14:37:08 126

原创 赣州房管局成交爬虫

import requests,csv,timefrom lxml import etreeheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36','Host': 'www.gzfdcyw.com','Cookie': 'PHPSESSID=3oma2c8os1415s

2020-07-09 08:58:59 270

原创 【爬虫练手】在被封禁IP地址的情况下,使用IP代理

在写爬虫程序的过程中,如果爬取的速度过快,经常会遇到IP封禁的问题。那么为了解决这个问题,办法之一就是使用IP代理。import requestsheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'}url = 'http://httpbin.org/ip'proxi

2020-07-05 17:31:45 572

原创 东莞市所有门店经纬度_地址转经纬度

import pandas as pdimport requests,time,csvfrom urllib.request import quote#定义一个存储函数def save_data(row): f=open('门店经纬度.csv','a',encoding='GBK',newline='') csv_writer = csv.writer(f) csv_writer.writerow(row) f.close() csv_data = pd.

2020-06-18 15:06:25 911

原创 【爬虫练手】东莞当天二手成交信息爬虫

import requestsfrom bs4 import BeautifulSoupimport datetimeimport csvimport timeheaders = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36'}引用该引用的库def save_date(

2020-06-16 17:35:39 147 1

原创 【爬虫练手】糗事百科

from lxml import etreeimport requestsheaders={ 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'}def requests_...

2020-05-08 09:37:48 189

原创 Scrapy框架从入门到入土

Scrapy 框架简介再写爬虫的过程中经常需要多个模块的协同,如:发送网络请求、数据解析、数据存储、反反爬虫手段(更换ip代理、设置请求头等)、异步爬取等。如果这些模块每次都要自己从头开始写的话,比较浪费时间。因此Scrapy把前置的代码封装好了,使用它进行爬虫的开发可以变的更加的高效(爬取效率和开发效率)。真正在公司里,一些上了量的爬虫,都是使用Scrapy框架来解决。Scrapy框...

2020-05-07 15:44:54 183

原创 【爬虫练手】表情包爬虫

import requests,os,refrom lxml import etreefrom urllib import requestdef parse_page(url): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML...

2020-04-23 23:55:59 137

原创 更改jupyter的默认路径

在win开始菜单中找到jupyter notebook快捷图标,鼠标右键>>属性>>快捷方式>>目标删除最后的 “%USERPROFILE%/” ,更换成想变换的默认路径。

2020-04-08 11:51:29 98

原创 【SQL实例】写一段业绩的SQL,HIVE端

SELECT agent.corp_name AS `品牌名称`, agent.shop_name AS `门店名称`, agent.agent_code AS `经纪人系统号`, agent.agent_name AS `经纪人姓名`,nvl( perfnum.perf_num,0) AS `二手单量` , nvl(perf.performance,0) AS `二手业绩`, nvl(perf...

2020-04-01 17:10:09 174

原创 【高效办公】python一键去除背景。remove-backups

一串代码完美去除背景。主要是在 https://www.remove.bg/zh 这个网址上进行处理。可以直接上传图片,也可以利用API一键抠图。from removebg import RemoveBgrmbg=RemoveBg("KR9jY9rfTsd3a5hSfc5U2uqd","error.log")# 引号内是你获取的APIrmbg.remove_background_...

2020-03-19 18:13:13 1094

原创 【高效办公】文件夹中的所有excel合并,os和pandas模块

源码概览import osimport pandas as pdframes=[] #新建一个空白列表def contant_excel(path): for root,dirs,files in os.walk(path): #os.walk是一个非常强大的使用 for file in files: df = pd.read_exc...

2020-03-19 11:23:46 224

原创 【爬虫练手】爬中国天气网

import requestsfrom bs4 import BeautifulSoupdef parser_page(url): headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0....

2020-03-15 20:55:58 109

原创 【爬虫练手】下厨房

import requestsfrom bs4 import BeautifulSoupfrom openpyxl import Workbookwb = Workbook()ws = wb.activelist_g = ['菜名','食材','步骤','详细步骤']ws.append(list_g)headers= { 'User-Agent': 'Mozilla/5....

2020-03-08 18:41:02 120

原创 【高效办公】OS模块对文件夹所有文件重命名

import osdef Rename(path): file_name = os.listdir(path) # print(file_name) p_0=len(file_name) p=0 for name in file_name: old_path = path+'\\'+name new_path = pat...

2020-03-03 14:30:38 854

原创 【高效办公】pandas库学习,对excel的简单操作

panda函数对excel的简单操作任务需求:把一个文件夹所有的csv文件打开,对某一列进行运算import pandas as pdimport osdir = ''D:\工作\业务策略板块\项目\线上学时\' #设定路径filenames=os.listdir(dir) #获取文件名p=0for study_online in filenames: #设置循环 date...

2020-03-03 09:24:01 145

原创 爬虫琐碎知识【Cookie、requests、编码方式问题】

1.在cookie登陆的过程中,有两种方法,第一种是直接从chrome中获取request-headers,第二种是导入 cookieJar进行登陆,创建一个handle,用handle去创建一个opener进行操作。...

2020-02-27 16:53:21 196

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除