自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(52)
  • 收藏
  • 关注

原创 爬取某不知名短视频小平台

【代码】爬取某不知名短视频小平台。

2024-04-13 11:01:13 75 1

原创 selenium JD爬虫

selenium JD爬虫

2022-07-13 16:58:15 173 1

原创 爬虫效率提升方法

协程:在函数(特殊函数)定义的时候,使用async修饰,函数调用后,内部语句不会立即执行,而是会返回一个协程对象任务对象:任务对象=高级的协程对象(进一步封装)=特殊的函数,任务对象必须要注册到时间循环对象中,给任务对象绑定回调:爬虫的数据解析中事件循环:当做是一个装载任务对象的容器,当启动事件循环对象的时候,存储在内的任务对象会异步执行先起个flask服务from flask import Flaskimport timeapp = Flask(__name__)@app.route('

2022-04-21 15:25:39 787

原创 无聊之重学c/c++

#include <iostream>#include <iomanip>#include<stdio.h>#include<string>#include <fstream>using namespace std;int main(){ double r, s, l; cin >> r; s = 3.14 * r * r; l = 2 * 3.14 * r; cout &l.

2022-02-18 10:43:02 411

原创 基于pygame库编写的五子棋游戏

基于pygame五子棋游戏

2022-01-10 17:19:06 214

原创 查找排序算法

#无序表查找def sequentialSearch(alist , item): pos = 0 found =False while pos < len(alist) and not found : if alist[pos] == item: found = True else: pos = pos+1 return found#有序表查找def orderSequentia

2021-12-25 14:23:01 238

原创 算法硬币找零问题

win10+python3.8问题:自定义硬币体系,最少找零数#找零递归def recMC(coinValueList,change): minCoins = change if change in coinValueList: return 1 else: for i in [c for c in coinValueList if c <= change] : numCoins = 1 + recMC(coinVa

2021-12-11 19:41:51 613

原创 几行代码教你爬取LOL皮肤图片

环境win10+ython3.8import requestsimport reimport jsonbase_url = 'https://game.gtimg.cn/images/lol/act/img/skin/big'url = 'https://lol.qq.com/biz/hero/champion.js'respon = requests.get(url=url).textdata = re.search(r'"ID":(.*?),"NAME":',respon).group(

2021-12-04 13:03:58 310

原创 队列解决约瑟夫问题

队列 Queue 数据的添加发生在尾端,数据的移除发生在首端仅有一个出口一个入口First-in First-out, FIFO实例,操作系统进程调度,I/O缓冲class Queue: def __init__(self): self.items = [] def idEmpty(self): return self.items == [] def enqueue(self,item): self.items.insert(0

2021-11-28 21:38:29 276

原创 基于QQwebAPI 查询昵称和头像的爬虫

API详解见QQWEB文档。环境python3.8+winimport requestsimport refrom PIL import Imagefrom io import BytesIOdef getQQPhoto(qqCode): url ="https://q4.qlogo.cn/g?b=qq&nk={}&s=100".format(qqCode) headers = { 'Referer': 'http://pic.netbian.c

2021-11-28 17:37:20 786

原创 解决python +Selenium无法获取window.showModalDialog()弹窗对象问题

节假日买个车票是真艹蛋,构思着写个脚本抢票。遇到Selenium无法获取window.showModalDialog()弹窗对象问题。听起来比较可信的说法是:Selenium目前没有提供对IE模态对话框(即通过showModalDialog方法打开的弹出对话框)的处理。原因在于,模态对话框会将父页面的JS挂起,直至对话框处理完毕才会继续执行父页面JS。因为Selenium的底层实现是基于JS的,所以模态对话框会同时将selenium挂起,selenium无法选中模态对话框,直至超时。解决:selen

2021-09-13 21:21:14 1375

原创 selenium+webdriver+chrome实现百度以图搜图

1. 环境搭建1).webdriver+chrome的版本需匹配。2).打开chrome 输入 “chrome://version/”来查看chrome版本访问此网站 谷歌浏览器驱动 然后选择合适版本webdriver2.收集原始图片和构建图床1).将图片做成可以被百度访问的url(第一次搭建在公司服务器上网页能访问但以图搜图访问不到,此处黑人问号,不知为啥。。。)推荐上传到github上,将github作为一个临时的图床使用。参考链接3.完整代码和参数说明1).请求头spider_seti

2021-03-04 12:16:38 710 1

原创 爬取彩票数据

import requestsimport jsonimport csvfrom user_agents import UAdef post_request(url,data): HEADER = { 'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate, br', 'Accept-Language': 'zh-CN,zh;q=0.9', 'Connection': 'keep

2020-08-23 11:34:24 1269

转载 词频统计

# 导入扩展库import re # 正则表达式库import collections # 词频统计库import numpy as np # numpy数据处理库import jieba # 结巴分词import wordcloud # 词云展示库from PIL import Image # 图像处理库import matplotlib.pyplot as plt # 图像展示库# 读取文件fn = open('article.txt') # 打开文件string_data = f

2020-08-17 10:30:53 138

原创 pyppeteer爬虫

import asyncioimport pyppeteerfrom user_agents import UAfrom collections import namedtupleResponse = namedtuple("rs", "title url html cookies headers history status")async def get_html(url, timeout=30): browser = await pyppeteer.launch(headless=Tr

2020-08-14 09:53:48 256

原创 爬西瓜视频url

本文旨在交流学习,勿作他用,否则后果自负环境 linux+pycharm+anacondaimport reimport requestsimport randomfrom zlib import crc32from base64 import b64decodeUSER_AGENTS = [ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CL

2020-06-13 20:07:14 661

原创 爬取手游网站游戏详情和评论(MQ+多线程)

本文旨在交流学习,勿作他用,否则后果自负环境 linux+pycharm+anacondaimport reimport requestsimport randomimport jsonimport threadingfrom queue import Queueimport timefrom lxml import etree#生产者USER_AGENTS = [ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1

2020-06-13 11:22:15 311

原创 多线程爬取马可波罗网供应商数据

本文旨在交流学习,勿作他用,否则后果自负环境 linux+pycharm+anacondaimport jsonimport csvimport randomfrom queue import Queueimport threadingimport requestsfrom usere_agent import UAfrom lxml import etreeHEADER = { 'User-Agent': UA, 'Accept': 'text/html,appl

2020-05-25 19:45:44 208

原创 爬取小米有品app商品数据

本文旨在交流学习,勿作他用,否则后果自负环境 linux+pycharm+anacondaimport csvimport requestsfrom lxml import etreeimport reimport randomimport jsonfrom usere_agent import UAfrom requests.packages.urllib3.exceptions import InsecureRequestWarningrequests.packages.urllib

2020-05-24 19:18:18 954

原创 爬取汽车之家北京地区汽车详细数据

本文旨在交流学习,勿作他用,否则后果自负环境 win+pycharm+anacondaimport reimport csvimport requestsfrom lxml import etreefrom user_agent import UAhead = { 'User-Agent': UA, 'X-Requested-With': 'XMLHttpRequest', 'Referer': '*/*', 'Accept-Language': 'zh-CN,

2020-05-22 18:22:49 304

原创 爬取蝉妈妈数据平台商品数据

本文旨在交流学习,勿作他用,否则后果自负环境 linux+pycharm+anacondaimport jsonimport csvimport requestsfrom usere_agent import UAfrom requests.packages.urllib3.exceptions import InsecureRequestWarningrequests.packages.urllib3.disable_warnings(InsecureRequestWarning)he

2020-05-21 22:07:22 6211 1

原创 python实现5种加密

import hashlibimport base64import hmac#MD5def md_5(): m = hashlib.md5() #生成一个md5加密对象 str = "明文" m.update(str.encode("utf8")) #指定要加密的字符串的字符编码 print(m.hexdigest())md_5()#base64def base_64(): str = "明文".encode(enc

2020-05-20 10:01:15 417

原创 多线程爬取斗图啦网表情包

本文旨在交流学习,勿作他用,否则后果自负环境 linux+pycharm+anacondaimport queueimport requestsimport threadingfrom lxml import etreefrom user_agent import UAclass Spider_img(threading.Thread): def __init__(self,url_queue): super(Spider_img, self).__init__()

2020-05-19 15:40:22 276

原创 爬取开眼app小视频

本文旨在交流学习,勿作他用,否则后果自负环境 linux+pycharm+anacondaimport jsonimport csvimport randomimport threadingimport requestsfrom queue import Queuefrom lxml import etreefrom requests import exceptionsUSER_AGENTS = [ "Mozilla/4.0 (compatible; MSIE 6.0; Wi

2020-05-18 19:58:43 535

原创 大批量按关键词爬取搜狗图片

本文旨在交流学习,勿作他用,否则后果自负import requestsimport jsonimport csvimport randomimport urllibimport osUSER_AGENTS = [ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)", "Mozilla/4.0 (compatibl

2020-05-17 17:38:25 387

原创 爬取百度地图店家信息

本文旨在交流学习,勿作他用,否则后果自负import jsonimport csvimport randomimport requestsimport pandas as pdUSER_AGENTS = [ "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1", "Mozilla/5.0 (Windows; U; Windows NT 5.1; z

2020-05-17 17:32:22 2042 2

原创 多线程爬取包图网背景音乐

本文旨在交流学习,勿作他用,否则后果自负import csvimport threadingimport randomimport requestsfrom lxml import etreefrom queue import Queuefrom requests import exceptionsfrom socket import error as SocketErrorUSER_AGENTS = [ "Mozilla/4.0 (compatible; MSIE 6.0; W

2020-05-16 20:13:55 379

原创 大批量按关键词爬取百度图片

本文旨在交流学习,勿作他用,否则后果自负import csvimport requestsimport jsonimport randomUSER_AGENTS = [ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)", "Mozilla/4.0 (compatible; MSIE 7.0; Windows N

2020-05-16 20:04:35 281 1

原创 爬豆瓣图书排行top250

本文旨在交流学习,勿作他用,否则后果自负from lxml import etreeimport requestsfrom user_agent import UAHEADER = { 'User-Agent':UA, 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 'Accept-Language': 'en-US,en;q=0.5', 'Connection

2020-05-15 17:13:56 228

原创 一个鸡肋的官方微信公众号爬取接口小demo

本文旨在交流学习,文章勿作他用,否则后果自负import wechatsogouws_api = wechatsogou.WechatSogouAPI(captcha_break_time=3,timeout=30)gzh_name = '数据挖掘工程师'data = ws_api.get_gzh_article_by_history(gzh_name)print(data)

2020-05-15 14:27:49 471

转载 爬取b站用户信息

本文纯属学习交流,请勿做它用,违者后果自负import requestsimport jsonimport randomimport datetimeimport timefrom user_agent import UAfrom multiprocessing.dummy import Pool as ThreadPooldef datetime_to_timestamp_in_milliseconds(d): def current_milli_time(): r

2020-05-15 13:43:45 1300

原创 爬取西窗烛app

本文旨在学习,不可做商业用途import csvimport jsonimport requestsimport randomUSER_AGENTS = [ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)", "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; A

2020-05-14 13:59:25 599 6

原创 爬取pexels网图片

内容只为学习,不得用于商业用途import jsonimport csvimport randomimport threadingimport requestsfrom queue import Queuefrom lxml import etreefrom requests import exceptionsUSER_AGENTS = [ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser;

2020-05-14 13:49:24 814

原创 淘宝爬取

代码只为学习使用,误做商业用途import reimport randomimport requestsfrom ip_代理 import proxyUSER_AGENTS = [ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)", "Mozilla/4.0 (compatible; MSIE 7.0; Windo

2020-05-13 15:36:08 810

原创 求助,像滴滴,携程这些程序中的地图定位怎么实现的

2020-05-07 00:33:11 399

原创 python数据分析-柱状图绘制及常用参数设置

linux+pycharm+anaconda#柱形图绘制与参数设置#plt.bar(x,height,width,bottom,align,color,edgecolor)"""X 表示在什么位置显示柱形图height 表示每根柱子的高度width 表示每根柱子的宽度,每根柱子的宽度可以都一样,也可以各不相同bottom 表示每根柱子的底部位置,每根柱子的底部位置可以都一样,也可以各...

2020-03-09 19:18:58 4940

原创 python数据分析-折线绘制和常用参数设置

linux+pycharm+anaconda折线绘制和常用参数设置详解import matplotlib.pyplot as pltimport numpy as np#建立一个坐标系#plt.subplot(2,2,1)plt.subplot(1,1,1)#指明x和y值x = np.array([1, 2, 3,4, 5,6,7,8,9])y = np.array([ 866,...

2020-03-07 19:25:02 417

原创 python数据分析-成图

linux+pycharm+anaconda#数据可视化import matplotlib.pyplot as plt#创建画布fig=plt.figure(figsize=(8,6))#创建坐标系axl=fig.add_subplot(1,1,1) #显示plt.show()#同时创建多个坐标系import matplotlib.pyplot as pltfig=plt....

2020-03-05 19:22:08 228

原创 python爬虫-妹子图片

linux+pycharm+anacondafrom selenium import webdriverfrom lxml import etreeimport requestsimport timeoptions = webdriver.ChromeOptions()options.set_headless()driver = webdriver.Chrome(options=op...

2020-03-04 16:15:04 279

原创 python数据分析基础-表拼接

linux+pycharm+anaconda#多表拼接,merge默认用两列公共列为链接键,on来指定链接键,可为多列import pandas as pdimport numpy as np data1=pd.DataFrame([[20,99999,6,"c"],[30,999999,6,"c++"],[20,999994,8,"UI"],[27,999999,6,"c++"],[3...

2020-03-02 18:46:05 289

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除