自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(57)
  • 资源 (2)
  • 问答 (1)
  • 收藏
  • 关注

原创 sql----连续性问题终极万能模板(2021-07-08)

CODE君这几天遇到个烦人的问题,连续性问题!!在这里看到别人的帖子备受触动,写一篇文章分享给大家,一定要收藏好,面试必备,个人能力的体现~~~~~~~~有一张“用户登陆记录表”,包含两个字段:用户id、日期。【问题】查询2021年每个月,每个用户连续登陆的最多天数。【解题步骤】连续问题的万能模板在《拼多多面试题:如何找出连续出现N次的内容?》里讲过遇到“连续问题”如何解决,并送出了一个万能模板,模板使用的是窗口函数解决连续问题。1 select distinct 列12 from (

2021-07-08 11:29:58 800 3

原创 pycharm操作git文档

pycharm操作git一、git安装和使用​ 安装操作:https://www.cnblogs.com/ximiaomiao/p/7140456.html1.如何使用git将本地代码上传到远程仓库初始化git init 查看当前仓库状态git status将项目的文件添加到仓库中git add <文件名>git add . (上传所有文件)将add的文件commit到仓库git commit -m "备注"将本地仓库关联到远程仓库gi

2021-03-03 14:27:57 438 2

原创 python + Appium自动化操作微信,学废了吗?

前几天想搞一个手机端的爬虫,在网上搜索了一番发现python+appium是可以实现的!其中发现了一篇博主写的文章很靠谱,总结的很到位。记录一下【文章链接】:https://mp.weixin.qq.com/s?__biz=MzU3Mzk1ODA5OQ%3D%3D&chksm=fd3b1c8bca4c959d4a4230bdf4a909905b0516ba64a56d5c2ff2072bbd3760fef2b1893956f0&idx=1&mid=2247495223&sc

2020-12-24 15:46:43 406

原创 一起来看代码雨 -- centos7安装cmatrix

想必大家都见过电影中出现的激光雨或者代码雨,今天我们就来搞一搞一、下载源码https://zh.osdn.net/projects/sfnet_cmatrix/downloads/cmatrix/1.2a/cmatrix-1.2a.tar.gz/二、开始安装首先需要安装编译的gcc yum install -y gcc解压安装包tar -zxvf cmatrix-1.2a.tar.gz配置需要的thingscd cmatrix-1.2a./configure --pre

2020-12-04 16:44:29 1620

原创 Python执行sql文件

使用Python执行sql文件# coding: utf-8import pymysqltry: db = pymysql.connect("服务器地址", "用户名", "密码", "数据库名称") c = db.cursor() with open('test.sql',mode='r') as f: # 读取整个sql文件,以分号切割。[:-1]删除最后一个元素,也就是空字符串 sql_list = f.read().split(';')

2020-11-30 13:47:25 3958 2

原创 真不会SQL问题--如何创建当前日期之后的连续10000天的日期

一、首先我们需要一张辅助表,其中是0到9的数字CREATE TABLE num (i int);-- 创建一个表用来储存0-9的数字 INSERT INTO num (i) VALUES (0), (1), (2), (3), (4), (5), (6), (7), (8), (9);-- 生成0-9的数字,方便以后计算时间 二、生成一个0到10000的连续数字 -- 这边利用笛卡尔积计算出 0 - 100000 依次各个数据 SELECT

2020-11-24 18:10:37 214

原创 python + ffmpeg爬取视频,转化为mp4格式

项目需求网址链接:https://taobaolive.taobao.com/room/index.htm?spm=a1z9u.8142865.0.0.434f34edQAItBB&feedId=654b215c-7f98-4642-a16a-24d8ef23894b需要将其中的这个视频下载下来,转换为mp4格式解决方案其实看起来挺简单的,我们就是进去找他的视频接口就行了,然后下载就行了。结果F12进去控制台后发现他没有视频连接,有的返回的是一些ts文件【疑问】于是我就拉到视

2020-10-20 16:53:31 2078

原创 史上最全面 centos7安装 apache-airflow(2020-09-30)

环境需要VMware虚拟机(博主使用的是15.0)centos镜像 链接:http://mirrors.aliyun.com/centos/7/isos/x86_64/ centos7安装Python3 链接:https://blog.csdn.net/qq_42166308/article/details/108883092centos7安装mysql8.0 链接:https://blog.csdn.net/qq_42166308/article/details/108849

2020-09-30 16:20:04 632 2

原创 centos7 上成功安装Python3.7,无BUG

centos7安装python3.7相信大家之前安装都会有很多的bug出现,下面根据我的‘慢摇节奏’,你可以一马平川的安装成功!1.安装Python编译的工具(一定要装)yum -y groupinstall "Development tools"yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libp

2020-09-30 12:00:09 207

原创 centos7安装mysql8.0,所有错误都解决,测试成功

环境系统版本:centos7数据库版本:MySQL8.0链接工具:Finalshell或者xshell总结一些常用命令:1.查看内核版本命令cat /proc/version uname -a uname -r2.查看内存情况cat /proc/cpuinfo 查看linux系统的CPU型号、类型以及大小cat /proc/meminfo 查看linux系统内存大小的详细信息,可以查看总内存,剩余内存、可使用内存等信息df -h 查看linux系统各分区的使用情况

2020-09-28 16:07:12 2249 2

原创 茅塞顿开-pandas也可以爬虫!!

一、思维定式之前我们一说爬虫就会想到的是requests第三方库seleniumscrapybeautifulsoupurllib urllib3等等很多的Python第三方库,当然了java也可以用来爬虫,但是效率比较慢。毕竟Python内置了很多的爬虫三方库,直接调用就可以。二、pandas使用说道数据分析,我们最重要也是最费时间的工作其实就是数据的清洗(ETL)工作,数据的干净与否会直接影响你后续的分析、建模、得出决策等方面。所以在我认识的pandas基本是用来做数据的处理。现在

2020-09-23 14:35:32 529

原创 如何将Python程序打包为exe文件

文章撰写原因我们开发的脚本一般都会用到一些第三方包,可能别人也需要用到我们的脚本,如果我们将我们的xx.py文件发给他,他是不能直接用的,他还需要安装python解释器,甚至还要安装我们用的那些第三方包,是不是有点小麻烦?但是我们都知道,PC是可以直接运行exe文件的,这就为我们提供了一个便捷的方式。所以,从看了这个教程以后,这都将成为过去式,打成exe之后,分享即可用。【注意】如果打包为exe的话,版本尽量选择python3.6+32位版本,因为win64位系统向下兼容32位程序,但是如果不考虑32位

2020-09-07 14:57:05 813

原创 成功解决生意参谋中transit-id和加密数据date

数据来源transit-id来源:加密数据:看了很多网上的文章都是这样子:selenium模拟登陆生意参谋获取cookie生成transit-id加入到header根据抓取板块发送不同的数据请求获取data进行解密还有的解释是这样的【Transit-Id是经过RSA加密生成的;data是经过AES加密生成的。知道加密需要的参数即可。】这些思路都是没有问题的,但是看完后没有头绪,终于通过一天的时间自己搞定了,其实很简单。Python是有相关的这些解密加密的第三方库的,直接调用就好!

2020-09-04 17:51:06 1329 2

原创 Python针对Excel处理(卸载干净),以及报错‘CLSIDToClassMap‘的解决办法

首先先说一个棘手的问题【Excel卸载】相信大家都做过重装系统呀、重装office或者office认证码过期去找方法破解。那我今天给大家分享一个一个很好并且卸载很干净的东西,链接先附着,接招吧!【https://answers.microsoft.com/zh-hans/msoffice/forum/all/%C8%E7%BA%CE%CD%EA%C8%AB%B5%C4/79d4b420-e377-4ac2-b36b-1eea35244a47】这里面存在了两种方式去卸载,手动和自动!博主选择的使用自动的卸

2020-09-03 14:25:58 693

原创 简单问题最‘要命’之MySQL生成连续的数字或者日期(2020-09-02)

问题来源今天和同事一起讨论MySQL的相关语句以及性能问题,突然被问到如何使用MySQL语句输出0-5的连续数字。回答:这太简单了,直接上代码:SELECT 1 UNION SELECT 2 UNION SELECT 3 UNION SELECT 4 UNION SELECT 5然后同事又问那要是生成0-24 或者0-1000的数据呢?回答就是:鹅鹅鹅鹅鹅鹅饿…程序员的任务就是活到老,学到老!!经过百度还有其他途径终于得到了一定的解决方案,还是乖乖写下笔记【心里想。。被这个难住了】首先我们

2020-09-02 16:38:56 644

原创 众人期盼的阿里妈妈自动登录来了!(2020-09-01)

基于上一篇博客分享了如何破解淘宝修改机制后的滑块后,收到很多朋友反馈出现在1688登录时候滑块还是无法解决,博主私底下自己尝试了一下,得到了解决的办法,在这里跟大家分享一下。【注意】:一定要先看一下博主之前的这篇博客!!!文章链接:https://blog.csdn.net/qq_42166308/article/details/107785544重点按照上篇博客修改驱动后,就不会出现滑块,但是1688会出现,并且人为的去滑动也是不行的!所以这就是困惑大家的问题。那么博主刚开始也是被这一块给挡住

2020-09-01 16:32:50 1032

原创 Insert into select所引发的凄惨‘事故’

故事起因Insert into select请慎用。这天xxx接到一个需求,需要将表A的数据迁移到表B中去做一个备份。本想通过程序先查询查出来然后批量插入。但xxx觉得这样有点慢,需要耗费大量的网络I/O,决定采取别的方法进行实现。通过在Baidu的海洋里遨游,她发现了可以使用insert into select实现,这样就可以避免使用网络I/O,直接使用SQL依靠数据库I/O完成,这样简直不要太棒了。然后她就被开除了。故事经过由于数据数据库中order_today数据量过大,当时好像有700W

2020-09-01 11:31:22 296

原创 drop、truncate和delete的区别(个人理解--如何快速删除40亿条数据)

(1)DELETE语句执行删除的过程是每次从表中删除一行,并且同时将该行的删除操作作为事务记录在日志中保存以便进行进行回滚操作。TRUNCATE TABLE 则一次性地从表中删除所有的数据并不把单独的删除操作记录记入日志保存,删除行是不能恢复的。并且在删除的过程中不会激活与表有关的删除触发器。执行速度快。(2)表和索引所占空间。当表被TRUNCATE 后,这个表和索引所占用的空间会恢复到初始大小,DELETE操作不会减少表或索引所占用的空间。drop语句将表所占用的空间全释放掉。(3)一般而言,

2020-08-26 16:04:00 1422

原创 有效解决图片滑块验证码(极验)--最新解决方案

一、图片滑块验证问题这里我以头条的登录界面举例子,其他的类似这种都是大同小异。修改关键代码就可以了入口连接:https://ad.oceanengine.com/pages/login/index.html二、解决思路 1.分析页面拿到背景图 2.计算滑块所需要的距离,即缺口位置 3.计算滑动轨迹 4.进行滑动分析页面取出背景图核心代码:# 获取全背景图,进行裁剪保存img = browser.find_element_by_xpath('//*[@id="

2020-08-18 13:33:17 13551 10

原创 selenium 反爬虫之跳过淘宝滑块验证(2020/8)

在处理问题的之前,给大家个第一个锦囊!你需要将chorme更新到最新版版本84,下载对应的chorme驱动 链接:http://chromedriver.storage.googleapis.com/index.html注意 划重点!!一定要做这一步,因为我用的83的chorme他是不行滴,~~~~~~~问题1.一周前我的滑块验证代码还是可以OK的,完全没问题!附代码 low一眼url = "https://tuijian.taobao.com/indexbp.html#!/report/down

2020-08-04 14:56:16 9949 42

原创 Win10安装Kettle 7.1 成功!!!

兄弟盟只需要下面这几个连接即可搞定!需要安装包的也可以评论给我1.安装jdk1.8 https://blog.csdn.net/weixin_37601546/article/details/886235302.kettle国内镜像:https://blog.csdn.net/zheyiw/article/details/900839013.https://www.jianshu.com/p/4648bcc5f6b34.https://blog.csdn.net/qq_42166308/articl

2020-07-03 17:42:11 326

原创 Kettle连接MySQL报错:错误连接数据库 [mysql] : org.pentaho.di.core.exception.KettleDatabaseException的解决办法

在Windows系统里面安装Kettle后打算连接MySQL的时候突然报错:错误连接数据库 [mysql] : org.pentaho.di.core.exception.KettleDatabaseException:Error occurred while trying to connect to the databaseDriver class ‘org.gjt.mm.mysql.Driver’ could not be found, make sure the ‘MySQL’ driver (

2020-07-03 17:31:47 2395

原创 python常见知识

python常见面试题1.python中可变对象和不可变对象:可变对象:list dict set不可变对象:int float bool string tuple文章链接: https://www.jianshu.com/p/c5582e23b26c — 仔细看2.python的垃圾回收机制:文章链接: https://www.cnblogs.com/kumata/p/90991...

2020-03-19 08:03:24 2802

原创 集成学习(史上最全面)

一、集成学习法在机器学习的有监督学习算法中,我们的目标是学习出一个稳定的且在各个方面表现都较好的模型,但实际情况往往不这么理想,有时我们只能得到多个有偏好的模型(弱监督模型,在某些方面表现的比较好)。集成学习就是组合这里的多个弱监督模型以期得到一个更好更全面的强监督模型,集成学习潜在的思想是即便某一个弱分类器得到了错误的预测,其他的弱分类器也可以将错误纠正回来。集成方法是将几种机器学习技...

2020-03-05 20:37:41 518

原创 sql语句优化(史上最全面的总结)

一,SQL语句性能优化1, 对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。2,应尽量避免在 where 子句中对字段进行 null 值判断,创建表时NULL是默认值,但大多数时候应该使用NOT NULL,或者使用一个特殊的值,如0,-1作为默 认值。3,应尽量避免在 where 子句中使用!=或<>操作符, MySQL只有...

2020-02-27 19:40:55 294 1

原创 论视图的重要性!!

视图是从一个或几个基本表(或视图)导出的表。它与基本表不同,是一个虚表。数据库只存放视图的定义,而不存放视图对应的数据,这些数据仍存放在原来的基本表中。所以基本表中的数据发生变化,从视图中查询出的数据也就随之改变了。从这个意义上讲,视图就像一个窗口,透过它可以看到数据库中自己感兴趣的数据及其变化。既然视图的定义是基于基本表的,哪为什么还要定义视图呢?这是因为合理地使用视图能够带来许多好处:1、...

2020-02-27 19:20:19 1165

原创 Mysql数据库三范式(详细解释)

数据库设计三范式设计数据库表的时候所依据的规范,共三个规范:第一范式:要求有主键,并且要求每一个字段原子性不可再分第二范式:要求所有非主键字段完全依赖主键,不能产生部分依赖第三范式:所有非主键字段和主键字段之间不能产生传递依赖第一范式数据库表中不能出现重复记录,每个字段是原子性的不能再分不符合第一范式的实例:存在问题:最后一条记录和第一条重复(不唯一,没有主键)联系方式字段...

2020-02-27 15:37:16 370

原创 机器学习面试之各种优化器

在深度学习中,我们有许多优化器可以选择,但是只有清楚了它们的原理才能更好地选择。1、SGD随机梯度下降是最经典的方法,其思想如下图所示:相信大家都很容易理解。首先求出m个样本的Loss的和,求这个和对于神经网络参数theta的梯度,并将该梯度除以样本数m,得到平均梯度。然后,利用反向梯度来更新参数theta。η_k是学习率,k表示第k次迭代更新。通常,学习率会随着k的增大逐渐减小。...

2020-02-18 19:21:47 392 4

原创 4-中国疫情示意图

上篇是使用pyecharts绘制的中国疫情图,今天采用大家都熟知的常用工具matplotlib工具来专心绘制此图。到时候中国战’疫’结束后,再来此博客查看,表达喜悦。肯定会有那么一天,并且已经不会太久!!导包import timeimport jsonimport requestsfrom datetime import datetimeimport numpy as npimpo...

2020-02-14 17:08:34 1827

原创 使用位运算判断是否为2的n次方

问题:给定一个数字,判断他是否为2的n次方第一种方法:我们会发现如果是数字符合2的n次方的话,他有一个特点:就是让他一直除以2最终他会得到1.否则的话就不符合条件。所以就会写出一下代码def power_2(n): if n == 0: return False while(n % 2 == 0 ): n = n / 2 if n ==...

2020-01-14 21:25:04 1254

原创 巧用异或知识解决力扣中的题目

题目:找出一个列表中缺失的那个数字,比如a = [1,1,2,2,3,4,4],通过算法找出缺失的数字为3.这里有个坑,如果你使用count计数器来做的话,他会报超时出错误,因为系统会给你一个特别庞大的列表,所以你需要考虑时间复杂度。下面是我写的两种方法,大家可以参考一下:第一种:使用异或操作,这个大家或许都不怎么用,举个例子假设有a,b两个数字,经过异或运算你会发现一个神奇的事情。那就是:a...

2020-01-14 20:36:26 205

原创 Python 实现找出一个字符串中出现次数最多的字符并输出该字符

问题:给定一个字符串,找出其中出现次数最多的字母?拓展:如果出现次数一样的字母,按照字母顺序就输出第一个思路: 利用collections 工具中的Counter,对列表中元素出现的频率进行排序。 Counter返回值是一个按元素出现频率降序排列的Counter对象,它是字典的子类,因此可以使用字典的方法from collections import Counterdef get_ma...

2020-01-11 16:23:00 21562 2

原创 教你如何迅速秒杀掉:99%的海量数据处理面试题

最近准备面试时候,会被许多关于处理海量数据问题所困扰,其中包括很多的算法和思想。这里推荐一篇文章,写的特别好,全面。文章链接:https://www.tuicool.com/articles/iUV3An...

2020-01-07 20:36:04 105

原创 自编码详解以及案例

什么是自编码?首先看一张图:压缩与解压有一个神经网络, 它在做的事情是 接收一张图片, 然后 给它打码, 最后 再从打码后的图片中还原. 太抽象啦? 行, 我们再具体点.假设刚刚那个神经网络是这样, 对应上刚刚的图片, 可以看出图片其实是经过了压缩,再解压的这一道工序. 当压缩的时候, 原有的图片质量被缩减, 解压时用信息量小却包含了所有关键信息的文件恢复出原本的图片. 为什么要这样做呢...

2019-12-25 08:29:57 450

原创 Pandas中loc iloc ix 的详细使用

刚开始学习Python中的numpy、pandas时候,各种索引,切片,行列索引会弄得头昏眼花。其中还包括花式索引,布尔索引等。在这对其中一部分进行总结。loc、iloc、ix方法的使用loc:通过选取行(列)标签索引数据iloc:通过选取行(列)位置编号索引数据ix:既可以通过行(列)标签索引数据,也可以通过行(列)位置编号索引数据In [1]: import pandas as pd...

2019-12-24 17:45:41 475

原创 窗口函数详细解释(面试必备)

窗口函数的应用场景:(1)用于分区排序(2)动态Group By(3)Top N(4)累计计算(5)层次查询窗口函数:介绍:窗口函数可以进行排序,生成序列号等一般的聚合函数无法实现的高级操作。窗口函数也称为OLAP函数,意思是对数据库数据进行实时分析处理。窗口函数就是为了实现OLAP而添加的标准SQL功能。语法:其中[]中的内容可以省略<窗口函数> over ([p...

2019-12-20 19:54:15 2682

原创 自学sql难题解决方案

这个网站有助于复习sql知识,网址:http://xuesql.cn/lesson/select_queries_with_aggregates_pt_2重点解决最后两道题1.1 角色分组算出每个角色按有办公室和没办公室的统计人数(列出角色,数量,有无办公室,注意一个角色如果部分有办公室,部分没有需分开统计)考虑用联合查询解决,分别查询有无办公室人数再联合SELECT role,co...

2019-12-20 17:21:43 729

原创 sql中CONCAT、CONCAT_WS、GROUP_CONCAT函数

总结-- 将多个字符串连接成一个字符串.如有任何一个参数为NULL,则返回值为NULL SELECT CONCAT(model,'-',NAME,'-',TYPE) FROM `tb_attach_type`; -- 指定参数之间的分隔符:CONCAT_WS(分隔符,参数1,参数2...),CONCAT_WS会忽略所有的NULL,但不会忽略空字符串. SELECT CONCAT_WS('...

2019-12-20 16:57:39 172

原创 xgboost和gbdt的比较

【问】xgboost/gbdt在调参时为什么树的深度很少就能达到很高的精度?  用xgboost/gbdt在在调参的时候把树的最大深度调成6就有很高的精度了。但是用DecisionTree/RandomForest的时候需要把树的深度调到15或更高。用RandomForest所需要的树的深度和DecisionTree一样我能理解,因为它是用bagging的方法把DecisionTree组合在一起...

2019-12-18 17:46:11 182

原创 CNN-cifar-10-优化

import numpy as np# 序列化和反序列化import picklefrom sklearn.preprocessing import OneHotEncoderimport warningswarnings.filterwarnings('ignore')import tensorflow as tf数据加载(使用pickle)def unpickle(f...

2019-12-16 18:01:59 358

谷歌87稳定版本-反爬

可以配合上面的驱动进行爬虫处理

2021-05-31

修改后的谷歌驱动(Windows) -- chromedriver.exe

很多人问我要修改过后的谷歌驱动,博主已经上传。源代码稍后上传

2021-05-26

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除