自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(87)
  • 收藏
  • 关注

原创 C++语言入门到精通

具备一定的C语言知识后,再学习本篇文章,会更得心应手一些。本文关于C++的基础知识(这和C基本重合)涉及不多,主要写了C++对于C的扩展 例如面向对象设计,类等。

2022-09-22 20:40:22 741

原创 机器学习第三课(sklearn接口)

注意:sklearn第三方模块的安装 要用pip install scikit-learn。

2023-07-03 15:09:35 719

原创 机器学习第二课(KNN算法)

如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。涉及到距离的计算(欧式距离)

2023-07-02 22:06:14 459

原创 机器学习第一课(介绍)

模型评估是模型开发过程不可或缺的一部分。它有助于发现表达数据的最佳模型和所选模型将来工作的性能如何。模型评估主要是评估模型误差的大小。

2023-06-13 15:53:12 826

原创 git使用

solution: 执行以下三条语句git push --force #可能可以不要force 或者试试这个 git push --force-with-lease如果分支只有我一个人操作 则没事,详见: https://blog.csdn.net/LeviDing/article/details/76789443或这里:与pull操作不正确有关2。

2023-02-03 21:12:42 225

原创 Python数据分析--第二章(Numpy和数组)

dtype类型如下 :int默认为int322. arange方法。

2023-01-31 21:40:20 69

原创 Python数据分析--第一章(jupyter使用)

切换到markdown语法:按M键运行:Ctrl+enter添加下一行:Alt+enter智能提示:按下tab键查看源码:后面加英文的?

2023-01-29 11:22:59 169

原创 C++/Qt编程规范

项目名称:一般以项目名称对应的每个英文单词的首字母大写组成的简称来命名。除项目中的变量名,函数名使用小驼峰命名法,其他都用大驼峰。b)XTAL平台框架模块头文件。d)自定义公共库头文件。

2022-12-09 11:27:21 2026

原创 C++头文件

头文件包含 各种函数或类等的申明 (预处理器的处理)防止重复申明三、头文件中为啥不要用普通变量函数的定义会出现重复申明的问题

2022-12-05 14:05:00 234

原创 Qt操作SQLite数据库

增、删、改、查数据库推荐SQLite数据库可视化工具 SQLite Expert Professional。

2022-12-01 15:38:34 1724

原创 Qt解析JSON文件

json是一种与语言无关的数据交换的格式,使用Json的格式与解析方便的可以表示一个对象信息,json有两种格式:①对象格式:{“key1”:obj,“key2”:obj,“key3”:obj…}、②数组/集合格式:[obj,obj,obj…]。json是 JavaScript Object Notation 的首字母缩写,单词的意思是javascript对象表示法,这里说的json指的是类似于javascript对象的一种数据格式,目前这种数据格式比较流行,逐渐替换掉了传统的xml数据格式。

2022-12-01 15:27:31 1112

原创 Qt解析XML文件

文件打开->实例QXmlStreamReader对象读取文件->如果不是文件末尾就继续一行一行读。

2022-12-01 10:53:17 214

原创 Qt文件读写之QFile

QFile读写文件的两种方式:1.QFile可以单独使用。2.QFile与QTextStream或QDataStream一起使用。注意:不管操作系统是什么,QFile都希望文件分隔符是’/‘。不支持使用其他分隔符(例如’')。

2022-12-01 10:37:50 694

原创 Qt报错总结

QtCreator中qmake、构建、运行、清理等区别与联系。qt执行流程:qmake --> 构建 -->运行。解决:直接把build文件删掉,重新运行。大概率是复制粘贴时遇到的。

2022-11-30 17:13:16 1649

原创 INI配置文件

三个基本要素:sections、parameters、comments。

2022-11-28 15:54:44 1026

原创 C语言

指针、数组、结构体、文件操作

2022-09-09 20:32:09 357

原创 数据分析day01

numpy、pandas

2022-07-14 11:41:30 265

原创 考研专业课前期(快速过C语言)

文章目录总体:变量、运算符、表达式、控制流、函数、指针、数组、结构体、输入与输出、文件一、类型、运算符与表达式1.1 类型1.2 运算符1.3 类型转换二、控制流(循环和判断)三、函数总体:变量、运算符、表达式、控制流、函数、指针、数组、结构体、输入与输出、文件一、类型、运算符与表达式1.1 类型种类:char(字符型)、int、float、double加“配件”–》short、long(for int);signed 、unsigned(for char int)注意点:short (int

2022-03-24 21:39:51 955

原创 安卓开发工具

安卓开发工具https://www.androiddevtools.cn/

2021-10-16 16:34:54 7677

原创 终章:2021/7/8爬虫第三十四次课(反反爬措施三之js反爬补充)

文章目录一、steam平台js算法逆向二、百度翻译JS逆向一、steam平台js算法逆向1 通过Network 我们发现了2个数据接口 getrsakey dologin在dologin 密码是做了加密处理​2 通过搜索关键字password 然后我们确定了一个数据接口 login.js....继续去它的源码当中搜索关键字 password 。然后逐个分析 var encryptedPassword = RSA.encrypt(password, pubKey); 它可能可以​3 通过断点

2021-07-20 21:39:21 613 2

原创 2021/7/6爬虫第三十三次课(反反爬措施三之字体反爬与js反爬)

一、字体反爬什么是字体反爬?开发者创作了一种字体(字体代号) --> 网页中显示的就是这种字体代号一般为CSS反爬 就是因为这个字体是隐藏在我们css文件当中的一个.ttf文件​如何解决字体反爬?1 先找到.ttf文件 (在网页源代码中搜.ttf)需要把它转换成xml文件 (在pycharm)2 分析xml文件 通过 FontCreator(360应用市场搜索下载即可)(得字体列表)3 找出字体对应的映射关系 --->和真实的字体做替换​需求:爬取文字字体内容​第一步

2021-07-19 18:07:43 260

原创 2021/7/3爬虫第三十二次课(反反爬措施二之突破行为验证,opencv)

一、图形验证码(实现上次的12306突破验证码)12306图片验证码的实现​解决方案: selenium(鼠标行为链) + 打码平台​思路:通过selenium来加载登录页面,获取验证码图片。我就可以把验证码图片交给超级鹰打码平台进行处理。让其给我返回这张验证码正确的坐标值。拿到正确的坐标值之后去点击图片​实现步骤第一步 使用selenium加载登录页面第二步 对页面进行保存(截屏,通过selenium)第三步 截取12306图片验证码 (通过selenium)第四步 交给超级鹰打码

2021-07-18 10:07:35 330 2

原创 2021/7/1爬虫第三十一次课(反反爬措施一之代理ip与打码平台)

文章目录一、运用ip代理(一个代理ip尽量只一个人用)二、图形验证码(有两种)2.1简单数字加字母类型tesseract2.2复杂(图片,等)打码平台一、运用ip代理(一个代理ip尽量只一个人用)这里的ip指的是网络ip代理ip,网上自己找(免费或付费)推荐两个:“豌豆HTTP”:免费,具体使用,看之前的“快代理”:付费介绍:(有试用期限)私密代理与独享代理:可靠性高,难点在于代码格式:proxies = {'协议':'协议://用户名:密码@ip:端口号'}开放代理:类似免费的

2021-07-16 21:32:01 637 2

原创 2021/6/29爬虫第三十次课(fiddler抓包实例)

文章目录一、fiddler抓包工具了解二、爬移动端数据前的配置三、案例(豆果美食、全民小视频)3.1 豆果美食3.2 全民小视频一、fiddler抓包工具了解Tools>>actions(安装证书)Rules>>Require Proxy Authentication(若勾选,每次登陆都要有提示)Process(进程)二、爬移动端数据前的配置fiddler(见以前的blog)模拟器的配置(以下)查找ip ipconfig (a.b)1. 点击系统设置 --

2021-07-15 23:31:27 976

原创 2021/6/26爬虫第二十九次课(fiddler抓包工具)

文章目录一、拓展:android控件ListView的讲解(以后再细学)二、fiddler与 switchomega插件一、拓展:android控件ListView的讲解(以后再细学)环境 找博客视频按照1 安装jdk 就可以使用java这门语言进行开发了2 android studio (安卓应用开发环境,基于**java开发**)​学习原因就是我们在爬取移动端数据的时候 必须要分析数据接口,我们难免会碰到一些android的名词。对于这些名词我们应该有一个基本的认知​听思路 不用看代码

2021-07-12 21:13:53 153

原创 2021/6/24爬虫第二十八次课(爬取移动端数据前导知识)

文章目录一、移动端数据抓取的背景介绍二、UiAutomator介绍三、UIAutomator2的执行流程四、adb的简介与安装和应用重点五、u2的快速入门(先初始化,后连接)一、移动端数据抓取的背景介绍PC端 --> 移动端 --> 大数据移动端数据的作用?数据分析用户画像统计系统商业竞争二、UiAutomator介绍ua是什么?是谷歌提供给安卓用来做自动化测试的一个Java库​​ua能够做什么?测试框架创建一个或多个设备针对于我们的应用进行自动化性能的UI测试

2021-07-11 11:19:49 317

原创 2021/6/22爬虫第二十七次课(mongodb下)

一、修改数据db.集合名.update()1 query 查询的条件2 update 更新的内容3 multi 默认是false 表示只更新找到的第一条数据 true 就是表示把满足条件的数据全部更新​db.stu.update({name:'jerry'},{name:'abc'}) 正常的更新,但是后面的数据不会保留db.stu.update({name:'张三'},{$set:{name:'zhangsan'}}) 指定键值的更新 保留后面的数据db.stu.update({},{$

2021-07-11 10:48:07 84

原创 2021/6/20爬虫第二十六次课(mongodb上)

一、mongodb的概述1 它是什么?MongoDB就是一个非关系型数据库(文档数据库)​​2 为什么要学习它?- 企业需求(要求爬虫开发工程师必须会这个技术)- 爬虫的数据如果上了一个量级,使用MongoDB会比Mysql好一些 - scrapy_redis适用性小(并不是所有的公司都要用分布式)​3 mongodb的特点?3.1 无数据结构(方便做爬虫)3.2 高性能(具有非常高的读写性能)3.3 良好的支持(完善的文档 跨平台 稳定)二、mongodb的安装具体安装教程

2021-07-05 22:20:18 87

原创 2021/6/17爬虫第二十五次课(scrapy_reids补充)

scrapy_reids补充学习目标1 通过一个案例改成成scrapy_redis 当当网2 案例练习 小说 盗墓笔记1 当当网当当网 http://book.dangdang.com/思路:先实现普通的scrapy爬虫,然后在改写成scrapy_redis​**第一步 页面分析**需求:大分类 二级分类 三级分类 图书的名字和图片的src​大分类整个大分类都在 div con flq_body 它下面的 div/dl/dt注意:1 在大分类中有一个span标签,但是源码中没有

2021-07-04 23:49:39 169 2

原创 2021/6/15爬虫第二十四次课(redis常用五大数据类型--set与zset、python操作redis、scrapy分布式爬虫实现)

这半个月停更python的学习内容,是因为准备期末考试,害。现在考完了,今天开始将疯狂学python和java, 哈哈。期间学到的心得和体会,我都会毫无保留的分享,请大家多多关照よろしくお願いします 잘 부탁드립니다. I’d appriciate your attention for our first meeting文章目录一、redis-set二、redis-zset三、python操作redis四、scrapy分布式爬虫实现4.1 什么是scrapy_redis4.2 scr

2021-07-02 21:14:18 148 1

原创 进军java(完善中...)

第二章 变量和类型2-3 数据类型字符串数字布尔1.字符串用" "包围2.数字小整数:int a = 11234大整数:long b = 78900000123l浮点数:double c = 1.03.布尔boolean d = true/false

2021-07-02 20:31:45 101

原创 2021/6/13爬虫第七次周复盘

(码前)页面分析真正理解代码(run前)注意缩进看是否有明显错误(出现BUG)先看URL yieldxpathsettings细节:使用Images Pipeline下载图片时,images文件夹要自己建解析数据xpath 先在草稿纸上写下来json.loads(response.text) 即通过字典...

2021-06-13 22:10:14 400 3

原创 2021/6/12爬虫第二十三次课(redis)

文章目录一、redis的概述二、redis的安装三、redis的五大命令(记一些常用的)3.1redis-string3.2 redis-list3.2 redis-HashScrapy框架进阶:redis 与 scrapy中的redis一、redis的概述背景随着互联网+大数据时代的来临,传统的关系型数据库已经不能满足中大型网站日益增长的访问量和数据量。这个时候就需要一种能够快速存取数据的组件来缓解数据库服务I/O的压力,来解决系统性能上的瓶颈。Redis是什么?Redis是一个高性能的

2021-06-12 10:43:18 200 1

原创 2021/6/10爬虫第二十二次课(crawlspider、scrapy实现登录)

一、crawlspider引入:回顾之前的代码中,我们有很大一部分时间在寻找下一页的url地址或者是详情页的url地址上面,这个过程能更简单一些么?定义:是scrpay另一种爬取数据的方式学习目标:了解crawlspider的使用crawlspiser是继承与spider这个爬虫类它的特点:根据规则提取链接发送给引擎如何创建crawlspiderscrapy genspider -t crawl xx xx.com有些场景使用crawlspider还是比较方便 前提是什么 (url的

2021-06-10 21:45:34 199 6

原创 2021/6/6爬虫第六次周复盘

一、复习bs4xpath:记语法、copy (full) xpathbs4:(三大种类操作)遍历父、长辈们上、下兄弟(们)子、晚辈们查找“搜索文档树”(以后再看)find/find_all [元素、属性值、字符串]修改第十讲的select()、修改文档树(以后再看)补充:Comment : 注释html = '<a><!--大家慢慢来,好饭不怕晚,先把知识点掌握--></a>'soup2 = BeautifulSoup(ht

2021-06-07 13:02:46 109 1

原创 2021/6/5爬虫第二十一次课(下载中间件的编辑、Scrapy下载图片案例)

一、下载中间件(DownloaderMiddleware类)1.1引入需求:我们要设置随机ua下载器中间件是引擎和下载器之间通信的中间件 我们可以设置代理 达到反反爬的目的需要实现2个方法1.2介绍process_request(self,request,spider)当每个request通过下载中间件的时候,该方法调用参数- request request就是拦截的请求- spider 爬虫类实例化的对象​返回值1 返回None ,它正常的操作 scrapy正常的去处理req

2021-06-07 09:05:51 83

原创 2021/6/3爬虫第二十次课(腾讯招聘网职位、scrapy shell、settings.py补充)

一、案例:腾讯招聘网职位及对应职责1.1页面分析:是否为静态—>动态(ajax)翻页 在scrapy中:1>列出几个URL,然后.format 2>直接找下一页的Url地址 最后 yield scrapy.Request(url,callback=None)实现 (爬虫程序、items、piplines.py)注:若需要点击跳转到另一个URL 这时1.2具体:1.2.1翻页:职位的URL:https://careers.tencent.com/search

2021-06-07 09:04:22 185 1

原创 2021/6/1爬虫第十九次课(pipline管道的使用、items文件的使用)

文章目录一、piplines.py文件的使用二、items.py文件的使用三、翻页的处理四、案例练习(爬中国古诗文网)五、到目前为止模板的编程(包含保存)一、piplines.py文件的使用1 开启管道注意Item的对象 加入你引用了item文件 那么这个item不是一个dict对象 反之则是一个字典对象ITEM_PIPELINES = {‘mySpider.pipelines.MyspiderPipeline’: 300,}​2 回到爬虫文件当中需要把数据yield 给管道不会浪费内

2021-06-01 23:35:48 439 2

原创 Python报错:ImportError: DLL load failed: 找不到指定的模块

一种原因是因为这个还有就是看一下前面括号中的解释器是否正确

2021-06-01 21:12:34 231

原创 2021/5/30爬虫第五次周复盘

文章目录一、并发执行和并行执行二、线程的操作三、多线程开发中的BUG四、queue队列五、线程中主线程与子线程之间的关系六、Scrapy框架(让我们的爬虫更快更强大)七、小补充一、并发执行和并行执行并发执行和并行执行二、线程的操作threading.enumerate()#Return a list of all Thread objects currently alive#以列表形式返回存在的线程对象Thread.setDaemon(true)三、多线程开发中的BUG资源竞

2021-05-30 20:00:03 101 2

机器学习第二课(KNN算法)

所有代码

2023-07-02

2023年最新考研data

2023年全国硕士研究生招生考试公告 根据《2023年全国硕士研究生招生工作管理规定》,现将2023年全国硕士研究生招生考试有关事项公告如下: 一、初试时间 二、初试科目 三、报名 四、网上报名要求 五、网上确认要求 六、打印准考证 七、其他

2022-09-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除