自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小白

从零开始爬,猜猜我会走多远?

  • 博客(105)
  • 收藏
  • 关注

原创 新闻类型分类

分类问题Demo这应该是我能想到最简单的方法惹, 应该是我能想明白的 emm这中不仅仅用于新闻分类,可以扩展为 标签分类。 这里仅用新闻做实验鬼知道我参考了多少博客, 一个能直接跑起来的都没有 ,非常抱歉博客参考太多找不到了思路通过不同种类新闻提出关键词使用gensim 训练 建立语意向量通过 向量 对比 做语意匹配数据源由于爬虫爬取的新闻 还需要自己分类 =。= ,于是偷...

2019-09-16 10:34:43 6637

原创 Java面向对象基础

文章目录JAVA 基础 面向对象什么是成员变量、局部变量、静态变量成员变量示例局部变量示例静态变量示例成员变量和静态变量的区别一句话 private 和 public构造方法例如通过构造方法初始化参数this 关键字示例一: 通过this区分成员变量 用于赋值示例二: 通过this访问成员方法静态`static`关键字含义例子`static`占内存局限性总结静态代码块示例封装优点更精确的控制成员...

2019-05-10 01:22:38 485

原创 初探Python内存

Python中的堆栈内存以我的理解:python解释器中也开辟了堆栈,栈是用于存放指令集的,而堆是存放变量的Python内存分配以512字节为阙值分为大小对象,大对象直接分配内存,小对象使用专用内存分配器。小对象按固定长度对齐后,再分成不同类别,以便于复用和管理。首先,向系统内存申请大块Arena内存,按页大小将其分成多个Pool快,这是一级重用单元,每个Pool为一种类别...

2018-07-19 09:18:59 2173

原创 redis

Redis 基础redis是什么redis是一个开源的、使用C语言编写、支持网络交互、可持久化的Key-Value数据库它通常被称为数据结构服务器数据模型Redis的外围由一个键、值映射的字典构成。与其他非关系型数据库主要不同在于:Redis中的值的类型不仅限于字符串,还支持如下抽象数据类型:字符串结构无序集合有序集合hash类型(字典类型)列表...

2018-06-08 14:41:18 425

原创 restframework(二)

restframework认证基础使用class Authentication(BaseAuthentication): """用户验证""" def authenticate(self, request): token = request.GET.get('token', None) token_obj = Token.ob...

2018-05-23 20:32:22 814 1

原创 restframework(一)

restframeworkrestframework是django对restful架构扩展的第三方库restful架构主要原则网络上的所有事物都被抽象成为资源每个资源都有唯一的资源标识符同一个资源具有多种表现形式(xml, json等)对资源的各种操作不会修改资源标识符所有操作均是无状态的符合REST原则的架构什么是restful对应的中文是res...

2018-05-22 14:41:15 6973

原创 ModelForm

ModelFormModel可以理解为数据库,Form是Form组建, ModelForm一个Form组建的扩展类,可直接关联Model, 也就是说会有强耦合。但是用起来简单哇举个栗子先直接看例子吧model.pyclass User(models.Model): """用户信息表""" user = models.CharField(max_len...

2018-04-28 11:51:29 520

原创 ajax解决csrf

ajax跨站请求方式一$.ajax({ url: "/cookie_ajax/", type: "POST", data: { "username": "Q1mi", "password": 123456, "csrfmiddlewaretoken": $("[name = 'csrfmiddlewaretoken']&quot

2018-04-08 23:12:23 3099

原创 前端插件sweetalert

一个比较好看的弹窗插件——收集记录提示框内容比较好看 还有动画。里面function中可以写ajax代码 进行前后端交互这是一个bootstrap的扩展。在github上发现的只需导入 sweetalert.js 和 sweetalert.css 当然 还有bootstrap.css 和 jquery<!DOCTYPE html><html lang="...

2018-04-08 22:48:36 557

原创 Django ORM相关操作

ORM 相关操作十三条常用方法 方法 解析 返回类型 all() 查询所有结果 返回QuerySet filter(**kwargs) 它包含了与所给筛选条件相匹配的对象 返回QuerySet get(**kwargs) 返回与所给筛选条件相匹配的对象,返回结果有且只有一个,如果符合筛选条件的对象超过一个或者没有都会抛出错误...

2018-04-08 21:51:26 563

原创 Django ORM基础

Django ORMORM介绍ORM概念对象关系映射(Object Relational Mapping,简称ORM)模式是一种为了解决面向对象与关系数据库存在的互不匹配的现象的技术。简单的说,ORM是通过使用描述对象和数据库之间映射的元数据,将程序中的对象自动持久化到关系数据库中。ORM在业务逻辑层和数据库层之间充当了桥梁的作用。ORM优势ORM解决的主要...

2018-04-08 21:50:47 327

原创 分页工具

功能主要文件在utils-paging.py自己写的简单的分页为了可扩展前端样式,并没有自动生成 分页代码仅将其 进行封装 配合前端的模版代码使用APIPaging(page_now, data, page_nub=11, page_index=10):param page_now: 当前页数:param data: 总数据:param page...

2018-04-06 17:11:24 510 2

原创 08-requests库的基础入门

requests库的基础入门r = requests.get(url)# r 是Response 信息# get请求的是Request信息Response对象包含爬虫返回的内容Response对象的属性属性 说明r.status_code HTTP请求的返回状态,200表示连接成功,404表示失败r.text HTTP响应内容的字符串形式,即url对应的...

2018-03-29 09:09:11 348

原创 列表推导式总结

list1 = [11, [22, 3], [4, ], [55, 66], 8, [9, [7, [12, [34, [26]]]]]]如这个list 如何将这些中括号去掉去括号,要知道一句话字符串操作要比类型操作容易。所以我的第一反应是li = str(list1).replace('[', '').replace(']', '').split(',')print([in...

2018-03-27 19:15:18 1828

原创 装饰器的一些使用方法

装饰器的一些使用方法在类中写装饰器方式一:class Foo: def __init__(self): self.name = 'CharmNight' def inners(funcs): def inner(self, *args, **kwargs): ret = funcs(self, *ar...

2018-03-25 18:45:15 735

原创 selenium小玩具

selenium小玩具selenium是一个自动化的工具,之前写过一次爬虫,感觉挺好玩的。根据Excel表格中的数据自动填入网页中,需求就是这个。一开始感觉挺简单的,写起来也挺简单的,demo也挺好,就是在用真实数据跑的时候各种BUG··· 想法和现实的差距太大了实现思路需要的数据是从Excel表格中获取的,所以我们需要先从Excel表格中读取数据。访问目标网页,自动输入...

2018-03-24 23:09:25 330

原创 Python爬取百度图库

Python爬取百度图库页面分析通过Chrome 的开发者模式,我们可以很发现 百度图库是通过ajax 加载图片的。 每一次都会发送一个请求:https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord=%E6...

2018-03-20 23:26:06 1716

原创 07-Selenium基础

Selenium自动化测试工具, 支持多种浏览器。 爬虫中主要用来解决JavaScript渲染的问题驱动浏览器来做各种动作(跳转、查询、……)——支持主流浏览器 模拟浏览器访问,拿到浏览器渲染后的页面安装pip install selenium基本使用from selenium import webdriverfrom selenium.webdriver....

2018-03-17 15:09:51 339

原创 06-pyquery基础

PyQuery强大又灵活的网页解析库。如果你觉得正则写起来太麻烦,如果你觉得BeautifulSoup语法太难记,如果你熟悉jQuery的语法,那么PyQuery就是你的绝佳选择。初始化字符串初始化html = """<div> <ul> <li class="item-0">first item</l...

2018-03-17 15:09:24 591

原创 05-BeautifulSoup基础

BeautifulSoup方便又灵活的网页解析库,处理高效,支持多种解析器。利用它不用编写正则表达式即可方便的实现网页信息的提取html = """<html><head><title>The Dormouse's story</title><head><body><p cla

2018-03-17 15:09:00 345

原创 04-正则表达式练习

正则表达式什么是正则表达式正则表达式是对字符串操作的一种逻辑公式,就是用事先定好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑正则表达式非Python独有, re模块实现常见匹配模式re.matchre.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()...

2018-03-17 15:08:36 373

原创 03-Requests库

Requests库Requests库是基于urllib库的基础上创建出来的,相对更加方便。安装Requests库 pip install requests引入实例import requestsresponse = requests.get('https://www.baidu.com/')print(type(response))print(r...

2018-03-17 15:07:56 307

原创 02-Urllib库基础

Urllib库什么是Urllib库Python 内置的HTTP请求库 1. urllib.request 请求模块 2. urllib.error 异常处理模块 3. urllib.parse url解析模块 4. urllib.robotparser robots.txt 解析模块Python3 与 Python2的区别python2...

2018-03-17 15:06:54 244

原创 01-爬虫基础概念

什么是爬虫请求网站并提取数据的自动化程序Request 与 Response浏览器就发送消息给该网址所在的服务器,这个过程叫做HTTP Request服务器收到浏览器发送的消息后,能够根据浏览器发送消息的内容,做相应处理,然后把消息回传给浏览器。这个过程叫做HTTP Response.浏览器收到服务器的Response消息后,会对信息进行相应的处理,然后展示Re...

2018-03-17 14:54:32 1362

原创 Mysql索引

Mysq索引什么是索引索引在MySQL中也叫做“键”,是存储引擎用于快速找到记录的一种数据结构。索引对于良好的性能 非常关键,尤其是当表中的数据量越来越大时,索引对于性能的影响愈发重要。 索引优化应该是对查询性能优化最有效的手段了。索引能够轻易将查询性能提高好几个数量级。简单的理解成书上的目录,提高查询速度(索引相当于字典的音序表,如果要查某个字,如果不使用音序表,则需要从几百...

2018-03-04 19:51:09 347

原创 MySQL约束

MySQL约束五种完整性约束约束是一种限制,他通过对表的行或列的数据做出限制,来确保表的数据的完整醒、唯一性 非空约束NOT NULL:非空约束 指定某列不能为空创建一个非空约束create table db1( id int not null, name varchar(30) default 'asd' not null, ...

2018-03-03 19:37:55 1327

原创 MySQL全家桶

MySQL全家桶视图视图:是一个虚拟的表,其内容由查询定义。同真实表一样,视图包含一系列带有名称的列和行的数据视图是虚拟表,本身不存储数据,而是按照指定的方式进行查询视图的特点视图的列可以来自不同的表,是表的抽象和逻辑意义上建立的新关系。视图是由基本表(实表)产生的表(虚表)视图的建立和删除不影响基本表对视图内容的更新(添加、删除和修改)直接影响基本表当视图来...

2018-03-02 23:15:10 863

原创 SQL逻辑查询语句执行顺序

SQL逻辑查询语句执行顺序SQL语句定义顺序看一段伪代码SELECT DISTINCT <select_list>FROM <left_table><join_type> JOIN <right_table>ON <join_condition>WHERE <where_condition>GRO...

2018-02-28 21:16:12 388 1

原创 MySQL数据库——基础操作

MySQL数据库——基础操作命名规范可以由字母、数字、下划线、@、#、$区分大小写唯一性不能使用关键字如: CREATE SELECT不能单独使用数字最长128位MySQL 的语法不区分大小写数据库操作创建数据库语法#语法: CREATE DATABASES db_name CHARSET utf8# 创建一个名字为db_nam...

2018-02-28 21:15:20 631

原创 mysql数据库安装

mysql基础概念概述数据库(Database,简称DB)  数据库技术是计算机应用领域中非常重要的技术,它产生于20世纪60年代末,是数据管理的最新技术,也是软件技术的一个重要分支。  简单的说,数据库就是一个存放数据的仓库,这个仓库是按照一定的数据结构(数据结构是指数据的组织形式或数据之间的联系)来组织、存储的,我们可以通过数据库提供的多种方法来管理数据库里的数据。更简...

2018-02-28 21:13:28 445

原创 Python 魔术方法小结

Python 类中的双下方法从常用的开始:快被自己蠢哭了一、_ _ init __实例化对象时调用class Foo: def __init__(self,name): self.name = namef = Foo('CharmNight') # 这时候就调用__init__方法_ _ new__创建类对象时调用_ _ ne...

2018-02-23 22:42:44 2516 1

原创 python偏函数编程

python偏函数编程对于Python,简洁是一个核心原则,在python2.5以后引入了一个概念——偏函数为什么要使用偏函数当然是为了简洁啦~更好的支持DRY编程原则(DRY编程原则是指强调不要写重复代码)如果我们定义了一个函数,需要4个参数,上层有很多函数需要调用这个函数。在这些调用中,80%的调用传递的参数都是one=1,two=20,如果我们每都输入相同的参数,这样...

2018-02-21 01:38:45 340

原创 ctypes——模块

ctypes声明——以下代码均在python3.6下测试执行的初识msvcrt.printf只打印一个字符python3.x中import ctypesmsvcrt = ctypes.cdll.msvcrtmessage_string = 'Hello world!\n'msvcrt.printf('Testing:%s',%message_string)...

2018-02-19 23:08:19 6192

原创 random——模块

random——产生伪随机数模块用途 random 模块是为各种分布实现伪随机数发生器。几乎模块中所有函数都依赖于基本函数random(),它在半开放范围[0.0,1.0)内产生一个统一的随机浮点数。Python使用Mersenne Twister作为核心生成器。它生成53位精度浮点数,周期为2**19937-1.C中的底层实现即快速又线程安全。注:Mersenne ...

2018-02-14 18:02:39 7353

原创 bisect——模块

bisect​ ——这是一个python的针对有序 数组的插入和排序操作的一个模块首先看看bisect这个模块中都有什么方法吧import bisect[print(i) for i in dir(bisect)if i.find('__') == -1]bisectbisect_leftbisect_rightinsortinsort_leftinso...

2018-02-14 16:32:52 12603

转载 python PEP8规范

python PEP8规范1、    代码布局设计1.1    缩进使用四个空格来进行缩进 换行的时候可以使用反斜杠,最好的方法是使用园括号,在使用反斜杠的时候,在反斜杠的后直接回车,不能有任何空格存在比较好的做法如下:对准开始的分隔符:# Aligned with opening delimiter.foo = long_function_name(v

2018-02-04 18:53:11 387

原创 dis模块——神奇的字节码

dis模块 入门Python代码先翻译成字节码,又由Python虚拟机来执行字节码,python的字节码类似汇编指令的中间语言,一个Python语言会对用若干字节码指令,虚拟机一条条执行指令,从而完成程序的执行Python dis 模块支持对Python代码进行反汇编, 生成字节码指令。import disdef main(): while 1: pass

2018-02-04 12:36:07 1205

原创 整理一些小知识点

随机更新自启动目录是登录自己用户时才能开机启C:\Users\Night\AppData\Roaming\Microsoft\Windows\Start Menu\Programs\Startup把文件拷贝进去登录所有用户时都能开机启动C:\ProgramData\Microsoft\Windows\Start Menu\Programs\StartUp在文件操作中 :r

2018-01-28 02:20:03 207

转载 logging

logging 库采用模块化的方式提供了几种类型的组件:loggers,handlers,filters,formatters。Loggers 暴露了应用程序代码可以直接使用的接口 Handlers 发送日志记录(由 loggers 创建)到合适的目的地 Filters 提供了细粒度的方法来决定哪些日志记录需要被输出 Formatters 指定了在最终输出时,日志记录的布局格式 日志事

2018-01-28 01:56:45 432

原创 面向对象

面向对象初识面向对象面向对象什么都是对象,1是对象 ‘str’是对象 方法是对象 类也是对象,对象是一种体现,面向对象是一种思想。可以理解成:面向过程变成是在不停的搬砖,而面向对象编程是指点江山(分配任务),并不是一味的考虑怎么做,而是考虑如何分配。面向对象,你就是上帝,上帝说有光,这个类就有光了,你要分配什么时候该有光,什么时候该黑暗,这就是对象的交互,产生结果c

2018-01-27 20:19:24 250

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除