自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 在win7上安装spark实践

一、搭建的环境windows7spark-2.4.3python-3.6.5Java8二、安装部署1、安装Java/Jdk下载jdk-8u152-windows-x64.exe,根据安装指南进行安装,配置环境变量JAVA_HOME,在Path中添加%JAVA_HOME%\bin和%JAVA_HOME%\jre\bin,在CLASSPATH中添加%JAVA_HOME%\lib...

2019-08-16 18:03:58 658 1

原创 hadoop学习笔记

hadoop文件namenode: 存储元数据, 被分块保存的数据的信息,如大小,位置datanode: 存储被分块的数据, path->hadoop/data/dfs/data(本地的实际地址)​hadoop会建立一个虚拟的文件目录工客户端访问(hdfs://ip:9000/)HDFS实现思想1. hdfs是通过分布式集群来存储文件, 为客户端提供了一个便...

2019-07-27 11:24:56 160

原创 hadoop3.X 安装实践

一、ssh免密登录1、测试是否能免密登录# ssh localhostThe authenticity of host 'localhost (::1)' can't be established.2、设置免密登录1)、去掉 /etc/ssh/sshd_config中的两行注释,如没有则添加,所有服务器都要设置的:#RSAAuthentication yes #Pu...

2019-07-17 15:05:28 190

原创 jAVA基础

JAVA的数组声明: type var-name[]; var-name = new type[size]; type[ ] var-name; var-name = new type[size];int month_days[] = new int[4];int month_days[] = { 31, 28, 31, 30};int twoD[][] = new ...

2019-07-12 18:01:17 164

原创 xlwt生成Excel文件

xlwt导出Excel基本原理workbook工作薄的概念我们必须要明确,其是我们工作的基础。与下文的sheet相对应,workbook是sheet赖以生存的载体。workbook = xlwt.Workbook()​sheet我们所有的操作,都是在sheet上进行的。​sheet = workbook.add_sheet(‘table_message’,cell_overwr...

2019-06-29 16:03:29 1563

原创 学习记录, 带你玩转Pyppeteer (全干货)

别只用 Selenium,新神器 Pyppeteer 更强大!现在大多数人在使用模拟浏览器进行数据获取的时候, 用的都是Selenium .以至于现在很多网站已经对它做了很多针对性的反爬(比如检测浏览器的webdriver属性). 而Pyppeteer 作为一个新的工具在绕过这些反爬措施中表现的很好. 本文借鉴了部分'原创: 崔庆才 进击的Coder, 别只用 Selenium,新神器 P...

2019-06-15 10:19:16 11861 2

原创 BeautifulSoup

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.-----引入官网地址的一句话 ​ 1.1 安装 Beautiful Soup 4 通过PyPi发布,所以如果你无法使用系统包管理安装,那么也可以通过 easy_install 或...

2019-06-06 19:48:49 203

原创 COOKbook读书笔记--第一章

zip(iter1 [,iter2 [...]]) --> zip object , 返回一个迭代器, 元素为每一个iter的对应元组heapq实现优先级队列import heapqclass PriorityQueue:def __init__(self):self._queue = []self._index = 0def push(self, item, prior...

2019-06-01 19:15:24 134

原创 mongo 的垮库与批量操作

批量更新db.getCollection('JRCP_XYK_WAK_ALL').find({}).forEach( function(item){ db.getCollection('JRCP_XYK_WAK_ALL').update({"_id":item._id},{$set:{"STATUS_": "1"}}) })垮库...

2019-05-25 19:12:49 221

原创 pandas数据结构之Dataframe

-- 综述 numpy主要用于进行运算 dataframe更切合于业务逻辑 -- dataframe的常用的属性 属性 说明 shape Dataframe的形状 values DataFrame的值,numpy.ndarray...

2019-05-18 14:38:09 214

原创 MYSQL的update的高级用法

MYSQL的update多个表的UPDATE操作, 指定联合条件whereUPDATE items,month SET items.price=month.price WHERE items.id=month.id;​注意:多表 UPDATE 不可以使用 ORDER BY 或 LIMIT链接更新,,在需要中间表的时候-- 更新一张表UPDATE table1 t1 INNE...

2019-04-13 16:22:57 4260

原创 scrapy框架杂记

一般爬虫的逻辑是:给定起始页面,发起访问,分析页面包含的所有其他链接,然后将这些链接放入队列,再逐次访问这些队列,直至边界条件结束。为了针对列表页+详情页这种模式,需要对链接抽取(link extractor)的逻辑进行限定。好在scrapy已经提供,关键是你知道这个接口,并灵活运用scrapy框架爬取流程 爬取流程 Scrapy的整个数据处理流程由Scrapy引...

2019-04-07 20:24:58 165

原创 Centos7安装Selenium+chrome+chromedriver详细

写在前面: chrome不能再linux下以root的权限运行1、修改yum源 在/etc/yum.repos.d/目录下新建文件google-chrome.repo,向其中添加如下内容: [google-chrome] name=google-chrome baseurl=http://dl.google.com/linux/chrome/rpm/stable/$base...

2019-03-31 19:30:36 3840 1

原创 python 的文件写入方式

open()模式 描述 r 以只读方式打开文件,文件的指针将会放在文件的开头.这是打开文件的默认方式 rb 以二进制格式打开一个文件用于只读.文件指针将会放在文件的开头,一般用于非文本如图片等 r+ 打开一个文件用于读写,文件指针将会放在文件的开头 rb+ 以二进制格式打开一个文件用于读写.文件指针将会放在文件的开头.一般用于费文件如图片等 w...

2019-03-24 21:57:38 1641

原创 mongodb语法

mongodb使用指南连接mongodb数据库,建立连接对象,用连接对象建立一个具体数据库对象,然后用数据库对象就可以查询表了.from pymongo import MongoClient​#建立数据库连接对象 client = MongoClient('mongodb://45.76.206.145:27017')​db = client.spider # 建立数据库对...

2019-03-10 20:42:14 114

原创 pandas数据结构之numpy

-- 综述 numpy主要用于进行运算 dataframe更切合于业务逻辑 -- numpy的创建, 传入多维数组或者使用routines函数创建 import numpy as np test = np.array([[1,2,3],[4,5,6]]) -- routines函数创建 ...

2019-03-03 21:21:28 151

原创 全球国家中英文对照

"阿富汗" : "Afghanistan""奥兰群岛" : "Aland Islands""阿尔巴尼亚" : "Albania""阿尔及利亚" : "Algeria""美属萨摩亚" : "American Samoa""安道尔" : "Andorra"&quo

2019-01-18 15:18:13 1973

原创 常见的反爬策略汇总

1. 限制IP地址单位时间的访问次数2. 用户登录才能访问网站内容, 若识别为爬虫账号,封禁IP3. header, User-Agent检查用户所用客户端的种类和版本, 在请求头中加入CSRF_token识别用户请求(参考form表单验证)4. Referer, 检查请求由哪里来,通常可以做图片的盗链判断5. Cookies,检测Cookie中session_id 的使⽤用次数,如果超过...

2019-01-17 14:12:05 2250

原创 推荐系统多样性

传送门 http://www.doc88.com/p-0137412059454.html

2018-12-14 15:23:53 1163

原创 推荐系统冷启动等问题汇总

推荐系统冷启动问题冷启动问题简介冷启动问题主要分为三类  1.用户冷启动:如何给新用户做个性化推荐.  2.物品冷启动:如何将新的物品推荐给可能对它感兴趣的用户这一问题.  3.系统冷启动:如何在一个新开发的网站上设计个性化推荐系统. 解决方案:  1.提供非个性化的推荐:热门排行榜,当用户数据收集到一定的时候,再切换为个性化推荐.  2.利用用户注册时提供的年龄、性...

2018-12-14 14:06:20 445

原创 mysql数据库查询总结

查询语句的顺序:select +筛选列名(从表里拿[查出的表,级联的表])+[聚合]+from +表名 +[筛选条件]+[分组]+[筛选条件(having)] +[ 排序];-- where 字句构造的筛选是分组以前的筛选-- 如果希望对分组以后的数据进行筛选,就要写having字句而不是where字句-- 经验:在分组后使用 order by null 来避免默认的排序操作提升查询性能...

2018-07-28 14:25:18 447

原创 关于APP项目部署到服务器上的总结

uWSGI是一个Web服务器,它实现了WSGI协议、uwsgi、http等协议。Nginx中HttpUwsgiModule的作用是与uWSGI服务器进行交换。要注意 WSGI / uwsgi / uWSGI 这三个概念的区分。 WSGI是一种Web服务器网关接口。它是一个Web服务器(如nginx,apache,uWSGI等服务器)与web应用通信的一种规范。 uwsgi是一种...

2018-06-30 12:03:25 11486

原创 APP开发之用户登录注册与文件上传

文件上传和获取HTML页面的文件上传 在html页面中我们要有一个上传的文件选择框,同时表单(form)也要有enctype属性 <form action="" method="post" enctype="multipart/form-data"> {% csrf_token %} <input name="s_img" type="file&

2018-06-30 12:00:02 801

原创 cookie--session机制的理解

request 对象是Django提供的集成了浏览器请求数据,服务器数据(session等)的一个对象.url请求发出时,url里面的数据是浏览器创建的*******************************************************************session的本质:    虽然Session保存在服务器,对客户端是透明的,它的正常运行仍然需要客户端浏...

2018-06-30 11:58:41 193

原创 python3协程的工作原理

协程的执行环境你想要并发的执行同一类任务,且不想用多线程,那么协程是一个很好的解决方案.协程是并发的,等同于共享上下文环境的多线程.​实现协程就是要实现多个任务的循环,任务一直跑,每到一个地方await一次,然后await返回,直到最终全部返回,主程序结束。​调用协程​协程不能直接运行,需要把协程加入到事件循环(loop)。asyncio.get_event_loop方法可以创...

2018-06-30 11:51:25 4000

原创 JSON序列化与反序列化总结

查看一个函数的所有参数与定义: help(function)https://blog.csdn.net/sinat_41701878/article/details/79326664JSON格式序列化与反序列化:python 数据类型除了类,其他类型都有对应的JSON序列化后对应的格式,所以不能直接对python中的类进行序列化.(注)函数是不能序列化的当使用json.dumps与json.lo...

2018-05-26 18:23:19 1254

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除