自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 Scrapy实现动态调试和同时启动多个爬虫

我的博客原文链接一般启动方式scrapy crawl spider_name命令行启动好处是灵活方便, 可以通过传递参数的形式控制爬虫的行为和输出。 参见官方文档比如你可以配置爬虫采集到数据的输出方式:scrapy crawl dmoz -o items.json但是它的缺点也很明显:原子性太强,不方便动态调试代码当需要启动多个爬虫时,不方便操...

2018-04-15 14:24:56 2211

原创 Python3下Scrapy环境的搭建

升级Python3之前使用Scrapy开发爬虫都是在Python2的环境下进行,最近有看到有些工具包宣称不再对Python2提供更新和维护, 可以看出Python3是发展的趋势。而早前Scrapy已经支持了Python3这让我意识到必须尽快将我的工作环境迁移到Python3, 毕竟习惯是很可怕的一件事。尝试环境: * Win7 * Python3.5.2依靠直觉我们会利用pip工具直接安装Scr

2018-04-09 12:48:42 964

原创 HTTPS 环境搭建

申请证书登录阿里云管理控制台CA证书服务 -> 购买证书选择 免费型DV SSL 品牌 Symantec购买 -> 支付回到步骤2证书服务控制台补全域名信息等待审核成功下载证书登录证书服务控制台,找到到对应证书点击下载。得到两个证书文件:214448811130415.key、 214448811130415.pem在Nginx安装目录下创建一个文件夹将其放入,我这里是:[r

2018-04-09 12:47:28 798

原创 Scrapy中扩展(Extension)的定义

先看一个例子class MyCustomStatsExtension(object): """ 这个extension专门用来定期搜集一次stats """ def __init__(self, stats): self.stats = stats self.time = 60.0 @classmethod def fro

2018-04-09 12:45:57 1891

原创 Hive常用操作

创建表简单的建表create tablespec_table_from_textfile( id bigint, table_code string, table_name string, table_common string, column_code string, column_name string, column_common string)从查询结果创建表c

2018-04-09 12:44:26 268

原创 Spark-DataFrame

Spark早期的API中(即RDD),由于Java JVM和Py4J之间的通信,每当使用RDD执行PySpark程序时,潜在地需要巨大的开销来执行作业。DataFrame和Catalyst优化器(以及Tungsten项目)的意义是在和非优化的RDD查询比较时增加PySpark查询的性能。使用DataFrame,过去不仅有明显的Python性能改进,现在还有Python、Scale、SQL和R之间的性

2018-04-09 12:43:16 723 3

原创 Spark基本操作-sc

创建 SparkSessionfrom pyspark.sql import SparkSessionspark = SparkSession.builder \ .appName("Word Count") \ .getOrCreate()构建 scfrom pyspark.sql import SparkSessionspark = SparkSession.builder \

2018-04-09 12:42:25 8902

原创 Spark简单认识

什么是SparkSpark 是一个开源的分布式查询和处理引擎。提供MapReduce的灵活性和扩展性:当数据存储在内存时比Apache Hadoop快100倍访问磁盘时高达10倍允许用户读取、转换、聚合数据,还可以训练部署复杂的统计模型。 Java、Scala、Python、R、SQL都可以访问Spark API。Spark 提供了几个已经实现并调优过的算法、统计模型和框架:机器学习-ML

2018-04-09 10:26:49 443

原创 爬虫初探,获取一个页面

环境Win7+Python2.7urllib+urllib2[!] urllib模块和urllib2模块的区别 urllib2可以接受一个Request类的实例来设置URL请求的headers,urllib仅可以接受URL。 urllib提供urlencode方法用来GET查询字符串的产生,而urllib2没有。工作流程定位需要爬取的页面,糗事百科首页...

2017-06-25 09:27:51 1320

原创 100行C代码实现字符打印汉诺塔

#include <stdio.h>/*-------------------------------------------\| 仅供于实现功能,看情况自己再添加延时函数等实现动画效果 |\-------------------------------------------*//*定义每个柱子的数据结构-->数组*/int zhuzi_a[]={0,0,0,0,0,0,0,0,0,0};

2017-06-14 19:53:43 468

原创 Ubtuntu安装mysql-devel

在阿里主机云安装 mysql-devel ,没找到包,便在网上下载一个 ·MySQL-devel-5.6.14-1.el6.x86_64.rpm RPM包。但是在用 rpm -i MySQL-devel-5.6.14-1.el6.x86_64.rpm 安装时提示:rpm: RPM should not be used directly install RPM packages, use Alien

2017-04-17 16:57:26 1951

原创 JavaScript 学习笔记

笔记摘录自廖雪峰的官方网站入门基本语法赋值: 下面的一行代码就是一个完整的赋值语句:varx=1;数据类型:Number:JavaScript不区分整数和浮点数,统一用Number表示,以下都是合法的Number类型:123;//整数1230.456;//浮点数0.4561.2345e3;//科学计数法表示1.2345x1000,等同于1234.5-99;//负数NaN;//NaN表示No

2017-01-17 15:08:57 756

原创 Git操作基础

本篇为廖雪峰的官方网站Git教程的学习笔记,完整版可链接去学习。版本库的创建初始化一个Git仓库,使用git init命令。添加文件到Git仓库,分两步:第一步,使用命令git add <file>,注意,可反复多次使用,添加多个文件;第二步,使用命令git commit -m "注释",完成。版本管理要随时掌握工作区的状态,使用git status命令。如果git status告诉你有文件被

2016-12-16 09:54:13 331

原创 CentOS7系统网络配置基础

网络管理命令检查网络是否畅通及连接速速 ping -c 指定发送包数 -i 指定ping包间隔时间(默认1s) -s 指定包长度单位为 byte显示接口状态 ifconfigeno16777736: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500 inet 192.168.23.130 netmask 25

2016-11-03 17:19:50 4214

原创 彻底搞清楚 dB 和 dBm

dB 的定义dB 是一个纯计数单位:dB = 10logX。 * X = 1000000000000000 = 10logX = 150 dB * X = 0.000000000000001 = 10logX = -150 dBdB的概念引入到电路中,是功率比值取对数(注意:是功率比),再乘以10倍.dBm 的定义dBm 定义的是毫瓦(miliwatt)。 0 dBm = 10log1 mw;

2016-08-29 10:41:05 11372

原创 windows下Java使用RXTX的安装与配置

编写一个电脑与单片机通过串口通信的上位机软件是我的一个心愿,但是在完成这个心愿的路上花费了不少心力,我还记得在C#中直接有控件可以使用,但是在JAVA中则没那么简单。一般来说有如下串口包可供选择SUN在1998年发布的串口通信API:comm2.0.jar(Windows下)、comm3.0.jar(Linux/Solaris)提供串口和并口通信的开源java类库RXTX一开始我选择的是 co

2016-07-27 15:14:46 6374

原创 正则表达式基础

语法格式[:alnum:]代表英文大小写字母及数字 [:alpha:]代表英文大小写字母[:blank:]代表空格和 tab 键[:cntrl:]键盘上的控制按键,如 CR,LF,TAB,DEL[:digit:]代表数字[:graph:]代表空白字符以外的其他[:lower:]小写字母[:print:]可以被打印出来的任何字符[:punct:]代表标点符号[:upper:]代表大写

2016-07-25 09:17:09 424

原创 MySQL入门知识_实验楼

基本指令查看数据库show databases;创建数据库creat database <数据库名称>;连接数据库use <数据库名称>;查看所连接数据库中的表show tables;在所连接数据库中创建表creat table <表名称> ( <列1> <数据类型>(所占字节), <列2> <数据类型>(所占字节), ... <列n> <数据类型>(所占字节));在

2016-07-08 11:26:29 1496

原创 Launchpad 移植printf和scanf,以及对超级终端交互的优化

前言printf,scanf只负责格式化输入输出的字符,他们分别依靠getchar和putchar函数,只要实现在单片机上的getchar函数和putchar函数,并且头文件包含stdio.h即可正常使用printf函数和scanf函数。第一步,配置UART及初始化模块/**UART模块初始化函数*/void Uart_Init(void){ //-----开启IO口的TXD和RXD功能

2016-06-29 11:05:07 892

原创 代码 P1SEL2产生的疑问

使用launchpad MSP430G2553 过程中在官方文档里看到这句P1SEL2 = BIT1 + BIT2; 代码。 懵懂的我一开始没搞懂为什么会有P1SEL2,因为之前用过的MSP430F系列都没有( ⊙ o ⊙ )啊!直到在官方文档里看到这张表: 原来配置引脚功能为复用串口功能需要用到两个寄存器位的配合! 好吧(∩_∩)

2016-06-21 16:50:14 1647

原创 launchpad MSP430G2553 软件UART和硬件UART及跳帽的设置

缘起在使用launchpad MSP430G2553的板子之前,我用了launchpad MSP430G2452的板子。令我感到头疼的是,本来我想用launchpad串口通信做一个简单地可以通过超级终端和电脑交互的项目,但结果是launchpad MSP430G2452 并没有完整的UART模块,所谓的串口通信是通过定时器A和软件代码配合所产生的软件UART,于是恼火的我放弃了launchpad M

2016-06-21 10:11:45 4704

原创 Win7下MSP430 launchpad 驱动无法安装的问题

缘起最近把launchpad拿到我的32位Win7操作系统的电脑上来用,按道理我已经安装了IAR驱动会自动安装,或者我手动指定目录D:\Program Files\IAR Systems\Embedded Workbench 7.3\430\drivers\TIUSBFET\Win7-32安装即可,但是还是出现以下的问题: 问题的解决在21ic电子网搜索到了一篇帖子提供了解决方案: 在于win

2016-06-20 09:44:51 3465

原创 Java入门笔记_实验楼

Java 是一种面向对象的语言在 Java 这门语言体系当中,最基础的部分就是 Java SE 部分,同时它也是 Java 技术基础和核心,在 Java SE 的基础之上,又分为了 Java EE(Java 的企业版),应用于大型企业级应用的开发。Java ME 主要用于嵌入式开发。初学的时候我们都是从 Java SE 开始的。 JVM 叫 Java 虚拟机,它也是整个 Java 技术的核心。Jav

2016-06-17 17:45:33 477

原创 JAVA环境变量的配置

到官网下载适配自己操作系统的安装文件请移步到这里安装完成后需配置环境变量1.我的电脑->右击选择属性->点击高级系统设置->在高级的标签中点击环境变量按钮->在下面的系统变量进行配置2.以我的电脑为例 我的JAVA安装在D:\Java\jdk1.8.0_91,那么我的JAVA_HOME(没有则新建)变量需要配置为D:\Java\jdk1.8.0_913.CLASSPATH 需要配置为.;D:\Jav

2016-06-16 15:45:45 411

原创 linux 入门笔记_实验楼

基本按键及命令操作按键 作用 Ctrl+d 键盘输入结束或退出终端 Ctrl+s 暂定当前程序,暂停后按下任意键恢复运行 Ctrl+z 将当前程序放到后台运行,恢复到前台为命令fg创建文件touch例: touch test.c touch lesson_{1..10}.txt 查看当前目录下的文件ls例: ls -a //显示所有文件包括隐

2016-06-16 15:21:24 1036

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除