忘川风华录-CSDN博客

原创如何在IDEA创建scrapy工程

进入doc输入activate 然后进入你想创建scrapy工程的文件输入以下代码scrapy startproject 项目名工程创建结束之后会有这几个文件和文件夹如下图的进入有个cfg文件的目录，以后操作都是在这个目录下比如创建Sprders和爬虫等等。。计入air_quality文件里面，开始是下面这样：下面来介绍下几个主要的文件 1.items.py这个...

2019-01-09 17:20:28 3527 1

原创字符串和字符编码

由于计算机是美国人发明的，因此，最早只有127个字符被编码到计算机里，也就是大小写英文字母、数字和一些符号，这个编码表被称为ASCII编码，比如大写字母A的编码是65，小写字母z的编码是122。但是要处理中文显然一个字节是不够的，至少需要两个字节，而且还不能和ASCII编码冲突，所以，中国制定了GB2312编码，用来把中文编进去。因此，Unicode应运而生。Unicode把所有语言都...

2019-01-09 17:19:56 2388

原创使用Python进行数据分析--------------NumPy基础：数组和矢量计算

NumPy（Numerical重点内容 Python的简称）是Python数值计算最重要的基础包。大多数提供科学计算的包都是用NumPy的数组作为构建基础。NumPy的部分功能如下： - ndarray，一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。 - 用于对整组数据进行快速运算的标准数学函数（无需编写循环）。 - 用于读写磁盘数据的工具以及用于操作...

2019-01-09 17:19:35 1043

原创 spark调优

首先我们应该对spark的UI界面很熟悉，因为只是看输入日志能难判断出程序在哪里耗费时间比较长，一般是从两点判断一是序列化,如果序列化时间过长，肯定不行，二是GC，gc时间过长肯定也不行...

2019-01-09 17:18:49 193

原创 spark读取文件夹下的文件名称

我之前遇到过处理日志文件的是文件里面没有日期，日期在文件名上，后来我就上网上搜了搜，发现spark并没有对文件名有过多的解释，但是看到一些文章写的是spark对文件名的操作，领略了下，把自己的想法写出来给大家看看 def get_hdfs_dir(input: String, sc: SparkContext): Array[String] = { //创建[LongWritabl...

2018-12-16 10:13:15 4739

原创 spark远程操作hive的一些列操作增删查

因为老早之前配置hive的时候没有把hive的底层计算引擎改为spark，现在对hive的表进行查询的时候很慢，就想把MR换掉，于是这篇文章就诞生了，首先做准备工作，你需要把hive的hive-site.xml拷贝到你的集群的spark目录下还要在你的win上创建一个resources把这个文件拷贝之后接着就是你吧mysql的jar拷贝到你工程的存放jar的目录下，然后拷贝到spark/j...

2018-12-08 17:31:31 1690

原创 hadoop的心脏---shuffle详解

为了依旧将来回答面试官的问题这个图片就是mapreduce的流程图然后是map：首先我们应该知道默认情况下map的数量是由inputsplit(就是输入分片)的数量决定,然后一个map对应一个环形缓冲区，缓冲区的大小默认是100M然后阈值时80%，到达阈值的时候需要溢写到磁盘，在溢写前需要进行分区，然后对每个分区的数据进行排序，排序后这时combiner的话会进行该操作，对于溢写的数据会...

2018-12-06 20:59:27 200

原创 This type(GenericTypeorg.myorg.quickstart.SocketWindowWordCount.WordWsdithCount)cannotbeusedas

如果你是看的这个官方SocketWindowWordCount 的代码哈哈哈，亲们报这个错的童鞋注意了，基础知识要掌握牢固啊我就犯了一个这样的错误，需要自己定义一个JAVABEAN的时候忘记写入无参构造参数了，然后下面这是加入了的了划红线的部分：这都是之前写spark程序习惯了，哎学习知识不能一味的往前走，应该时不时的回头复习复习...

2018-12-05 21:28:20 1422

原创 2.0的spark的是是如何比1.0的快10-100倍

从三点来理解1.更简单支持标准的SQL和简化的API一，在编程API方面，spark简化了API二，统一了Scala/java下的Dataset和DataFraeam三，只需要创建sparksession不再需要创建sparkcontext等系列的初始化对象四，支持一些管道的持久性和一些R的分布式算法首先我们要明白sparksql处理结构化数据和非结构化数据的方法，对于...

2018-11-26 11:32:29 2749

原创 spark源码分析and结构拆解（1）——消息通信原理！！

消息通信原理主要分为三大部分-------------------------------------------1.spark消息通信架构---------------------------------------------------- spark在各个模块中间例如Master，Worker这些东西，一般都是使用Rpc的静态方法创建RpcEnv实例，然后实例化master，...

2018-11-26 11:32:17 2274 1

在阅读完最早之前的帖子（点击打开链接）说了如何理解RDD和什么是RDD和对一些基础的术语的解读示例，然后我又发了一份如何创建RDD（点击打开链接）我们这节课来学学习火花的一些对RDD的转换操作，转换操作就是不会真的进行分布式计算，而是将RDD从一种状态转换到另外一种状态，延迟计算，当一个RDD转换成另一个RDD时并没有立即进行转换，仅仅是记住了数据集的逻辑操作，转换操作大致分为以下两种形式我们着重...

2018-11-26 11:32:08 3792

原创 linux中HADOOP_HOME和JAVA_HOME清除掉但是依然有效解决方案！！！！

场景：在平时我们学习或者开发的时候有时候会遇到当我们升级jdk的时候会发现升级之后依然还是以前的版本（HADOOP_HOME也是一样）然我很苦恼！！！然后从大佬那里听来了一个有效的解决方案！！有两个第一：关机重启！！！（小白程序员专用）在使用服务器的时候千万不要这么玩，会挨打的！！！第二：unset（屌丝程序员专用）unset命令它可以取消设置一个shell变量，从内存...

2018-11-21 09:55:52 2671

原创使用SimpleDateFormat将日志文件的时间转换为自定义类型的时间

大家能点进来看说明大家有对时间格式进行重新修改的想法，话不多说首先应该根据你的时间格式和目标时间格式来定义两个变量 //原始数据时间:11/05/2017:00:01:02+0800 val fm = new SimpleDateFormat("dd/MMM/yyyy:HH:mm:ss",Locale.ENGLISH) //目标日期格式：2017-05-11 15:25:0...

2018-11-15 14:34:01 383

原创解析IP地址对应的地区

因为这次的自己的项目中遇到了这种需求，本来是想直接调用百度地图的接口，但是百度一天只能请求一千次好像，不太好，所以我在网上搜了搜，整理的一篇帖子，也是防止以后再工作中遇到类似需求方便解决，我是调用别人写的好的库然后直接打包的，把项目包用git克隆到本地然后直接编译成jar包，这里我已经编译好了，直接点击下载IP地址解析库下载下载并且解压之后目录格式是这我们需要的jar包就在target里面，点进...

2018-11-11 14:52:11 11853 2

原创 flume整合kafka外加操作代码及配置文件！！亲测有效

我这次写的是我在学习完flume和kafka之后做的一个Demo，而且在flume采集完成之后，加上一个kafka能起到消峰缓冲的效果首先需要的两大组件及其版本Kafka2.11 Flume1.7 (jdk1.8 scala2.11)当然具体的安装我就不做过多的解释了，我是在本地的idea使用log4j自己创建信息：在此之前我们需要创建一个properties文件（...

2018-11-07 13:42:52 1678

原创 Kafka下载安装及部署

一、环境配置操作系统：Cent OS 7Kafka版本：0.10.0.0JDK版本：1.8.0_51二、操作过程1、下载Kafka并解压解压：tar zxvf kafka_2.11-0.10.0.0.tgz2、Kafka目录介绍/bin 操作kafka的可执行脚本，还包含windows下脚本/config 配置文件所在目录/libs 依赖库目录/logs 日志数...

2018-11-06 15:54:50 2645

原创为什么我的消费者只能拿到生产者产生一部分partition的消息！！！原因在这里！！！

能进来看这篇帖子的，说明你已经看过kafka的消费者是怎么样分配partition的。只是你没有把知识活学活用而已

2018-10-30 19:26:10 1127

原创使用sparkSQL2.x读取MySQL方法和配置问题

读取数据之前需要你pc上有mysql，有了mysql之后你需要知道详细的配置信息例如账号和密码以及数据库下的表和表结构，你还有要连接驱动（点此下载https://download.csdn.net/download/qq_36968512/10471651） 1.首先你需要创建sparksession 2.设置一个map集合把JIDBC的链接配置放上去 3.使用SparkSession的方法...

2018-10-17 11:04:20 3063 5

原创小菜niao解说-----数据仓库和数据库

我相信会在百度上搜索什么是数据仓库或者搜索数据库和数据仓库的区别的时候，大家都是对数据库有了一定了解了（本人反正是这样的，哈哈！！），所以就不再介绍什么是数据库了，我先给大家大家家讲讲什么是数据仓库：数据仓库，是为了企业所有级别的决策制定计划过程，提供所有类型数据类型的战略集合。它出于分析性报告和决策支持的目的而创建。为需要业务智能的企业 ,为需要指导业务流程改进、监视时间，成本，质量以及控制...

2018-10-14 17:21:51 771

原创 spark处理中文乱码问题！！|��| | �㶫| | �Ϻ�| |��| |��| |��|

既然能看见这篇文章，说明你遇到是乱码问题，具体问题咱们就不再分析了，直接来看为什么乱码，如何不让它乱码首先咱们分析为什么会乱码，首先因为spark没有自己读取文件的方式所以它采用了hadoop的读取文件的方式，因为日志的格式是GBK编码的，而hadoop上的编码默认是用UTF-8，导致最终输出乱码。所以咱们应该制定编码格式是GBK的，下面通过一个案例来表示直接读取和指定方式读取的结果差别，以及...

2018-09-08 10:39:17 13113 1

原创 IP地址转换成Long型数字算法和原理（全网最细！！）

将ip地址转换成数字地址的时候是我做一个归属地查询的项目是碰见的，开始我并不明白将IP转换成数字地址的原理，可能老师上课讲了但是没有好好听，我觉得想理解下面算法就应该理解IP地址和数字地址的原理（菜鸟专用(^_^)） IP地址一般是一个32位的二进制数意思就是如果将IP地址转换成二进制表示应该有32为那么长，但是它通常被分割为4个“8位二进制数”（也就是4个字节每，每个代表的就是小于2的8...

2018-09-07 11:51:23 20556 4

原创关于解决使用sqoop导出数据到mysql中文乱码问题！！！

当我们使用mysql的时候一般情况下都会出现乱码情况，出现这种情况的主要原因一般就是导入的数据和mysql数据的原始编码方式不同造成的，下面就是我的乱码案例：咱们先看下自己的编码表一般输入下面这个命令：show variables like 'character%';能查看到以下内容不管你的是不是和上面这张表一样，但是一定在你修改之后要和下面这张表一样，所以在你对...

2018-08-14 15:17:36 6039 2

原创 MongoDB配置复制集和分片！！！

首先在确保你的电脑安装过mongodb和把mongodb的bin目录写到path里面并且成功运行过的情况下来操作如下步骤复制集：1同一个文件夹下面写入新建三个文件夹如下图类似与这种，然后再每个文件下新建立两个文件（nodex对应datax和logx）和一个win的可执行文件（PS：可执行文件就是你新建立一个txt的文件然后保存的直接把后坠名改为.bat）然后再编辑可执行文件在其中写...

2018-08-14 15:17:30 6892

原创关于centos完美安装MYSql数据库！！！（不看肯定后悔的一定后悔！！！！

刚刚入门linux的是的小白们好多都不明白是怎么一回事，但是你用的时间长了，就会发现linux真的很好用，废话不说了，直接开始正题！！！1.centos7一般会自带数据库所以大家在安装的一定要先卸载这个自带的数据库！输入下面命令：rpm -qa|grep mariadb会出现和mariadb相关的依赖记住都要卸载！！使用下面命令：rpm -e --nodep...

2018-08-14 15:17:21 5183 4

原创 Spark的低成本安装（win） and 三节点集群安装（linux）

我这里给出两种安装spark的方式，一种是在win上安装另一种就是在linux集群上安装，前一种安装方式是一种低成本的安装没有shell界面，非常适合入过门的小白练习自己对spark的业务处理能力，而且这种安装方式能对电脑省去一大笔的cpu所以个人比较喜欢，第二种安装方式就是和之前安装hadoop的方式基本一样，比于第一种安装方式多了shell界面，所以就不过多介绍方式一,首先去官网下载安...

2018-08-14 15:17:00 2334

原创 spark怎么创建RDD，一个创建RDD的方式有哪些它们的区别是什么！！（Unit2）

spark的编程接口包括1.分区信息，数据集的最小分片（1）Patitions（）用法： scala> val part=sc.textFile("/user/README.md",6)part: org.apache.spark.rdd.RDD[String] = /user/README.md MapPartitionsRDD[9] at textFile at ...

2018-08-14 15:16:39 7191

原创 error: Microsoft Visual C++ 14.0 is required.CommandCommand "g:\anaconda3\python.exe -u -c "import s

如果在安装python模块的时候报错的话类似下面这些error: Microsoft Visual C++ 14.0 is required. Get it with &quot;Microsoft Visual C++ Build Tools&quot;: http://landinghub.visualstudio.com/visual-cpp-build-toolsCommand &quot;g:\anaco...

2018-08-04 17:38:52 3640

原创 sparkSQL基础之-----------2.0以前的sql创建

我这里创建的方式就是两种一，通过RDD和case class的关联来进行创建1.创建SparkConf和SparkContext val conf=new SparkConf() .setMaster("local") .setAppName("old_sparkSql") val sc=new SparkContext(conf)2.创...

2018-07-28 11:38:04 2322

原创 spark概念详解以及四大核心介绍！！！

Spark特点：大数据分布式计算框架，内存计算分布式计算内存计算中间结果在内存迭代容错性多计算范式四大核心扩展功能： Spark SQL：Sql on hadoop系统,提供交互式查询、能够利用传统的可视化工具在Spark上进行类似SQL的查询操作，报表查询等功能 GraphX：图计算引擎，大规模图运算，pagerank MLlib：聚类分类分类推荐等机器学习算法*Applicatio...

2018-06-19 15:12:17 7380

原创 spark的一些难以理解的概念和一些知识点的解读（高频考点！！）（Unit1）

这篇文章是对于还没有入门和刚刚入门的spark小白提的，大佬可以给出意见，本人接受！！！关于RDD部分，首先你要知道什么什么RDDRDD字面意思就是弹性分布式数据集。。。。。。。（百度一下都是这种字眼很让人反感）个人感觉应该要分开理解1。弹性 1. RDD可以在内存和磁盘之间手动或自动切换（后续会仔细讲解） 2. RDD可以...

2018-06-12 16:49:21 3997 1

原创小白spark学习感悟 AND spark两大版本的比较！！！

Spark2.x 与 Spark1.x 关系Spark2.x 引入了很多优秀特性，性能上有较大提升，API 更易用。在“编程统一”方面非常惊艳，实现了离线计算和流计算 API 的统一，实现了 Spark sql 和 Hive Sql 操作 API 的统一。Spark 2.x 基本上是基于 Spark 1.x 进行了更多的功能和模块的扩展，及性能的提升。Spark2.x 新特性1). SparkCo...

2018-06-04 20:18:09 9111 1

ip地址解析库

里面放的是我解析IP地址调用的库，使用这个库直接可以根据IP地址查看对应的城市信息

2018-11-11

hadoop权威指南的源码

一共十几章的案例代码，这里面放的都是hadoop权威指南的代码案例，和所需要的数据，有需要的可以下载

2018-10-14

一个很牛逼的spark项目连接

这个项目涵盖了javaweb和大数据生态圈的一些技术，对从共享单车的初始页面和充值页面和扫码页面进行讲述，通过大数据技术对车子进行定位和推荐很全的一个项目

2018-10-10

本人的spark项目代码以及数据，请下载查看

这个里面装的是本人写的一个关于广告精准投放的一个spark项目，实现语言的是scala，然后里面有代码和注释，还有需要的操作的日志文件，东西很齐全