自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (3)
  • 收藏
  • 关注

原创 python3方向键和删除键无法使用

最近一直在使用pyspark,一开始pyspark内置的python版本是python2,后来我把python的版本换成python3之后,方向键和删除键都用不了,解决方法如下1.安装realine这个包yum install -y readline-devel2.将python重新编译安装一次cd /usr/local/Python-3.6.4/./configure --p...

2018-09-11 10:10:41 2408

原创 pyspark设置python的版本

一般情况下,spark内置的python的版本是2的版本,现在我想把python的版本切换成3的版本,步骤如下(前提是所有节点都已经安装好python3)1.修改spark-env.sh文件,在末尾添加export PYSPARK_PYTHON=/usr/bin/python32.把修改后的spark-env.sh分发到其他子节点的spark安装包下的conf目录下3.修改spark安...

2018-09-10 15:07:37 12765 1

转载 彻底搞懂Python的字符编码

前言:中文编码问题一直是程序员头疼的问题,而Python2中的字符编码足矣令新手抓狂。本文将尽量用通俗的语言带大家彻底的了解字符编码以及Python2和3中的各种编码问题。一、什么是字符编码。要彻底解决字符编码的问题就不能不去了解到底什么是字符编码。计算机从本质上来说只认识二进制中的0和1,可以说任何数据在计算机中实际的物理表现形式也就是0和1,如果你将硬盘拆开,你是看不到所谓的数字0和1...

2018-09-03 11:50:45 481

原创 elasticsearch集群搭建

准备工作如表 2‑4所示,选取node1,node2,node3这3个节点构建ES集群。表 2‑4 ES集群节点信息 hosts ip 角色 node1 192.168.111.75 master,data node2 192.168...

2018-08-29 15:46:22 7558 2

转载 PyCharm搭建Spark开发环境 + 第一个pyspark程序

一, PyCharm搭建Spark开发环境Windows7, Java 1.8.0_74, Scala 2.12.6, Spark 2.2.1, Hadoop 2.7.6通常情况下,Spark开发是基于Linux集群的,但这里作为初学者并且囊中羞涩,还是在windows环境下先学习吧。参照这个配置本地的Spark环境。之后就是配置PyCharm用来开发Spark。本人在这里浪费了不...

2018-08-26 19:16:16 2047

原创 Linux下安装numpy

今天想使用pyspark的交互模式下执行from pyspark.mllib.regression import LabeledPoint时,报了下面这个错误,错误提示没有安装numpy下面介绍在Linux下安装python,步骤如下1.安装xz,wget软件yum install -y xz,wget2.下载安装包wget https://www.python.org/f...

2018-08-25 23:21:15 27324 1

原创 Spark设置任务个数

今天使用spark读取hive的数据,然后保存到es,数据总共有,数据量1g左右,代码如下所示 package datasourceimport org.apache.spark.{SparkConf, SparkContext}import org.elasticsearch.spark.sql.EsSparkSQLobject Data2ES { def main(arg...

2018-08-24 16:28:03 4176

原创 logstash将csv文件导入ES并根据时间字段分成多个表

现有数据如下所示,要求将该数据存储到es中,并且根据时间字段分成多个表使用logstash导入数据到ES,配置如下,使用数据中的时间字段作为logstash事件的时间戳导入结果如下所示 ...

2018-08-22 20:57:02 1584

原创 pyspark读取包含中文的文件,打印结果中文显示不正常

今天使用pyspark读取一份包含中文的文件时,通过take操作出来的结果中文显示不正常,如下图所示通过查询,发现此时pyspark的环境编码是ascii码,而Linux系统编码是utf-8重新设置pyspark的环境编码测试发现可以能否正常打印中文字符串,但是打印data.take(2)又不行,这是因为data.take(2)得到的是一个列表。此时可以用下面的命令进行...

2018-08-22 16:00:39 6801 2

原创 spark 单词计数

1、要进行单词计数的文件内容如下EnglishSparkI love Spark very much !Spark VS Hadoop2、单词计数spark scala代码package demoimport org.apache.spark.{SparkContext,SparkConf}object WordCount{  def mai

2016-11-30 19:34:52 1291

原创 spark的安装配置

1. 通过xmanager的Xftp上传spark-1.4.1-bin-hadoop2.6.tgz文件到/usr/local目录2. 解压缩spark-1.4.1-bin-hadoop2.6.tgz文件tar -zxf spark-1.4.1-bin-hadoop2.6.tgz -C /usr/local解压后即可,看到/usr/local/spark-1.4.1-bin-ha

2016-11-30 14:26:42 255

原创 八皇后问题

八皇后问题,是一个古老而著名的问题,是回溯算法的典型案例。该问题是国际西洋棋棋手马克斯·贝瑟尔于1848年提出:在8×8格的国际象棋上摆放八个皇后,使其不能互相攻击,即任意两个皇后都不能处于同一行、同一列或同一斜线上,问有多少种摆法。scala解法def nqueen(n:Int) : Set[List[Int]] ={  def placeQueen(k:Int) :Set

2016-11-30 11:18:02 290

转载 MySQL中的多表连接

现有表R,S如下:笛卡尔积select * from R,S; 结果:注:不需要任何条件。结果为两张表函数相乘(3x3=9)。  连接类型分为三种:交叉连接、内连接、外连接。 交叉连接 cross join没有where子句的交叉连接将产生连接表的笛卡尔积。 select * from R cross jo

2016-11-29 21:23:09 316

原创 大数据挖掘面试

昨晚,我去了广东才略金融信息科技有限公司进行面试,他们先让我用Java做了一道题笔试题目:凯兰高每周都会举行康体活动,一般是分成几组进行对抗,现在想设计一个算法,来进行随机分组,假设员工都保存在一数组里面Array["a1","a2","a3","a4"..."an"],分组数目为k,代码写出算法并分析其时间复杂度下面是我做的答案package demo;import java

2016-11-22 10:46:28 1101

原创 通用mr,hbase表导入hbase

1、   创建两个表table1,table2create 'table2',{NAME => 'cf1',VERSIONS => 3},{NAME => 'cf2',VERSIONS => 3}create 'table1',{NAME => 'cf',VERSIONS => 3}2、   向表table1中插入数据hbase(ma

2016-11-19 21:24:33 919

原创 将hdfs上的数据传入hbase表中

1、hdfs上的数据1;30;"unemployed";"married";"primary";"no";1787;"no";"no";"cellular";19;"oct";79;1;-1;0;"unknown";"no"2;33;"services";"married";"secondary";"no";4789;"yes";"yes";"cellular";11;"may";220;

2016-11-17 09:30:55 1095

原创 hbase shell

HBaseshell1、  启动hbase shell(1)   确保hadoop 、zookeeper启动(2)   确保hbase启动(3)   执行hbase shell命令(在已经配置环境变量的情况下)2、  查看表(1)listhbase(main):001:0> list 'test'TABLE                              

2016-11-16 10:04:06 297

原创 hbase架构原理

架构原理1、  每个region由一个RegionServer负责,一个RegionServer负责多个region2、  StandbyHMaster 是HMaster的一个备份,如果HMaster宕掉,Standby HMaster会变成HMaster3、  主节点服务管理RegionServer   HMaster功能:协调数据库元数据(例如:表)变化监控RegionSe

2016-11-16 09:51:28 586

原创 配置hbase

配置HBase1.通过xmanager的Xftp上传hbase-1.1.2.tar.gz文件到/opt目录2.解压缩hbase-1.1.2.tar.gz 文件tar-zxf hbase-1.1.2.tar.gz -C /usr/local解压后即可,看到/usr/local/hbase-1.1.2文件夹 3.配置hbase进入目录:cd/usr/local/hb

2016-11-16 09:47:55 295

原创 Zookeeper

ZookeeperZookeeper分布式服务框架是Apache Hadoop 的一个子项目,它是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等配置Zookeeper集群1.下载Zookeeper-3.4.6.tar.gz2.解压3.进入/usr/local/zookeeper-3.4.6/co

2016-11-16 08:57:18 265

原创 hbase基础知识

HBase基础(Hadoop DataBase)1、HBase是一个开源的(可以查看源码)、非关系型的、分布式的、列导向的数据库2、以Google BigTable为原型3、把HBase想象成一个连续的、分布式的、多维度的并且排序的Map4、(row key,columnfamily,column,timestamp)                      Value

2016-11-16 08:56:04 403

在Ubuntu上配置Hadoop集群

这个文档介绍如何在Ubuntu上搭建Hadoop集群,亲自搭建过,跟着步骤走,很容易就搭建成功

2018-09-20

elasticsearch-spark_2.10-2.3.2.jar

ES-Spark插件,使用该插件可以使用Spark向ES插入数据或者使用Spark读取ES的数据

2018-09-20

hadoop配置

2016-10-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除