abc_321a-CSDN博客

原创 python3方向键和删除键无法使用

最近一直在使用pyspark，一开始pyspark内置的python版本是python2，后来我把python的版本换成python3之后，方向键和删除键都用不了，解决方法如下1.安装realine这个包yum install -y readline-devel2.将python重新编译安装一次cd /usr/local/Python-3.6.4/./configure --p...

2018-09-11 10:10:41 2408

原创 pyspark设置python的版本

一般情况下，spark内置的python的版本是2的版本，现在我想把python的版本切换成3的版本，步骤如下（前提是所有节点都已经安装好python3）1.修改spark-env.sh文件，在末尾添加export PYSPARK_PYTHON=/usr/bin/python32.把修改后的spark-env.sh分发到其他子节点的spark安装包下的conf目录下3.修改spark安...

2018-09-10 15:07:37 12765 1

转载彻底搞懂Python的字符编码

前言：中文编码问题一直是程序员头疼的问题，而Python2中的字符编码足矣令新手抓狂。本文将尽量用通俗的语言带大家彻底的了解字符编码以及Python2和3中的各种编码问题。一、什么是字符编码。要彻底解决字符编码的问题就不能不去了解到底什么是字符编码。计算机从本质上来说只认识二进制中的0和1，可以说任何数据在计算机中实际的物理表现形式也就是0和1，如果你将硬盘拆开，你是看不到所谓的数字0和1...

2018-09-03 11:50:45 481

原创 elasticsearch集群搭建

准备工作如表 2‑4所示，选取node1,node2,node3这3个节点构建ES集群。表 2‑4 ES集群节点信息 hosts ip 角色 node1 192.168.111.75 master,data node2 192.168...

2018-08-29 15:46:22 7558 2

转载 PyCharm搭建Spark开发环境 + 第一个pyspark程序

一, PyCharm搭建Spark开发环境Windows7, Java 1.8.0_74, Scala 2.12.6, Spark 2.2.1, Hadoop 2.7.6通常情况下，Spark开发是基于Linux集群的，但这里作为初学者并且囊中羞涩，还是在windows环境下先学习吧。参照这个配置本地的Spark环境。之后就是配置PyCharm用来开发Spark。本人在这里浪费了不...

2018-08-26 19:16:16 2047

原创 Linux下安装numpy

今天想使用pyspark的交互模式下执行from pyspark.mllib.regression import LabeledPoint时，报了下面这个错误，错误提示没有安装numpy下面介绍在Linux下安装python,步骤如下1.安装xz,wget软件yum install -y xz,wget2.下载安装包wget https://www.python.org/f...

2018-08-25 23:21:15 27324 1

原创 Spark设置任务个数

今天使用spark读取hive的数据，然后保存到es，数据总共有，数据量1g左右，代码如下所示 package datasourceimport org.apache.spark.{SparkConf, SparkContext}import org.elasticsearch.spark.sql.EsSparkSQLobject Data2ES { def main(arg...

2018-08-24 16:28:03 4176

原创 logstash将csv文件导入ES并根据时间字段分成多个表

现有数据如下所示，要求将该数据存储到es中，并且根据时间字段分成多个表使用logstash导入数据到ES，配置如下,使用数据中的时间字段作为logstash事件的时间戳导入结果如下所示 ...

2018-08-22 20:57:02 1584

原创 pyspark读取包含中文的文件，打印结果中文显示不正常

今天使用pyspark读取一份包含中文的文件时，通过take操作出来的结果中文显示不正常，如下图所示通过查询，发现此时pyspark的环境编码是ascii码，而Linux系统编码是utf-8重新设置pyspark的环境编码测试发现可以能否正常打印中文字符串，但是打印data.take(2)又不行，这是因为data.take(2)得到的是一个列表。此时可以用下面的命令进行...

2018-08-22 16:00:39 6801 2

原创 spark 单词计数

1、要进行单词计数的文件内容如下EnglishSparkI love Spark very much !Spark VS Hadoop2、单词计数spark scala代码package demoimport org.apache.spark.{SparkContext,SparkConf}object WordCount{ def mai

2016-11-30 19:34:52 1291

原创 spark的安装配置

1. 通过xmanager的Xftp上传spark-1.4.1-bin-hadoop2.6.tgz文件到/usr/local目录2. 解压缩spark-1.4.1-bin-hadoop2.6.tgz文件tar -zxf spark-1.4.1-bin-hadoop2.6.tgz -C /usr/local解压后即可，看到/usr/local/spark-1.4.1-bin-ha

2016-11-30 14:26:42 255

原创八皇后问题

八皇后问题，是一个古老而著名的问题，是回溯算法的典型案例。该问题是国际西洋棋棋手马克斯·贝瑟尔于1848年提出：在8×8格的国际象棋上摆放八个皇后，使其不能互相攻击，即任意两个皇后都不能处于同一行、同一列或同一斜线上，问有多少种摆法。scala解法def nqueen(n:Int) : Set[List[Int]] ={ def placeQueen(k:Int) :Set

2016-11-30 11:18:02 290

转载 MySQL中的多表连接

现有表R,S如下：笛卡尔积select * from R,S; 结果：注：不需要任何条件。结果为两张表函数相乘（3x3=9）。连接类型分为三种：交叉连接、内连接、外连接。交叉连接 cross join没有where子句的交叉连接将产生连接表的笛卡尔积。 select * from R cross jo

2016-11-29 21:23:09 316

原创大数据挖掘面试

昨晚，我去了广东才略金融信息科技有限公司进行面试，他们先让我用Java做了一道题笔试题目：凯兰高每周都会举行康体活动，一般是分成几组进行对抗，现在想设计一个算法，来进行随机分组，假设员工都保存在一数组里面Array["a1","a2","a3","a4"..."an"]，分组数目为k,代码写出算法并分析其时间复杂度下面是我做的答案package demo;import java

2016-11-22 10:46:28 1101

原创通用mr,hbase表导入hbase

1、创建两个表table1,table2create 'table2',{NAME => 'cf1',VERSIONS => 3},{NAME => 'cf2',VERSIONS => 3}create 'table1',{NAME => 'cf',VERSIONS => 3}2、向表table1中插入数据hbase(ma

2016-11-19 21:24:33 919

原创将hdfs上的数据传入hbase表中

1、hdfs上的数据1;30;"unemployed";"married";"primary";"no";1787;"no";"no";"cellular";19;"oct";79;1;-1;0;"unknown";"no"2;33;"services";"married";"secondary";"no";4789;"yes";"yes";"cellular";11;"may";220;

2016-11-17 09:30:55 1095

原创 hbase shell

HBaseshell1、启动hbase shell（1）确保hadoop 、zookeeper启动（2）确保hbase启动（3）执行hbase shell命令（在已经配置环境变量的情况下）2、查看表（1）listhbase(main):001:0> list 'test'TABLE

2016-11-16 10:04:06 297

原创 hbase架构原理

架构原理1、每个region由一个RegionServer负责，一个RegionServer负责多个region2、 StandbyHMaster 是HMaster的一个备份，如果HMaster宕掉，Standby HMaster会变成HMaster3、主节点服务管理RegionServer HMaster功能：协调数据库元数据（例如：表）变化监控RegionSe

2016-11-16 09:51:28 586

原创配置hbase

配置HBase1.通过xmanager的Xftp上传hbase-1.1.2.tar.gz文件到/opt目录2.解压缩hbase-1.1.2.tar.gz 文件tar-zxf hbase-1.1.2.tar.gz -C /usr/local解压后即可，看到/usr/local/hbase-1.1.2文件夹 3.配置hbase进入目录：cd/usr/local/hb

2016-11-16 09:47:55 295

原创 Zookeeper

ZookeeperZookeeper分布式服务框架是Apache Hadoop 的一个子项目，它是用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等配置Zookeeper集群1.下载Zookeeper-3.4.6.tar.gz2.解压3.进入/usr/local/zookeeper-3.4.6/co

2016-11-16 08:57:18 265

原创 hbase基础知识

HBase基础（Hadoop DataBase）1、HBase是一个开源的（可以查看源码）、非关系型的、分布式的、列导向的数据库2、以Google BigTable为原型3、把HBase想象成一个连续的、分布式的、多维度的并且排序的Map4、（row key,columnfamily,column,timestamp） Value

2016-11-16 08:56:04 403

abc_321a的博客