自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 大数据中的用户画像——让机器懂用户

一、用户画像的定义用户画像(persona)的概念最早由交互设计之父Alan Cooper提出:“Personas are a concrete representation of target users.”是指真实用户的虚拟代表,是建立在一系列属性数据之上的目标用户模型。随着互联网的发展,现在我们说的用户画像又包含了新的内容和意义,通常用户画像是根据用户人口学特征、...

2019-07-25 21:12:53 399

原创 Sqoop学习之路 (一)

一、概述sqoop 是 apache 旗下一款“Hadoop 和关系数据库服务器之间传送数据”的工具。核心的功能有两个:导入、迁入导出、迁出导入数据:MySQL,Oracle 导入数据到 Hadoop 的 HDFS、HIVE、HBASE 等数据存储系统导出数据:从 Hadoop 的文件系统中导出数据到关系数据库 mysql 等 Sqoop 的本质还是一个命令行工具,和 HD...

2019-07-23 22:00:28 105

原创 大数据处理之如何确保断电不丢数据

在Hadoop 2.0.2-alpha之前,HDFS在机器断电或意外崩溃的情况下,有可能出现正在写的数据丢失的问题。而最近刚发布的CDH4中HDFS在Client端提供了hsync()的方法调用(HDFS-744),从而保证在机器崩溃或意外断电的情况下,数据不会丢失。这篇文件将围绕这个新的接口对其实现细节进行简单的分析,从而希望找出一种合理使用hsync()的策略,避免重要数据丢失。...

2019-07-23 21:24:02 757

原创 HDFS读写流程简介

前言:HDFS 是一个能够面向大规模数据使用的,可进行扩展的文件存储与传递系统。是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和 存储空间。让实际上是通过网络来访问文件的动作,由程序与用户看来,就像是访问本地的磁盘一般。即使系统中有某些节点脱机,整体来说系统仍然可以持续运作 而不会有数据损失。HDFS写流程:1.初始化FileSystem,客户端调用...

2019-07-14 19:04:57 129

原创 资源管理(大数据):Zookeeper、 Yarn原理

ZookeeperZookeeper是一个分布式协调服务,一个leader,多个follower组成的集群,就是为用户的分布式应用程序提供协调服务。Zookeeper是为别的分布式程序服务的。Zookeeper所提供的服务涵盖:主从协调、服务器节点动态上下线、统一配置管理、分布式共享锁、统一名称服务等。YarnYarn目标:YARN的目标就是实现“一个集...

2019-07-14 14:30:28 158

原创 Python安装MySQL库详解,步骤及错误的解决方法

本文主要讲述Python操作MySQL数据库,通过调用MySQLdb扩展包实现。而在安装过程中会遇到各种各样的错误,这里给出安装MySQL库的详细步骤及错误的解决方法。第一步:安装Python程序首先安装Python编程环境python-2.7.8.amd64.msi,如下图所示:默认安装在C:\python27路径,接下来我需要安装pip工具。第二步:安装pip工具...

2019-07-09 20:34:36 1363

原创 人工智能-阿尔法狗背后的简单原理:贝叶斯公式

版权声明:本文为博主原创文章,未经博主允许不得转载。AlphaGo为代表的人工智能,彻底的战胜了人类的围棋大师,震撼了全世界,那么人工智能的背后,有着怎样的科技在支撑?本文要介绍的就是人工智能背后的简单原理——贝叶斯公式。人工智能、无人驾驶、语音图片识别与大数据有什么关系?海难空难如何搜救?垃圾短信、垃圾邮件如何识别?这些看起来彼此不相关的领域之间会有什么联系吗?答案是,它们都会用到同一...

2019-07-08 09:55:10 1627

原创 Spark任务提交方式和执行流程

一、Spark中的基本概念(1)Application:表示你的应用程序(2)Driver:表示main()函数,创建SparkContext。由SparkContext负责与ClusterManager通信,进行资源的申请,任务的分配和监控等。程序执行完毕后关闭SparkContext(3)Executor:某个Application运行在Worker节点上的一个进程,该进程负责运行...

2019-07-03 09:27:53 135

原创 spark 的俩种 任务提交方式

Spark提交方式Standalone client测试环境:Hadoop./spark-submit--master spark://node1:7077 --class 类路径 ../执行文件的路劲 执行任务数 master节点: 掌握worker节点的资源信息 worker节点: ...

2019-06-30 21:03:32 142

原创 shell 学习1

shell编程Bash操作:EOF:输入重定向执行命令 ./1.shBash 1.sh#! /bin/bashecho “1234”/usr/bin/python <<- EOFprint "hello world!"EOFecho "is here"在bash中执行python 程序。EOF:结束符 , 可以换为其他字...

2019-06-30 20:14:12 94

原创 Hive SerDe的序列化和反序列化

用于做序列化和反序列化。1.创建文件hiveSerDe.txt192.168.57.4 - - [29/Feb/2016:18:14:35 +0800] "GET /bg-upper.png HTTP/1.1" 304 -192.168.57.4 - - [29/Feb/2016:18:14:35 +0800] "GET /bg-nav.png HTTP/1.1" 304 -192....

2019-06-14 19:03:40 394

原创 hive 分区操作

1创建分区A、单分区建表语句:hive> create table day_table(id int, > content string) > partitioned by (dt string) > row format delimited foelds terminated by ',';【单分区表,按天分区,在表结构中存在id,...

2019-06-14 19:02:17 322

原创 mysql的count(),使用技巧

1.数据图select aid,aname,COUNT(*) from aa ;select aid,aname,COUNT(*) from aa GROUP BY aname 主要是:有group by 的情况下显示的是根据分组的数据来显示的,

2019-06-14 18:47:15 96

原创 秒懂mysql语句的行-列转置

1.原图 转为(图形放错位置了,请注意)数据:CREATE TABLE stu_score (grade_id varchar(10) DEFAULT NULL,subject_name varchar(10) DEFAULT NULL,max_score int(10) DEFAULT NULL)insert into `stu_score`(`grade_i...

2019-06-14 18:39:03 616

原创 ZOOKEEPER入门

zookeeper,它是一个分布式服务框架,是Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。zookeeper工作原理1.每个Server在内存中存储了一份数据;2.Zookeeper启动时,将从实例中选举一个leader(Paxos 协议)3.Leader负...

2019-06-03 08:43:55 98

原创 Linux的免密码登陆

使用场景:A机器向B机器发送文件,不需要使用密码验证。原理:1.Server A向Server B发送一个连接请求。2.Server B得到Server A的信息后,在本地的authorized_keys文件中查找A存放在B上的公钥,如果有相应的公钥,则随机生成一个字符串,并用Server A的公钥加密,接着发送给Server A。3.Server A得到Server B发来的...

2019-05-30 15:24:45 183

原创 HBase的基础知识

HBaseHBase很适合于存储非结构化的数据,还有就是它基于列的而不是基于行的模式。RowKey,列族,时间戳(),cellHBase系统架构:Region:region按大小分割的,每个表一开始只有一个region,随着数据不断插入表,region不断增大,当增大到一个阀值的时候,Hregion就会等分会两个新的Hregion。当table中的行不断增多,就...

2019-05-30 15:23:20 136

原创 hive的分区操作流程

1.创建分区A、单分区建表语句:hive> create table day_table(id int, > content string) > partitioned by (dt string) > row format delimited foelds terminated by ',';【单分区表,按天分区,在表结构中存在id...

2019-05-30 15:19:27 485

原创 ZooKeeper常用操作的代码实现

package com.shsxt.zookeeper;import java.io.IOException;import java.util.List;import org.apache.zookeeper.CreateMode;import org.apache.zookeeper.WatchedEvent;import org.apache.zookeeper.Watcher;...

2019-05-28 21:30:32 125

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除