「已注销」-CSDN博客

原创大数据中的用户画像——让机器懂用户

一、用户画像的定义用户画像（persona）的概念最早由交互设计之父Alan Cooper提出:“Personas are a concrete representation of target users.”是指真实用户的虚拟代表,是建立在一系列属性数据之上的目标用户模型。随着互联网的发展，现在我们说的用户画像又包含了新的内容和意义，通常用户画像是根据用户人口学特征、...

2019-07-25 21:12:53 399

原创 Sqoop学习之路（一）

一、概述sqoop 是 apache 旗下一款“Hadoop 和关系数据库服务器之间传送数据”的工具。核心的功能有两个：导入、迁入导出、迁出导入数据：MySQL，Oracle 导入数据到 Hadoop 的 HDFS、HIVE、HBASE 等数据存储系统导出数据：从 Hadoop 的文件系统中导出数据到关系数据库 mysql 等 Sqoop 的本质还是一个命令行工具，和 HD...

2019-07-23 22:00:28 105

原创大数据处理之如何确保断电不丢数据

在Hadoop 2.0.2-alpha之前，HDFS在机器断电或意外崩溃的情况下，有可能出现正在写的数据丢失的问题。而最近刚发布的CDH4中HDFS在Client端提供了hsync()的方法调用(HDFS-744)，从而保证在机器崩溃或意外断电的情况下，数据不会丢失。这篇文件将围绕这个新的接口对其实现细节进行简单的分析，从而希望找出一种合理使用hsync()的策略，避免重要数据丢失。...

2019-07-23 21:24:02 757

原创 HDFS读写流程简介

前言：HDFS 是一个能够面向大规模数据使用的，可进行扩展的文件存储与传递系统。是一种允许文件通过网络在多台主机上分享的文件系统，可让多机器上的多用户分享文件和存储空间。让实际上是通过网络来访问文件的动作，由程序与用户看来，就像是访问本地的磁盘一般。即使系统中有某些节点脱机，整体来说系统仍然可以持续运作而不会有数据损失。HDFS写流程：1.初始化FileSystem，客户端调用...

2019-07-14 19:04:57 129

原创资源管理（大数据）：Zookeeper、 Yarn原理

ZookeeperZookeeper是一个分布式协调服务，一个leader，多个follower组成的集群，就是为用户的分布式应用程序提供协调服务。Zookeeper是为别的分布式程序服务的。Zookeeper所提供的服务涵盖：主从协调、服务器节点动态上下线、统一配置管理、分布式共享锁、统一名称服务等。YarnYarn目标：YARN的目标就是实现“一个集...

2019-07-14 14:30:28 158

原创 Python安装MySQL库详解，步骤及错误的解决方法

本文主要讲述Python操作MySQL数据库，通过调用MySQLdb扩展包实现。而在安装过程中会遇到各种各样的错误，这里给出安装MySQL库的详细步骤及错误的解决方法。第一步：安装Python程序首先安装Python编程环境python-2.7.8.amd64.msi，如下图所示：默认安装在C:\python27路径，接下来我需要安装pip工具。第二步：安装pip工具...

2019-07-09 20:34:36 1363

原创人工智能-阿尔法狗背后的简单原理：贝叶斯公式

2019-07-08 09:55:10 1627

原创 Spark任务提交方式和执行流程

一、Spark中的基本概念（1）Application：表示你的应用程序（2）Driver：表示main()函数，创建SparkContext。由SparkContext负责与ClusterManager通信，进行资源的申请，任务的分配和监控等。程序执行完毕后关闭SparkContext（3）Executor：某个Application运行在Worker节点上的一个进程，该进程负责运行...

2019-07-03 09:27:53 135

原创 spark 的俩种任务提交方式

Spark提交方式Standalone client测试环境：Hadoop./spark-submit--master spark://node1:7077 --class 类路径 ../执行文件的路劲执行任务数 master节点：掌握worker节点的资源信息 worker节点： ...

2019-06-30 21:03:32 142

原创 shell 学习1

shell编程Bash操作：EOF:输入重定向执行命令 ./1.shBash 1.sh#! /bin/bashecho “1234”/usr/bin/python <<- EOFprint "hello world!"EOFecho "is here"在bash中执行python 程序。EOF:结束符，可以换为其他字...

2019-06-30 20:14:12 94

原创 Hive SerDe的序列化和反序列化

用于做序列化和反序列化。1.创建文件hiveSerDe.txt192.168.57.4 - - [29/Feb/2016:18:14:35 +0800] "GET /bg-upper.png HTTP/1.1" 304 -192.168.57.4 - - [29/Feb/2016:18:14:35 +0800] "GET /bg-nav.png HTTP/1.1" 304 -192....

2019-06-14 19:03:40 394

原创 hive 分区操作

1创建分区A、单分区建表语句：hive> create table day_table(id int, > content string) > partitioned by (dt string) > row format delimited foelds terminated by ',';【单分区表，按天分区，在表结构中存在id，...

2019-06-14 19:02:17 322

原创 mysql的count()，使用技巧

1.数据图select aid,aname,COUNT(*) from aa ;select aid,aname,COUNT(*) from aa GROUP BY aname 主要是：有group by 的情况下显示的是根据分组的数据来显示的，

2019-06-14 18:47:15 96

原创秒懂mysql语句的行-列转置

1.原图转为（图形放错位置了，请注意）数据：CREATE TABLE stu_score (grade_id varchar(10) DEFAULT NULL,subject_name varchar(10) DEFAULT NULL,max_score int(10) DEFAULT NULL)insert into `stu_score`(`grade_i...

2019-06-14 18:39:03 616

原创 ZOOKEEPER入门

zookeeper，它是一个分布式服务框架，是Apache Hadoop 的一个子项目，它主要是用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。zookeeper工作原理1.每个Server在内存中存储了一份数据；2.Zookeeper启动时，将从实例中选举一个leader（Paxos 协议）3.Leader负...

2019-06-03 08:43:55 98

原创 Linux的免密码登陆

使用场景：A机器向B机器发送文件，不需要使用密码验证。原理：1.Server A向Server B发送一个连接请求。2.Server B得到Server A的信息后，在本地的authorized_keys文件中查找A存放在B上的公钥，如果有相应的公钥，则随机生成一个字符串，并用Server A的公钥加密，接着发送给Server A。3.Server A得到Server B发来的...

2019-05-30 15:24:45 183

原创 HBase的基础知识

HBaseHBase很适合于存储非结构化的数据，还有就是它基于列的而不是基于行的模式。RowKey，列族，时间戳()，cellHBase系统架构:Region：region按大小分割的，每个表一开始只有一个region，随着数据不断插入表，region不断增大，当增大到一个阀值的时候，Hregion就会等分会两个新的Hregion。当table中的行不断增多，就...

2019-05-30 15:23:20 136

原创 hive的分区操作流程

1.创建分区A、单分区建表语句：hive> create table day_table(id int, > content string) > partitioned by (dt string) > row format delimited foelds terminated by ',';【单分区表，按天分区，在表结构中存在id...

2019-05-30 15:19:27 485

原创 ZooKeeper常用操作的代码实现

package com.shsxt.zookeeper;import java.io.IOException;import java.util.List;import org.apache.zookeeper.CreateMode;import org.apache.zookeeper.WatchedEvent;import org.apache.zookeeper.Watcher;...

2019-05-28 21:30:32 125

qq_24946645的博客