大数据部-CSDN博客

转载 Jira/Confluence的备份、恢复和迁移

之前的文章已经分别详细介绍了Jira、Confluence的安装及二者账号对接的操作方法，下面简单说下二者的备份、恢复和迁移：一、Jira、Confluence的备份、恢复1）Confluence的备份管理员账号登录Confluence，点击右上角的"一般配置"-"每日备份管理"，如下图（默认配置）：默认每天会自动备份一个zip打包的数据，存放在服务器的/var/atlassian...

2019-04-27 15:00:20 2550

转载 Tableau-通过参数进行报表权限控制

转载：本文介绍Tableau的URL传参技巧，并通过变通的方式进行报表的权限控制。希望各位从中获得启发，一起交流。URL结构从服务器上访问Tableau基本的URL结构如下：http://servername/views/workbook/sheet多站点环境中，URL地址包括站点ID，结构如下：http://servername/t/siteid/views/workbook/...

2019-04-22 22:44:25 4475

原创 Tableau已经安装且重装时提示试用期结束了怎么办？（该方法已经过期！请到官网下载免费版，谢谢！）

如果还没有安装，请自己下载安装：http://www.tableausoftware.com/本文仅做研究使用，支持大家购买正版。A类用户：如果已经安装Tableau，并且没有过期，见（一）！B类用户:如果已经安装Tableau，并且过期了，现已找到方法帮大家tableau家族解决这个问题了。见（二）。（以下提供了方案1解决A类用户问题，方案2解决B类用户类型）

2017-01-06 13:38:00 35569 20

[author:QQ Zhou]总结：***对文件夹的操作***dir.create()list.dirs()dirname()dir.exist() #判断该文件夹是否存在unlink() #删除***对文件进行操作list.files()file.create()file.edit() #如果该文件存在，会直接打开编辑界面，如果该文件夹不存在会先创建，再打开编辑，如：file.edit("script1.R", "script2.R") file.append(file1

2016-12-27 11:27:45 11017 1

原创搭建本地CDH 安装中心

搭建思路：对于搭建本地安装中心，就要把远程的yum 源里面所有的资源，先下载到本地。之后可以用Nginx，或者Apache 搭建一个web 服务，把 yum 源中相应的地址，替换成 web 服务的相对应的目录就可以了。yum 源核心配置文件设置yum源的配置定义文件，该文件必须存放在/etc/yum.repos.d目录下，并且要以“.repo”

2016-12-19 14:22:43 805

转载太多的.hive-stagingxxx文件的处理

跑一段时间的Hive程序之后，偶尔打开对应的HDFS文件夹，才发现在其目录下，产生了太多的.hive-staging_hive_date-time_ XXX文件。仔细一看，才发现几乎每个HIVE的查询语句都会产生这样的一个文件，这种文件会随着时间积累不断增加。这也是前段时间造成HDFS目录故障的原因之一。查了网上的相关说明，也没有比较好的说明，可能这是基

2016-11-22 23:34:35 1576

原创【R与聚类算法】：确定K值个数

在无监督学习中，很多朋友都会面临同一个问题，我们应该将用户聚成几类？即如何确定K值问题。下面我们介绍两种常用的方法。轮廓系数法Nbcluster轮廓系数法首先，我们载入数据，并对数据进行预先处理。请看

2016-11-16 19:32:25 2960

原创【如何R实现聚类算法及3D可视化展示】：kmeans聚类方法在用户价值细分上的应用

Author : QQ Zhou 大家应该很熟悉RFM模型，这是在做用户价值细分常用的方法。主要涵盖的指标有R（Recency）;消费频率（Frequency）;消费金额(Monetary)；RFM模型在用户价值细分上具有很强的解释性和可操作性。但以下为了展示R是如何聚类算法及可视化。我们姑且用R、F、M三个指标聚类得出具有实用性和解释性的结论。步骤一：以下是我们使用数据集cust_id fnd_rdm_amt_thr_mnt

2016-11-16 16:40:19 7789

原创构建用户画像：（综述篇）

前面已经提到用户画像就是从各个维度，从静态和动态两个方面去描述一个用户“容貌”、“品行”、“财富”。下面就介绍一下我们的产品：

2016-11-16 11:00:23 3263 1

原创构建用户画像： 5W2H方法（三）

Author : QQ zhou5）How? 怎样构建用户画像到这里，我们可以正式谈谈如何构建用户画像了。第一章，已经向大家介绍了从哪些纬度构建用户画像。让我们回顾一下，主要有：人口统计、地理信息、浏览信息、交易信息、渠道信息等。下面我们谈谈构建用户画像的方法，主要分为三个步骤：数据收集、行为建模、构建画像

2016-11-15 23:27:29 2611

原创构建用户画像：5W2H法（二）

Author : QQ zhou 谁会使用？在什么时候使用用户画像？ 1）企业在新产品促销、推广时 2）广告主需要向不同用户推送其可能感兴趣的广告时 3）企业评估年初、年末产品推广的效果、公司本年度运营的状况是否良好时—如价值用户是否上升

2016-11-15 18:08:32 1730

原创构建用户画像: 5W2H方法（一）

Author : QQ zhou1) what? 用户画像是什么2) why？为什么要了解用户画像3) where? 从什么方面了解用户画像 4) who?when? 谁可以使用用户画像,应用场景是什么5)How? 怎样构建用户画像6)How much? 价值体现:用户画像是根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。构建用户画像的核心工作即是给用户贴“标签”。

2016-11-15 16:56:23 2125

转载 hbase日常运维管用命令，region管理

hbase日常运维管用命令，region管理1 Hbase日常运维1.1 监控Hbase运行状况1.1.1 操作系统1.1.1.1 IO群集网络IO，磁盘IO，HDFS IOIO越大说明文件读写操作越多。当IO突然增加时，有可能：1.compact队列较大，集群正在进行大量压缩操作。2.正在执行mapreduce作业

2016-10-20 00:13:18 3566

原创建立 HDFS 各类目录权限及shell 脚本代码

Athor: F# 1、创建默认组及权限：#!/bin/bash### 初始化默认权限sudo -u hdfs hdfs dfs -chown -R root:root /hivesudo -u hdfs hdfs dfs -chmod -R 771 /hivesudo -u hdfs hdfs dfs -chown -R root:root /dwsudo

2016-10-19 23:12:49 1714

转载 CDH中配置HDFS HA 及shell 脚本

最近又安装 hadoop 集群，故尝试了一下配置 HDFS 的 HA，CDH4支持Quorum-based Storage和shared storage using NFS两种HA方案，而CDH5只支持第一种方案，即 QJM 的 HA 方案。关于 hadoop 集群的安装部署过程你可以参考使用yum安装CDH Hadoop集群或者手动安装 hadoop 集群的过程。集群

2016-10-18 20:41:00 2082

原创 Linux - Xen VM 的系统必要初始化安装

# 1、拷贝上传：yum相关内容。/etc/yum//etc/yum.conf/etc/yum.repos.d# 2、修改/etc/resolv.confecho "\# Generated by NetworkManager " >>/etc/resolv.confecho "search hexun.com " >>/etc/resolv.confech

2016-10-10 13:33:40 478

原创 CentOS6--优化服务器网络访问速度，关闭IPV6：解决CURL慢的问题

Author：Fu优化服务器网络访问速度：解决CURL慢的问题-关闭IPV6支持。现象：CURL请求URL地址，速度都在5秒以上。说明：在使用curl获取某接口时会curl: (6) Couldn’t resolve host ‘www.coolnull.com’。奇葩的是ping www.coolnull.com域名是通的。上网搜了下。在CentOS6系统下，

2016-10-10 10:16:42 4919

转载 Centos 6上安装 Mysql 5.7.13

1. 下载mysql的repo源wget http://repo.mysql.com/mysql57-community-release-el7-8.noarch.rpm12. 安装mysql57-community-release-el7-8.noarch.rpm包rpm -ivh mysql57-community-release-el7-8.noarch.rpm --nod

2016-10-09 15:26:23 604

原创 CentOS6上最小安装的虚拟机上安装MySQL 5.6.32

1、MySQL 5.6.32 64位安装包下载在官网http://dev.mysql.com/downloads/mysql/5.6.html#中使用迅雷下载MySQL 5.6.32 64位安装包下载（或者wget 下载：# cd /usr/local/src # wget http://cdn.mysql.com/Downloads/MySQL-5.6/MyS

2016-10-09 15:23:52 1363

转载 Mysql5.6主从热备配置

数据库是应用系统的核心，为了保证数据库的安全采用主从热备是很常见的方法，也就是主数据库DDL、DML都将被同步到从数据库。一、实验环境操作系统：windowsserver 2008 R2数据库：mysql-advanced-5.6.21-winx64二、准备工作1、把需要同步的数据库实例从主数据库备份出来，然后手动导入从数据库，以保

2016-10-08 20:32:50 446

转载 RESTful API 设计 - 实践

RESTful API 设计 - 实践Best Practices for Designing a Pragmatic RESTful API http://www.vinaysahni.com/best-practices-for-a-pragmatic-restful-api http://www.oschina.net/translate/best-pra

2016-10-06 11:37:18 701

转载使用 AngularJS & NodeJS 实现基于 token 的认证应用

使用 AngularJS & NodeJS 实现基于 token 的认证应用认证是任何Web应用中不可或缺的一部分。在这个教程中，我们会讨论基于token的认证系统以及它和传统的登录系统的不同。这篇教程的末尾，你会看到一个使用 AngularJS 和 NodeJS 构建的完整的应用。传统的认证系统在开始说基于token的认证系统之前，我

2016-10-06 11:09:49 793

转载 AngularJS+RestfulAPI+BasicAuth+Python/PHP/Node.JS来实现一个最简单的新闻管理后台

备忘：前言一般来说，一个管理后台的构建的基本流程是：(1)选择一个开发语言->(2)选择一种数据库->(3)选择一个开发轮子(framework)->(4)在轮子上搭建前端框架->(5)实现业务逻辑。一旦一个后台做出来以后，有了技术积累，以后其他的项目都是克隆版本，这样的流程的缺陷是：开发语言选型被固化技术人员的招聘、团队协作开发都必须依赖开发语

2016-10-06 10:51:26 1379

转载 Hive权限控制和超级管理员的实现

Hive权限机制：Hive从0.10可以通过元数据控制权限。但是Hive的权限控制并不是完全安全的。基本的授权方案的目的是防止用户不小心做了不合适的事情。先决条件：为了使用Hive的授权机制，有两个参数必须在hive-site.xml中设置： hive.security.authorization.enabled true e

2016-10-02 15:49:24 858

转载 Hive的Security配置

《Programming Hive》的Security章节取出来，翻译了一下。Hive还是支持相当多的权限管理功能，满足一般数据仓库的使用。 Hive由一个默认的设置来配置新建文件的默认权限。Xml代码 property> name>hive.files.umask.valuename> value>0002valu

2016-10-02 15:47:46 534

转载 Hadoop： CDH 5--不同步的 JournalNode

Hadoop： CDH 5--不同步的 JournalNodeAuthor: Fucloudera manager出现了hdfs的警告，类似下图：解决的思路是：1、首先解决简单的问题，查看警告提示的设置的阀值时多少，这样就可以快速定位到问题在哪了，果然JournalNode Sync Status提示最先消去；2、然后解决Sync Status问题，首先找到提示语

2016-09-15 18:40:09 5875 2

转载 Kafka性能测试方法及Benchmark报告

本文主要介绍了如何利用Kafka自带的性能测试脚本及Kafka Manager测试Kafka的性能，以及如何使用Kafka Manager监控Kafka的工作状态，最后给出了Kafka的性能测试摘要　　本文主要介绍了如何利用Kafka自带的性能测试脚本及Kafka Manager测试Kafka的性能，以及如何使用Kafka Manager监控Kafka的工作状态，最后给出了Kafka的

2016-09-15 18:34:52 2142

转载 Apache Kylin 大数据时代的OLAP利器

Apache Kylin 大数据时代的OLAP利器January 4th, 2016hu weiLeave a commentGo to comments1. OLAP简介 OLAP的历史与基本概念 OLAP全称为在线联机分析应用，是一种对于多维数据分析查询的解决方案。典型的OLAP应用场景包括销售、市场、管理等商务报表，预算决算，经济报表等等。最早的OLAP查询工

2016-09-15 18:33:38 1415

原创迁移Cloudera Manager Server

参考 Moving the Cloudera Manager Server to a New HostDatabase Backing up and Restore根据官方的参考文档，如果在另外一个节点上新建一个供Cloudera Manager使用的数据库，需要把原来的数据库的内容进行back up，然后在新的数据库中进行restore。然而，怎样restore，确实语焉

2016-09-15 18:32:48 2156

转载麦肯锡告诉你：究竟是什么决定了你的职场上限？

毕业5年，我的月薪从1900到现在50000。我不认为你的薪水、职场上限跟你有没有读MBA，喜不喜欢加班有关。真正的职场上限，往往取决于你有没有强大的逻辑思考能力。工作中有一个高效的逻辑思维能力无比重要。它能立刻让你找到问题的关键，让问题引刃而解。逻辑思维的过程，是化繁为简，目的，是找到解决方法。因此，所有和“寻求解决方法”无关的信息，都是无用信息，

2016-09-05 11:26:45 737

转载 cloudera manager下的hive权限配置

公司运营、BI以及财务不同部门不同人员需要hive数据查询服务，所以需要分配不同的权限给相关人员权限配置主要涉及两项：- 认证(authentication)：验证用户所用的身份是否是对的- 授权(authorization)：验证用户所用身份操作是否有权限cloudera集成的hive认证支持常用的LDAP和kerberos，授权使用的是他自家的sentry，sentry目前还处

2016-09-05 11:11:06 1657

转载 Hive 权限控制

Hive 权限控制字数1135 阅读551 评论0 喜欢0说明认证(authentication)：验证用户所用的身份是否是对的授权(authorization)：验证用户所用身份操作是否有权限目前hive（版本0.12.0）支持简单的权限管理，默认情况下是不开启，这样所有的用户都具有相同的权限，同时也是超级管理员，也就对hive中的所有表都有查看和改动的权利，

2016-09-05 11:09:41 1547

转载 MySQL双主热备问题处理

1. Slave_IO_Running: Nomysql> show slave status\G*************************** 1. row *************************** Slave_IO_State: Master_Host: 192.16.10.21

2016-09-05 11:08:55 831

转载浅谈工作流调度系统

每个公司都有自己的一套或者多套调度系统，从简单到复杂，满足各种定制化的需求。Crontab任务调度在没有工作流调度系统之前，公司里面的任务都是通过crontab来定义的，时间长了后会发现很多问题：大量的crontab任务需要管理任务没有按时执行，各种原因失败，需要重试多服务器环境下，crontab分散在很多集群上，光是查看log就很花时间于是，出现了一些管理crontab任务的

2016-09-05 11:07:30 7469

转载 Sqoop使用分析

Sqoop的Mysql数据导出实现分两种，一种是使用JDBC方式从Mysql中获取数据，一种是使用MysqlDump命令从MySql中获取数据，默认是 JDBC方式获取数据，如果要使用dump方式获取数据，需要添加 -direct 参数。先说第一种：配置语句时，需要添加 $CONDITIONS 点位符，比如：SELECT id FROM user WHERE $CONDITIONS，S

2016-09-05 11:04:33 2613

转载 sqoop导数类型不支持解决方法：Hive does not support the SQL type for column

sqoop导数类型不支持解决办法：Hive does not support the SQL type for columnsqoop导数从oracle到hive中，遇到RAW等类型时，会报错：013-09-17 19:33:12,184 ERROR org.apache.sqoop.tool.ImportTool: Encountered IOException running

2016-09-05 11:03:42 2887

转载 spark调整日志显示级别

摘要在学习使用Spark的过程中，总是想对内部运行过程作深入的了解，其中DEBUG和TRACE级别的日志可以为我们提供详细和有用的信息，那么如何进行合理设置呢，不复杂但也绝不是将一个INFO换为TRACE那么简单。主要问题调整Spark日志级别的配置文件是$SPARK_HOME/conf/log4j.properties，默认级别是INFO，如果曾经将其改为DEBUG的朋友可能会有

2016-09-05 11:01:35 2159

转载 Spark Streaming createDirectStream保存kafka offset(JAVA实现)

问题描述（http://blog.csdn.net/xueba207/article/details/50381821）最近使用spark streaming处理kafka的数据，业务数据量比较大，就使用了kafkaUtils的createDirectStream()方式，此方法直接从kafka的broker的分区中读取数据，跳过了zookeeper，并且没有receiver，是spa

2016-09-05 11:00:45 2374 2

转载 Spark history Server 配置过程

Author: FuSpark history Server产生背景以standalone运行模式为例，在运行Spark Application的时候，Spark会提供一个WEBUI列出应用程序的运行时信息；但该WEBUI随着Application的完成(成功/失败)而关闭，也就是说，Spark Application运行完(成功/失败)后，将无法查看Application的历史记录；

2016-09-05 10:53:06 937

空空如也

空空如也