自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

威大爷

Whatever you do,do not let go!

  • 博客(24)
  • 收藏
  • 关注

原创 记一次难受的上线经历

1.业务背景该业务为信贷业务,业务流程图如下:数据部门主要是对两次用户数据进行存储和解析转换,存储用的ES来存(将两次用户数据合并存为一条)2.开发由于之前业务是通过spark消费kafka数据进行计算,最后落地到ES上,所以这次需求下来,也直接采用了这个方案。于是开发阶段就确定,第一次数据通过spark计算指标之后,就直接落地ES,然后第二次ES过来之后,通过申请号(同一个用户申请号一...

2019-07-19 16:59:24 298

原创 大数据学习笔记(四)-构建全文搜索引擎

完整代码在这 对于搜索引擎,我们几乎每天都要用到,这个也是集体智慧算法中最重要的算法之一。其中Google的pagerank算法是引领搜索引擎前进的一大重要算法。当然,这儿学习的是小数据搜索。 1.获取数据,建立索引 这儿用的是sqlite数据库,因为它轻量。没有c/s架构,直接可以用。因为中文的分词也是一门科学,所以这儿用的是英文文档来实现简单的搜索引擎。这儿的网页全部来源于维基百...

2018-05-03 16:03:43 2548

原创 Centos 配置本地yum源

一.准备1.一个centos的源的iso镜像文件,最好是everything。我自己用的是CentOS-7-x86_64-Everything-1611.iso 2.需要在vmvare上添加上这块镜像文件 二,挂载并配置yum源1.在做好准备工作后,在/etc目录下应该会有一个cdrom的文件夹。只需要为这个文件夹创建挂载点并挂载上就可以(我这儿挂在在/mnt/cdrom上)。mkdir /mn

2017-09-02 10:39:18 746

原创 Hadoop HA的安装配置

一,HA的架构Hadoop HA 即Hadoop的高可用,不同于普通的namenode+second namenode的模式,second namenode只能作为namenode的冷备份,当namenode挂掉后,second namenode不能自动充当namenode的角色。所以为了保证高可用性,就有了Hadoop HA的机制。 hdfs HA中即有至少有两个namenode,这儿以两个na

2017-08-29 15:27:35 1403

原创 zookeeper-3.4.6的安装和简单使用

一,zookeeper简介 zookeeper主要为分布式程序提供协调服务的,解决一致性等问题。如分布式中的高可用中的主节点的选择,CS架构中,有多台服务器,客户端对服务器的选择等应用场景。 zookeeper的主要角色是leader和follower,一个时间,只有一个leader,其余节点是follower,leader靠Paxos算法投票得出。 zookeeper主要使用的算法是Pa

2017-08-28 12:13:27 8347

原创 基于hadoop2.6.0的hive-1.2.1安装

1.安装环境:有一个完全分布式的Hadoop-2.6.0。2.安装准备:需要在网上下一个Hive的压缩包,我这儿用的是apache-hive-1.2.1-bin.tar.gz。下载地址here3.将下载下来的hive压缩包解压,并更改用户权限。我的解压在/usr/localsudo tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /usr/localsudo c

2017-03-31 10:09:31 1180

原创 基于hadoop-2.6.0的hbase完全分布式安装

1.安装环境:有一个完全分布式的hadoop-2.6.0。 2.安装准备:需要在网上下一个hbase的压缩包,我这儿用的是hbase-1.0.3-bin.tar.gz,下载地址here 3.解压下载好的hbase到一个目录下,并更改用户及用户组(我这儿用的是persistence用户启动hadoop和hbase的)。sudo tar -zxvf hbase-1.0.3-bin.tar.gz -C

2017-03-26 16:13:33 1320

原创 hadoop-chapter 2

一.namenode->可以看作是分布式文件系统中的管理者,主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等1.管理文件系统文件的元数据信息(包括文件名称、大小、位置、属性、创建时间、修改时间等等)2.维护文件到块的对应关系和块到节点的对应关系3.维护用户对文件的操作信息(文件的增删改查)4.利用fsimage和edits对元数据进行管理二.datanode->是文件存储的基本单元,它将

2017-03-06 18:03:21 534

原创 hadoop - chapter 1

一.分布式1.分布式是指将不同的业务分布在不同的地方。 而集群指的是将几台服务器集中在一起,实现同一业务。2.分布式是以缩短单个任务的执行时间来提升效率的,而集群则是通过提高单位时间内执行的任务数来提升效率。二.cap理论C(Consistency一致性):所有的节点上的数据时刻保持同步A(Availability可用性):每个请求都能接受到一个响应,无论响应成功或失败P(Partition tol

2017-03-06 14:31:13 370

原创 大数据学习笔记(三)-k-均值聚类&多维缩放找聚类

1.k-均值聚类 因为前面的几种求聚类的算法,需要计算两两配对项的关系,在数据集大的时候,速度会很慢。所以我们要学习k-均值聚类 算法思想:我们会事先知道需要聚类的数量。这儿假设我们需要n个聚类,那么我们先随机生成n个中心位置。然后利用聚类算法将各个数据项分配给最邻近的中心位置,然后移动中心位置到聚类的平均位置处,然后循环以上步骤,知道分配过程不再变化,那么算法结束。返回n个聚类。具体代码如下#

2016-12-14 21:39:17 4977

原创 大数据学习笔记(二)-分级类聚&列类聚

下面用到的数据及代码:click here 1.获取数据: 来自100个博客里面的所有文章单词数目,这儿用的rss订阅源对文章数据进行获取,rss获取出来是xml文件格式,所以可以下载一个feedparser来对xml文档进行解析。关于怎么得到每篇博客的每个单词的统计情况,请自行查看generatefeedvector.py文件。不理解的地方欢迎交流。qq:1515435192. 获取后得到的文

2016-12-13 17:20:17 1706

原创 mongodb和redis 的常用指令和python远程连接

一.mongodb 更多指令参见mongodb大全 1.安装mongodbubuntu:apt install mongodbcentos:yum install mongodb启动服务service mongodb start进入mongodb交互mongo [你的ip]2.常用指令 我这儿把nosql(非关系型数据库)的collection(聚集集合)看为关系型数据库中的表。(以便于大家

2016-12-12 20:48:33 829

原创 yum 和 rpm 安装软件

1.yumyum check-update -> 检查可以更新的软件包yum update ->更新所有软件包yum install 服务名 [-y] -> 安装软件yum remove 服务名 ->删除服务yum clean packages ->清除缓存中rpm包文件 2.rpm rpm 软件包名类似这样的epel-release-latest-6.noarch.rpm 下面是对于

2016-12-12 11:27:31 432

原创 大数据学习笔记(一)-提供推荐

1.获取数据: 这儿有一个开源的数据集grouplens 以及集体智慧编程上的数据集。以下是集体智慧编程上的一个关于电影评价的数据集critices={ 'Lisa Rose':{ 'Lady in the Water':2.5,'Snakes on a plane':3.5, 'Just My Luck':3.0,'Superman Returns':3

2016-12-11 11:19:47 808

原创 用eclipse远程连接hadoop-2.6.0

所有需要的文件都在这:hadoop 提取码:j6zx 1.下载eclipse(或者用我传的压缩包) 下载解压后将hadoop-eclipse-plugin-2.6.0.jar放在eclipse目录的plugins目录下 2.下载hadoop-2.6.0,并解压 3.将下载下来的bin目录的路径设置一个环境变量 新建一个环境变量名为HADOOP_HOME,值为该bin目录的路径

2016-12-05 21:55:33 785 1

转载 基于keystone的swift搭建

OpenStack组件Swift单机搭建(基于Keystone)该博客是我们班的张大神写的,在此借用一下。 安装环境:Ubuntu 16.04 需要有两块硬盘(一块为系统盘,一块用于安装SWIFT) 需要有IP地址环境准备修改hosts文件安装相关服务修改hosts编辑 /etc/hosts,添加IP地址 controller安装Openstack源并更新和安装ap

2016-12-04 09:47:50 1169 1

原创 hadoop 2.6.0完全分布式安装

1.安装安装前准备:装有openssh server的ubuntu14.04 系统三台(也可以准备1台,后面进行虚拟机的克隆,或者导入导出)。这儿需要三台机器在同一个网段内。开始安装1)启动三台虚拟机,分别修改主机名sudo vim /etc/hostname分别命名为: HadoopMaster HadoopSlave1 HadoopSlave2ps:重启后生效2)安装jdk(3台机器一样的

2016-12-03 22:50:45 1085 1

原创 vim 编辑器常用指令

1.设置vim编辑器的默认选项vim ~/.vimrc -->修改vim编辑器默认选项#tab缩进四个空格set ts=4#自动缩进set autoindent#显示行号set nu#高亮匹配括号set showmatch#高亮搜索结果set hlsearch#搜索即时显示set incsearch2.常用操作vim有两种模式,插入模式和normal模式,进入时默认是norma

2016-11-22 12:17:01 416

原创 docker 细节

1.red hat 发布的版本中,docker的配置文件的位置在/usr/lib/systemd/system/docker.service 和 /etc/sysconfig/docker文件中2.使用docker 加速器进入daocloud,然后注册账号后,进入控制台,就会看见一个加速器按钮,进入后有一条指令,复制指令在你的linux系统中执行即可3.docker 常用指令docker versi

2016-11-22 11:04:32 387

原创 linux系统让进程后台运行

1.最简单的方式,这儿我用运行python文件的方式演示python Data.py &就是在运行的指令后面加”&” 2.先运行了进程后,然后ctrl+z暂停现在的进城,可以用jobs指令查看暂停或者运行中的进程。查看了后[1]+ Stopped python Data.py可以看到这样的结果,然后[]号中的数字就是接下来要用到的。使用bg %数字 这儿是1这

2016-11-19 20:40:47 576

原创 windows 64 无法安装mysql-python

1.进入这个网站http://www.lfd.uci.edu/~gohlke/pythonlibs/下载MySQL_python‑1.2.5‑cp27‑none‑win_amd64.whlps:该网站内容较多,使用ctrl+f快捷键2.进入windows cmd命令行安装wheelpip install wheelps:如果pip没有加入环境变量,建议先将pip加入环境变量。pip在python安装

2016-11-16 16:56:07 4084

原创 常用markdown 编辑器语法

1.斜体*hello*==hello==2.粗体**hello** or __hello__==hello or hello==3.链接 []->显示的名字 [威大爷的博客](http://www.pennyx.com:32769 "title")==威大爷的博客==4.样式`hello`==code span==5.图片![Alt Text](http://bit.ly/1drEdWK "Tit

2016-11-15 15:02:40 353

原创 docker 简单应用

1.docker部署小应用–2048首先安装部署2048docker pull alexwhen/docker-2048docker run -d -P alewhen/docker-2048然后查看自己的应用对应的端口号docker ps查看ports对应的端口号==0.0.0.0:32768->80/tcp==,我这儿的是端口号是32768,然后通过 ==ip地址:端口号==访问2.docke

2016-11-15 15:01:37 403

转载 centos7 安装docker

centos7 安装docker安装 Docker[root@localhost~]# yum install docker启动 docker 服务[root@localhost~]# systemctl start docker.service[root@localhost~]# systemctl enable docker.service安装 centos 镜像[root@localhost~

2016-11-15 15:00:23 350

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除