15005153460-CSDN博客

翻译欢迎使用CSDN-markdown编辑器

摘要：本文将要说明如何使用Spark来对Hive进行操作1、打jar包，提交Spark任务通过提交spark任务的方式，如下面的scala代码。之后需要将成代码打包成一个jar包，然后提交到spark中去.一般情况下生产上建议使用这种方法，可以灵活控制sql里的各项参数[plain] view plain copy print?val conf = new SparkConf() va

2017-12-01 13:54:01 271

原创 crontab不执行脚本手动测试无问题

给大家分享个问题，也是我几年前遇到过的，虽然博客一大堆，也有正确答案的，还是想自己总结下。问题就是：crontab不执行脚本，手动调测又没有任何问题？20 * * * * bash -x /workspace/carkey/hadoop-job/bin/seqfileparser.sh > /workspace/carkey/hadoop-job/logs/SeqFileAnalyze

2017-11-16 11:44:00 1070

原创 java实现经纬度勾股定理计算距离

package com.hive;public class GetDist{private static final double EARTH_RADIUS = 6378137;//赤道半径(单位m)private static double rad(double d) { return d * Math.PI / 180.0; }

2017-06-28 10:11:12 3506 1

原创 hvie UDF函数

package com.ymdd;import java.text.DecimalFormat;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.io.Text;public class HiveUdf extends UDF {public static String

2017-06-25 19:39:27 681

原创 hive UDAF函数

package com.ymdd; import org.apache.hadoop.hive.ql.exec.UDFArgumentTypeException;import org.apache.hadoop.hive.ql.metadata.HiveException;import org.apache.hadoop.hive.ql.parse.SemanticExcep

2017-06-25 19:38:30 1222 1

原创 org.apache.hadoop.ipc.Client: Retrying connect to server: 0.0.0.0/0.0.0.0:8031

hadoop的单机和伪分布也搭建过两次，遇到过一个很有意思的问题才解决，就是在8088端口的页面上总是没有资源，看了一下datanode的节点上的日志看了datanode的日志好像没有问题，在datanodemanager的相关日志yarn开头的日志文件里有org.apache.hadoop.ipc.Client: Retrying connect to server: 0.0.0.0

2017-06-20 20:33:16 6014

原创表关联关系

写这篇博客，似乎有点想嘲笑自己，因为已经工作4年的程序员了，还是像一个什么都不会的毕业生，不是不够努力，感觉知识的海洋还是大，想做到精益求精，通信雅达，可能一辈子都无法达到，好了，闲言少叙，书归正传吧，下面是一个测试关联，左外联的例子，可能对于一个在学校想学习sql的人一点帮助吧。-- 248条数据select ta.stowage_no from tms_dis_stowa

2017-06-12 15:38:30 1405

原创 centos系统克隆后网络的简单配置

centos系统克隆后网络的简单配置1.修改主机名vi /etc/sysconfig/networkHOSTNAME=linux3232.修改物理地址ATTRvi /etc/udev/rules.d/70-persistent-net.rulesSUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}

2017-06-04 10:51:51 401

原创 hive UDF函数

1.一直在公司琢磨hive的UDF和UDAF函数，几番测试还是不通。业务场景：物流企业有路由和线路，每条线路有班次，报表需求要求传入路由参数后，返回在最后一站的达到时刻？此业务场景sql通过临时表觉得不是高手搞不定，想到hive的UDF函数。问题：1.理由有几条线路组成？未知数，离不开循环和递归了 2.每条线路有多班次，选择哪个班次？在循

2017-06-01 18:28:50 3847

原创 impala刷新hive数据shell脚本

#!/bin/bash source job.properties impalaHost=$1databaseName=$2tableName=$3 echo "[INFO]: Hive Database :------> ${databaseName}"echo "[INFO]: Table Name :---------> ${tableName}"ec

2017-05-25 09:37:10 3299

原创 eclipse插件全集

svn插件：http://subclipse.tigris.org/updatemaven插件：http://m2eclipse.sonatype.org/sites/m2escala：http://download.scala-ide.org/sdk/helium/e38/scala211/stable/sitepython:http://pydev.org/upda

2017-05-23 21:50:11 395

原创 app拨测

一、需要准备一台很干净的电脑，安装抓包软件二、电脑需要安装一个虚拟的wifenetsh wlan set hostednetwork mode=allownetsh wlan set hostednetwork ssid=test key=12345678netsh wlan start hostednetwork三、打开转包软件分析hostname，useragent，u

2017-05-23 21:02:43 2217

原创 mysql主从搭建

mysql主从搭建目的:搭建mysql主从,实现数据同步主:192.168.202.128从:192.168.202.129一,mysql的yum卸载和安装1.查看:rpm -qa|grep mysql1.卸载:yum remove mysql mysql-server mysql-libs2.安装:yum install mysql-server

2017-05-23 14:22:25 320

原创 impala刷新hive或者hbase中表的结构或数据

1. 在hive或者hbase中有表的结构，在impala中没有表结构用下面命令同步元数据INVALIDATE METADATA;2. 如果两边都有表结构了，但是impala中表无数据用下面命令同步refresh table_name;

2017-05-17 20:03:30 958

原创 Hadoop namenode重新格式化需注意问题

1、重新格式化意味着集群的数据会被全部删除，格式化前需考虑数据备份或转移问题； 2、先删除主节点（即namenode节点），Hadoop的临时存储目录tmp、namenode存储永久性元数据目录dfs/name、Hadoop系统日志文件目录log 中的内容（注意是删除目录下的内容不是目录）； 3、删除所有数据节点(即datanode节点) ，Hadoop的临时存储目录tmp、nameno

2017-05-10 10:29:11 1919

原创 flume+kafka+storm+hdfs整合

个人观点：大数据我们都知道hadoop，但并不都是hadoop.我们该如何构建大数据库项目。对于离线处理，hadoop还是比较适合的，但是对于实时性比较强的，数据量比较大的，我们可以采用Storm，那么Storm和什么技术搭配，才能够做一个适合自己的项目。下面给大家可以参考。可以带着下面问题来阅读本文章：1.一个好的项目架构应该具备什么特点？2.本项目架构是如何保证数据准确性的？3

2017-05-06 18:03:58 2175

原创 centos安装单机版storm

storm单击版安装：一.准备工具:依赖包：yum install libtoolyum install gccyum install gcc-c++yum install makeyum install libuuid-devel 1.zeromq 1.tar -zxvf zeromqxx.tar.gz 2.mv zerom

2017-05-06 17:03:44 1397

转载网页爬虫原理及java实现

网络蜘蛛即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站，那么网络蜘蛛就可以用这个原理把互联网

2017-05-06 16:20:10 813

原创 python爬取百度贴吧小说

#coding:utf-8import urllib2import reclass BDTB: baseUrl='http://tieba.baidu.com/p/4896490947?see_lz=1#/pn=' #打开网址，获取源码，返回response对象内容 def getPage(self,pageNum): try:

2017-05-06 16:19:08 266

原创安装redis时报错CC adlist.o

现象： [root@linux324 src]# make install CC adlist.occ: error trying to exec 'cc1': execvp: No such file or directorymake: *** [adlist.o] Error 1[root@linux324 src]# make install CC adl

2017-05-06 16:18:38 9855 1

原创错误Name node is in safe mode的解决方法

执行命令：bin/hadoop dfsadmin -safemode leave

2017-05-04 11:35:21 599

原创 hive单节点安装

hive单节点安装1.tar -zxvf hive*.tar.gz2.cd hive3.cp conf/hive-default.xml.template conf/hive-site.xml cp conf/hive-env.sh.template conf/hive-env.sh cp conf/hive-log4j.properties.tem

2017-04-28 16:05:47 787

原创 SQL语言的分类

SQL语言共分为四大类：数据查询语言DQL，数据操纵语言DML，数据定义语言DDL，数据控制语言DCL。1. 数据查询语言DQL数据查询语言DQL基本结构是由SELECT子句，FROM子句，WHERE子句组成的查询块：SELECT FROM WHERE 2 .数据操纵语言数据操纵语言DML主要有三种形式：1) 插入：INSERT2) 更新：UPD

2017-04-04 21:24:19 181

原创 ssh: connect to host localhost port 22: Connection refused

ssh localhost 错误信息为：ssh: connect to host localhost port 22: Connection refused 这种错误很主要的一个原因是sshd服务没有启动，先启动sshd服务后就没有问题了 www.2cto.com 1、查卡服务是否启用 ps -ef | grep ssh 2、如果没有启用则要安装 yum

2017-02-01 22:07:51 566

原创 oracle flashback 闪回

1.对表启动闪回alter table emp enable row movement;2.查看闪回点select to_char(sysdate,'yyyy-mm-dd hh24:mi:ss') TIME from dual;3.查看原形数据select count(*) from emp;4.删除数据delete from emp;5.提交commit;

2017-01-19 14:17:29 163

原创 shell日期和字符转换例子

#!/bin/bashSRC_PATH=/mnt/fileserver/InternetAnalysis/Tags/sys_test/dataRM_MONTH=`date -d '-2months' +'%Y%m'` # 201611CUT_MONTH=M`date -d '-1months' +'%Y%m'` #201612MONTH=`

2017-01-19 10:56:15 4339

原创 python连接mysql

#!/usr/bin/python# -*- coding: UTF-8 -*-import MySQLdb# 打开数据库连接db = MySQLdb.Connect(host='localhost',port=3306,user='root',db='test',charset='utf8',passwd='root')# 使用cursor()方法获取操作游标 cursor =

2017-01-16 13:01:10 319

原创 python模拟开发一个网站

"""MySQLdb - A DB API v2.0 compatible interface to MySQL.This package is a wrapper around _mysql, which mostly implements theMySQL C API.connect() -- connects to serverSee the C API specificati

2017-01-16 07:27:39 369

原创 python爬取百度贴吧小说

#coding:utf-8import urllib2import reclass BDTB: baseUrl='http://tieba.baidu.com/p/4896490947?see_lz=1#/pn=' #打开网址，获取源码，返回response对象内容 def getPage(self,pageNum): try:

2017-01-15 13:16:58 354

转载 cnet6.5 32bit 安装spark

1、查看系统环境[plain] view plain copy print?cat /etc/redhat-release uname -r uname -m cat /etc/redhat-releaseuname -runame -m关闭所有服务器的防火墙[plain] view plain copy p

2016-12-25 21:41:40 612

翻译 centos 6.5 32位安装redis

1、Redis的介绍、安装、配置、启动流程1.1、Redis 特征简介Redis是Remote Dictionary Server的缩写。他本质上一个Key/Value数据库，与Memcached类似的NoSQL型数据库，但是他的数据可以持久化的保存在磁盘上，解决了服务重启后数据不丢失的问题，他的值可以是string(字符串)、list(列表)、sets(集合)或者是ordered set

2016-12-25 11:53:35 1362

翻译金融行业风控概念及分析

互联网金融是指以依托于支付、云计算、社交网络已及搜索引擎等互联网工具，实现资金融通、支付和信息中介等业务的一种新兴金融。做好互联网金融，要立足于三个基本点:平台、数据、金融。而在这其中，大数据，作为连接平台、用户、金融等方面的工具，有着举足轻重的意义。　　由于互联网金融涉及广泛、囊括多个领域，各领域的风控策略也不尽相同，不能一概而论，下面就大数据风控在互联网金融领域的运用做一个大致的分类和解析

2016-12-06 15:59:54 4618

翻译网页爬虫技术浅析

在万维网飞速发展的网络背景下，搜索引擎在人们的生活工作中无疑扮演着重要的角色，而网络爬虫则是搜索引擎技术的最基础部分。一、网络爬虫概述在搜索引擎成为主流检索工具的今天，互联网上的网络爬虫各式各样，但爬虫爬取网页的基本步骤大致相同：1）人工给定一个URL作为入口，从这里开始爬取。万维网的可视图呈蝴蝶型，网络爬虫一般从蝴蝶型左边结构出发。这里有一些门户网站的主页，而门户网站中包含大量

2016-12-06 15:58:34 6147 1

原创 Read from socket failed: Connection reset by peer

首先在自己的本机上1. tailf /var/log/messages 查看打印的日志，发现里面报了ssh_host_rsa_key 文件权限问题。2.ll /etc/ssh/ssh_host_rsa_key 和其他机器比较权限，原来权限过大导致的，把权限改为600即可从其他机器上ssh到本机。

2016-12-03 12:23:21 4740

翻译 cnetos 6.5 32bit oracle安装

一、硬件要求1、内存 & swapMinimum: 1 GB of RAMRecommended: 2 GB of RAM or more检查内存情况# grep MemTotal /proc/meminfo# grep SwapTotal /proc/meminfo2、硬盘由于CentOS安装后差不多有4~5G，再加上Oracle等等的安装，所以请准备至少10

2016-12-03 09:24:46 342

翻译网页爬虫原理及java实现

网络蜘蛛即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站，那么网络蜘蛛就可以用这个原理把互联网

2016-12-02 12:27:59 9540 1

原创文件转码

1.win+R开启运行程序，cmd进入dos窗口2.chcp 650013.more filename

2016-11-04 17:59:10 323

转载网络爬虫的实现

摘要-万维网是一个通过HTML格式使数十亿的文件产生联系的集合，然后如此规模庞大的数据已经成为信息检索的障碍，用户为了查找自己想要的资料可能要翻转数页。网络爬虫是搜索引擎的核心部分，网页爬虫持续不断的在互联网上爬行来寻找任何新的增加到网络中的页面和已经从网上删除页面。由于网页的持续的增长和动态性，遍历网络中所有的网址并处理已成为一种挑战。一个集中性的爬虫就是一个爬取特定话题，访问并收集相关网页的

2015-08-08 17:26:47 359

空空如也

空空如也