自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

窗外的屋檐

不再有遗憾伴随着苍老爬满黄昏的心藤,不再有愧疚的墓碑孤立于生命的结尾

  • 博客(134)
  • 资源 (3)
  • 收藏
  • 关注

转载 git项目单独指定用户名和密码

git

2022-07-11 15:24:44 3785

转载 git修改已提交的MergeRequests

git修改已提交的MergeRequest

2022-06-09 11:52:51 1131

原创 idea-命令记录

idea命令

2022-06-08 14:55:59 256

转载 mac下解决开机需要每次ssh-add的问题

最近倒腾新电脑环境,用过git的应该都知道,git管理项目可以有两种方式来clone代码,https和ssh,https方式clone直接可以拉下来代码,就是每次push什么的需要输入用户名密码。还有一种方式是ssh,这个就需要提前配置添加好ssh key,配置好之后push不需要用户名密码。ssh-keygen -t rsa -C “Your Email Address” -f '~/.ssh/file_name'命令生成密钥之后,mac机器需要每次开机ssh-add一遍私钥,实在是太麻烦,以前有个

2022-03-29 13:36:44 1937

原创 git 同步远程fork的项目

通过fork创建的项目,如果源代码远程仓库代码进行了更新,本地需要同步的话,可以在git上创建一个上游(upstream)仓库步骤列出已经存在的远程分支:git remote -v 关联的源代码远程仓库在自己本地库名字(upstream可以自定义):git remote add upstream https://github.com/xxx/aaa.git 拉取远程仓库:git fetch upstream 合并远程仓库:git merge upstream/master 推送自己本地..

2022-02-15 18:26:54 918 1

原创 公司排名一个简单的相似度算法

如果一个公司真实排名为x1,而你的打分排名是x2,怎么弄一个合理的评分数呢?对差值的绝对值进行打分|x1-x2|=0 得3分(6的一半)|x1-x2|>=3得0分|x1-x2|<3 得(6-|差值|)分满分3 *6分,这样对6个排名,就可以算出得分了相似度 = sum(得分)/(3*6)x100(%)样例:1 微信 1 微信2 支付宝 2 抖音3 淘宝 3 搜狗输入法4 搜狗输入...

2021-07-14 17:34:03 345

原创 windows10链接失败解决办法

一.错误描述:无法建立计算机与VPN服务器之间的网络连接...原因是L2TP连接需要IPSec加密,远程服务器未响应说明IPSec加密被禁用了,需要在注册表启用它,具体步骤如下:1、Win+R调出运行菜单,输入regedit,回车2、找到:HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\RasMan\Parameters...

2020-11-11 14:57:25 12293

原创 spark dataframe 解析复杂 json

package com.analysys.bacth.etl.stgimport com.analysys.logger.AnalysysLoggerimport org.apache.log4j.{Level, Logger}import org.apache.spark.sql.types._import org.apache.spark.sql.{SparkSession, functions}object StgDevUserNetInfo extends AnalysysLogge.

2020-07-06 16:48:42 774

原创 pip 国内镜像

pip 国内镜像1、sudo pip3 install -ihttps://pypi.tuna.tsinghua.edu.cn/simple gygame2、sudo pip3 install -ihttps://pypi.tuna.tsinghua.edu.cn/simple opencv-python

2020-06-13 11:59:17 195

转载 HDFS存储策略

我们在安装HDFS的时候,我们在hdfs-site.xml配置过DataNode的数据存储的文件目录,如下: 1 2 3 4 5 <property> <name>dfs.datanode.data.dir</name> <value>/home/hadoop-twq/bigdata/dfs/data</value> <descri...

2020-06-01 15:36:35 1063

原创 Hive 优雅的统计表(分区)numRows

## 只在HIVE中生效,SparkSQL中不生效 #### 非ORC文件会触发MapReduce任务进行统计-- 非分区表ANALYZE TABLE tmp.imei_md5_orc_zlib_bloom COMPUTE STATISTICS;-- 分区表ANALYZE TABLE stg.stg_dev_user_bhv_d PARTITION(day='20200425', s...

2020-04-28 16:29:46 2049

原创 Hive不同存储格式下的压缩算法对比

压缩算法 Text格式 Parquet格式 ORC格式 不压缩 119.2G 54.1G 20.0G Snappy压缩 30.2 G 23.6G 1...

2020-04-27 19:15:34 629

原创 Spark写入HBase(BulkLoad方式)

在使用Spark时经常需要把数据落入HBase中,如果使用普通的Java API,写入会速度很慢。Spark提供了Bulk写入方式的接口。那么Bulk写入与普通写入相比有什么优势呢?BulkLoad不会写WAL,也不会产生flush以及split。 如果我们大量调用PUT接口插入数据,可能会导致大量的GC操作。除了影响性能之外,严重时甚至可能会对HBase节点的稳定性造成影响。但是采用Bul...

2020-04-20 14:36:19 1358 1

转载 flink集群的搭建与部署

运行环境linux-CentOS6.8 hadoop-2.7.5 Scala-2.11.6 jdk-1.8 flink-1.7.1-bin-hadoop27-scala_2.11.tgzflink搭建1.下载下载地址:http://flink.apache.org/downloads.html根据自己集群环境的情况,下载相应的flink版本。上面描述我的集群环境是hado...

2019-12-02 11:26:54 653

原创 Mac Intellij IDEA中pyspark的环境搭建

背景 默认python项目已经导入idea,Mac本地已经安装好python。步骤1、Mac本地安装pysparkbrew install pandoc##不可以用root安装,而且安装很慢;建议下载Mac安装包手动安装 http://johnmacfarlane.net/pandoc/installing.htmlpip install pyspark==...

2019-11-27 11:36:27 808

原创 将master分支合并到dev分支

步骤如下:流程如下:一、将分支切换到mastergit checkout master二、将代码pull到本地git pull三、修改冲突四、提交到本地git add .git commit -m "merge"五、切换到你所在分支devgit checkout dev六、mergegit merge master七、将本地内容push到dev分支git push...

2019-11-15 14:10:51 2025 1

原创 1024的感悟

今天是个平常的日子,依旧是工作敲代码,但不知道是谁,给今天命名为程序员节。 回顾过往,自己作为一个程序员也已经4年多。大学中的计算机科学与技术,进入社会中的html、mysql、java,转而又投入了大数据的怀抱 mr、pig、hdsf、hive、hbase、spark。技术的世界是一个无穷无尽的海洋,我们只是其中的一只鱼,想要有一片舒适的海域。 ...

2019-10-24 18:52:21 262

原创 Maven配置国内镜像

找到Maven的安装路径,修改maven里的settings.xml文件的属性,在<mirrors></mirrors>新增<mirror> <id>nexus</id> <mirrorOf>*</mirrorOf> <url>http://maven.ali...

2019-09-29 13:43:10 218

原创 Spark Core 学习整理

闭包闭包的大致作用就是:函数可以访问函数外面的变量,但是函数内对变量的修改,在函数外是不可见的。首先,闭包是一个函数,然后,也是最本质的地方:这个函数内部会引用(依赖)到一些变量,这些变量既不是全局的也不是局部的,而是在定义在上下文中的(这种变量被称为“自由变量”,我们会在稍后的例子中看到这种变量),闭包的“神奇”之处是它可以“cache”或者说是持续的“trace”它所引用的这些变量。...

2019-09-26 11:33:19 130

转载 spark aggregate函数详解

aggregate算是spark中比较常用的一个函数,理解起来会比较费劲一些,现在通过几个详细的例子带大家来着重理解一下aggregate的用法。1.先看看aggregate的函数签名在spark的源码中,可以看到aggregate函数的签名如下:def aggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U, combOp...

2019-08-19 16:24:56 3100

原创 Spark UI 学习整理

Spark-CoreSpark-SqlSQLHiveTableScan:扫描hive表 WholeStageCodegen:将多个operators合并成一个java函数,从而提高执行速度 HashAggregate:基于Hash Map 的聚合实现,如sum,count Project:投影/只取所需列 Exchange:stage间隔,产生了shuffle Filter...

2019-08-19 11:26:02 445

转载 spark partition 理解 / coalesce 与 repartition的区别

一.spark 分区 partition的理解:spark中是以vcore级别调度task的。如果读取的是hdfs,那么有多少个block,就有多少个partition举例来说:sparksql 要读表T, 如果表T有1w个小文件,那么就有1w个partition这时候读取效率会较低。假设设置资源为 --executor-memory 2g --executor-cores 2 --...

2019-08-15 11:12:44 414

原创 Mac 修改命令提示符界面

# 命令提示符export PS1="\[\e[32m\][\u@\h \W]$\[\e[m\] "# 目录、文件颜色export CLICOLOR=1export LSCOLORS=gxfxaxdxcxegedabagacad

2019-08-07 10:17:24 759

原创 simpleHTTPServer文件传输

进入到各个Server的文件目录server1:python -m SimpleHTTPServer 10001server2:wget http://10.10.10.10:10001/deviceid.tar.gz

2019-07-31 16:15:32 1015

原创 hive存储格式parquet

Hive0.13以后的版本创建存储格式为parquet的hive表:CREATE TABLE parquet_test (id int,str string,mp MAP<STRING,STRING>,lst ARRAY<STRING>,strct STRUCT<A:STRING,B:STRING>)PARTITIONED BY...

2019-07-26 16:53:20 10790

转载 hive使用压缩

转载地址:https://zhuanlan.zhihu.com/p/34437382hive中的数据使用压缩的好处(执行查询时会自动解压):可以节约磁盘的空间,基于文本的压缩率可达40%+; 压缩可以增加吞吐量和性能量(减小载入内存的数据量),但是在压缩和解压过程中会增加CPU的开销。所以针对IO密集型的jobs(非计算密集型)可以使用压缩的方式提高性能。主流的压缩算法查看集群的支...

2019-07-24 18:45:11 495

原创 Mac安装Mysql-python

Mac OS 10.12.6 (16G1815)、python 2.7// brew不能用root用户安装只能用登录用户,安装后软件的目录为 /usr/local/Cellar/softnamebrew install mysqlbrew unlink mysqlbrew install mysql-connector-csed -i -e 's/libs="$libs -l "...

2019-07-24 14:33:11 273

原创 Hive向SparkSQL迁移总结

Hive & SparkSQL使用不同点hive中对空格、制表符、大小写的不明感,spark-sql中敏感(通过压缩sql,去掉敏感符号;字段大小写要匹配) 在shell中提交hive -e 和spark-sql -e,spark-sql需要用""显式的把字符串引起来 spark-sql -e 执行时转义符号需要修改为[],而不可以使用//SparkSQL优化(Spark2...

2019-07-11 11:10:26 2237 14

原创 git托管上线规范

序号 具体步骤 执行人 备注 1 在测试机 xxx@xxx:/xxx中修改 自建自己到开发分支,并在上面修改 确定好分支再修改,禁止在master分支上操作 Developer 2 代码测试,并可行 Developer ...

2019-07-08 18:23:50 125

原创 maven打包日常总结

1、将第三方依赖性jar包中的文件打包入jar中,打包时修改引入jar包的包名,防止包冲突 <!--将第三方依赖性jar包中的文件打包入jar中--> <plugin> <groupId>org.apache.maven.plugins</groupId> ...

2019-06-06 11:25:28 378

原创 SparkStreaming-Kafka数据的消费

1、保证元数据恢复,就是Driver端挂了之后数据仍然可以恢复// 创建StreamingContext对象val ssc: StreamingContext = StreamingContext.getOrCreate(checkpointPath, () => BatchProcessTopic.createContext(brokers, topics, batc...

2019-05-23 15:52:48 662

原创 SparkStreaming-日志的等级的设置

我们在构建项目的时候日志等级设置是很有必要,日志太多太乱会直接影响我们的判读,SparkStreaming由于是流式处理日志会更加的多。1、屏蔽系统日志//请注意是apache.log4j不是org.slf4jimport org.apache.log4j.{Level, Logger}// 屏蔽不必要的日志 ,在终端上显示需要的日志 Logger.getLogger("...

2019-05-23 15:44:36 2011

原创 jieba分词器关键词提取在spark中的应用(java版-scala调用)

启动spark-shell## jieba-analysis-1.0.3-SNAPSHOT.jar 为bluemapleman提供,作者进行了打包。链接: https://pan.baidu.com/s/1FeSkrueoXB303_KnsExPog 提取码: negi spark-shell--jars jieba-analysis-1.0.3-SNAPSHOT.jar执行代码...

2019-05-07 11:49:47 2699

转载 通过maven命令手动安装jar到本地仓库

使用maven来管理构件项目的时候往往会遇到这样一个问题,你的项目依赖于一个第三方的jar(这里就拿jar类型的构件举例了),但是这个jar在maven的中心仓库没,这时怎么在pom.xml中引用这个third.jar呢?在pom中引用依赖的的第三方构件的时候,这些构件可以是来源于maven的公共仓库central,也可以是位于自己机器上的本地仓库,当然也可以是自己搭建的nexus私...

2019-05-07 11:29:31 1594

原创 CentOS 6.10安装Python2.7.3(包含setuptools、pip)

安装注意事项:千万不要卸载系统的python,可能会导致yum无法使用,甚至有重新装机的风险 注意程序的安装路径 注意版本的冲突安装准备查看当前系统中的python版本python --version返回Python 2.6.6为正常。检查CentOS版本cat /etc/redhat-release返回CentOS release 6.10 (Final...

2019-04-30 14:48:28 632

原创 spark-sql 手动动态指定控制台输出日志级别

登录服务器客户端 把spark/conf/log4j.properties.template 复制到A用户根目录 (改名为log4j.properties),修改其中的一行为log4j.rootCategory=WARN, console 启动spark-sql spark-sql--conf"spark.driver.extraJavaOptions=-Dlog...

2019-04-18 16:45:28 885

转载 Hadoop中查看HDFS中的一个文件的位置信息

指令hadoop fsck /user/hadoop/filename-files -blocks-locations-racks-files 文件分块信息,-blocks 在带-files参数后才显示block信息-locations 在带-blocks参数后才显示block块所在datanode的具体IP位置,-racks 在带-files参数后...

2019-04-11 14:16:56 6311

原创 Spark DataFrame 学习整理

import org.apache.spark.sql.{SQLContext, Row}import org.apache.spark.sql.types.{StringType, IntegerType, StructField, StructType}import org.apache.spark.sql.hive.HiveContextimport sqlContext.impli...

2019-03-11 17:36:17 191

原创 Spark DataFrame pivot()实现分组、透视、求和

问题:对A列和B列进行分组,然后在C列上进行透视操作并对D列数据进行求和实现功能如下:实现方式:Spark中语法为:df.groupBy(“A”, “B”).pivot(“C”).sum(“D”),显然这种语法格式非常直观,但这其中也有个值得注意的地方:为取得更好的性能,需要明确指定透视列对应的不同值,例如如果C列有两个不同的值(small 和 ...

2019-03-07 16:10:37 7209

原创 将以有的项目发布到github上

1、在github上创建项目(最好本地项目名称和git项目名称相同)2、在本地项目的根目录下进行操作# 当前项目的目录中生成本地的git管理(会发现在当前目录下多了一个.git文件夹)git init# 将项目上所有的文件添加到仓库中的意思,如果想添加某个特定的文件,只需把.换成这个特定的文件名即可# 注意事项:git不能添加为空的目录git add .# 第一次提交git ...

2019-02-28 15:28:40 138

A_Comparison_of_ORC-Compress_Performance_with_Big_.pdf

A_Comparison_of_ORC-Compress_Performance_with_Big_.pdf

2020-05-08

jieba分词器包含关键词提取(java版)

jieba分词器包含关键词提取(java版,可以使用scala调用)

2019-05-07

hive入门资料

hive函数大全,hive中的一些hive函数,以及具体的实例

2018-04-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除