听见下雨的声音hb-CSDN博客

转载 git修改已提交的MergeRequests

git修改已提交的MergeRequest

2022-06-09 11:52:51 1131

最近倒腾新电脑环境，用过git的应该都知道，git管理项目可以有两种方式来clone代码，https和ssh，https方式clone直接可以拉下来代码，就是每次push什么的需要输入用户名密码。还有一种方式是ssh,这个就需要提前配置添加好ssh key，配置好之后push不需要用户名密码。ssh-keygen -t rsa -C “Your Email Address” -f '~/.ssh/file_name'命令生成密钥之后，mac机器需要每次开机ssh-add一遍私钥，实在是太麻烦，以前有个

2022-03-29 13:36:44 1937

原创 git 同步远程fork的项目

通过fork创建的项目，如果源代码远程仓库代码进行了更新，本地需要同步的话，可以在git上创建一个上游（upstream）仓库步骤列出已经存在的远程分支：git remote -v 关联的源代码远程仓库在自己本地库名字(upstream可以自定义)：git remote add upstream https://github.com/xxx/aaa.git 拉取远程仓库：git fetch upstream 合并远程仓库：git merge upstream/master 推送自己本地..

2022-02-15 18:26:54 918 1

原创公司排名一个简单的相似度算法

如果一个公司真实排名为x1,而你的打分排名是x2，怎么弄一个合理的评分数呢？对差值的绝对值进行打分|x1-x2|=0 得3分（6的一半)|x1-x2|>=3得0分|x1-x2|<3 得(6-|差值|)分满分3 *6分，这样对6个排名，就可以算出得分了相似度 = sum(得分)/(3*6)x100(%)样例：1 微信 1 微信2 支付宝 2 抖音3 淘宝 3 搜狗输入法4 搜狗输入...

2021-07-14 17:34:03 345

原创 windows10链接失败解决办法

一.错误描述：无法建立计算机与VPN服务器之间的网络连接...原因是L2TP连接需要IPSec加密，远程服务器未响应说明IPSec加密被禁用了，需要在注册表启用它，具体步骤如下：1、Win+R调出运行菜单，输入regedit，回车2、找到：HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\RasMan\Parameters...

2020-11-11 14:57:25 12293

原创 spark dataframe 解析复杂 json

package com.analysys.bacth.etl.stgimport com.analysys.logger.AnalysysLoggerimport org.apache.log4j.{Level, Logger}import org.apache.spark.sql.types._import org.apache.spark.sql.{SparkSession, functions}object StgDevUserNetInfo extends AnalysysLogge.

2020-07-06 16:48:42 774

原创 pip 国内镜像

pip 国内镜像1、sudo pip3 install -ihttps://pypi.tuna.tsinghua.edu.cn/simple gygame2、sudo pip3 install -ihttps://pypi.tuna.tsinghua.edu.cn/simple opencv-python

2020-06-13 11:59:17 195

转载 HDFS存储策略

我们在安装HDFS的时候，我们在hdfs-site.xml配置过DataNode的数据存储的文件目录，如下： 1 2 3 4 5 <property> <name>dfs.datanode.data.dir</name> <value>/home/hadoop-twq/bigdata/dfs/data</value> <descri...

2020-06-01 15:36:35 1063

原创 Hive 优雅的统计表（分区）numRows

## 只在HIVE中生效，SparkSQL中不生效 #### 非ORC文件会触发MapReduce任务进行统计-- 非分区表ANALYZE TABLE tmp.imei_md5_orc_zlib_bloom COMPUTE STATISTICS;-- 分区表ANALYZE TABLE stg.stg_dev_user_bhv_d PARTITION(day='20200425', s...

2020-04-28 16:29:46 2049

原创 Hive不同存储格式下的压缩算法对比

压缩算法 Text格式 Parquet格式 ORC格式不压缩 119.2G 54.1G 20.0G Snappy压缩 30.2 G 23.6G 1...

2020-04-27 19:15:34 629

原创 Spark写入HBase（BulkLoad方式）

在使用Spark时经常需要把数据落入HBase中，如果使用普通的Java API，写入会速度很慢。Spark提供了Bulk写入方式的接口。那么Bulk写入与普通写入相比有什么优势呢？BulkLoad不会写WAL，也不会产生flush以及split。如果我们大量调用PUT接口插入数据，可能会导致大量的GC操作。除了影响性能之外，严重时甚至可能会对HBase节点的稳定性造成影响。但是采用Bul...

2020-04-20 14:36:19 1358 1

转载 flink集群的搭建与部署

运行环境linux-CentOS6.8 hadoop-2.7.5 Scala-2.11.6 jdk-1.8 flink-1.7.1-bin-hadoop27-scala_2.11.tgzflink搭建1.下载下载地址：http://flink.apache.org/downloads.html根据自己集群环境的情况，下载相应的flink版本。上面描述我的集群环境是hado...

2019-12-02 11:26:54 653

原创 Mac Intellij IDEA中pyspark的环境搭建

背景默认python项目已经导入idea，Mac本地已经安装好python。步骤1、Mac本地安装pysparkbrew install pandoc##不可以用root安装，而且安装很慢；建议下载Mac安装包手动安装 http://johnmacfarlane.net/pandoc/installing.htmlpip install pyspark==...

2019-11-27 11:36:27 808

原创将master分支合并到dev分支

步骤如下：流程如下：一、将分支切换到mastergit checkout master二、将代码pull到本地git pull三、修改冲突四、提交到本地git add .git commit -m "merge"五、切换到你所在分支devgit checkout dev六、mergegit merge master七、将本地内容push到dev分支git push...

2019-11-15 14:10:51 2025 1

原创 1024的感悟

今天是个平常的日子，依旧是工作敲代码，但不知道是谁，给今天命名为程序员节。回顾过往，自己作为一个程序员也已经4年多。大学中的计算机科学与技术，进入社会中的html、mysql、java，转而又投入了大数据的怀抱 mr、pig、hdsf、hive、hbase、spark。技术的世界是一个无穷无尽的海洋，我们只是其中的一只鱼，想要有一片舒适的海域。 ...

2019-10-24 18:52:21 262

原创 Maven配置国内镜像

找到Maven的安装路径，修改maven里的settings.xml文件的属性，在<mirrors></mirrors>新增<mirror> <id>nexus</id> <mirrorOf>*</mirrorOf> <url>http://maven.ali...

2019-09-29 13:43:10 218

原创 Spark Core 学习整理

闭包闭包的大致作用就是：函数可以访问函数外面的变量，但是函数内对变量的修改，在函数外是不可见的。首先，闭包是一个函数，然后，也是最本质的地方：这个函数内部会引用（依赖）到一些变量，这些变量既不是全局的也不是局部的，而是在定义在上下文中的（这种变量被称为“自由变量”，我们会在稍后的例子中看到这种变量），闭包的“神奇”之处是它可以“cache”或者说是持续的“trace”它所引用的这些变量。...

2019-09-26 11:33:19 130

转载 spark aggregate函数详解

aggregate算是spark中比较常用的一个函数，理解起来会比较费劲一些，现在通过几个详细的例子带大家来着重理解一下aggregate的用法。1.先看看aggregate的函数签名在spark的源码中，可以看到aggregate函数的签名如下：def aggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U, combOp...

2019-08-19 16:24:56 3100

原创 Spark UI 学习整理

Spark-CoreSpark-SqlSQLHiveTableScan：扫描hive表 WholeStageCodegen：将多个operators合并成一个java函数，从而提高执行速度 HashAggregate：基于Hash Map 的聚合实现，如sum，count Project：投影/只取所需列 Exchange：stage间隔，产生了shuffle Filter...

2019-08-19 11:26:02 445

转载 spark partition 理解 / coalesce 与 repartition的区别

一.spark 分区 partition的理解：spark中是以vcore级别调度task的。如果读取的是hdfs，那么有多少个block，就有多少个partition举例来说：sparksql 要读表T, 如果表T有1w个小文件，那么就有1w个partition这时候读取效率会较低。假设设置资源为 --executor-memory 2g --executor-cores 2 --...

2019-08-15 11:12:44 414

原创 Mac 修改命令提示符界面

# 命令提示符export PS1="\[\e[32m\][\u@\h \W]$\[\e[m\] "# 目录、文件颜色export CLICOLOR=1export LSCOLORS=gxfxaxdxcxegedabagacad

2019-08-07 10:17:24 759

原创 simpleHTTPServer文件传输

进入到各个Server的文件目录server1：python -m SimpleHTTPServer 10001server2：wget http://10.10.10.10:10001/deviceid.tar.gz

2019-07-31 16:15:32 1015

原创 hive存储格式parquet

Hive0.13以后的版本创建存储格式为parquet的hive表：CREATE TABLE parquet_test (id int,str string,mp MAP<STRING,STRING>,lst ARRAY<STRING>,strct STRUCT<A:STRING,B:STRING>)PARTITIONED BY...

2019-07-26 16:53:20 10790

转载 hive使用压缩

转载地址：https://zhuanlan.zhihu.com/p/34437382hive中的数据使用压缩的好处(执行查询时会自动解压)：可以节约磁盘的空间，基于文本的压缩率可达40%+; 压缩可以增加吞吐量和性能量(减小载入内存的数据量)，但是在压缩和解压过程中会增加CPU的开销。所以针对IO密集型的jobs(非计算密集型)可以使用压缩的方式提高性能。主流的压缩算法查看集群的支...

2019-07-24 18:45:11 495

原创 Mac安装Mysql-python

Mac OS 10.12.6 (16G1815)、python 2.7// brew不能用root用户安装只能用登录用户，安装后软件的目录为 /usr/local/Cellar/softnamebrew install mysqlbrew unlink mysqlbrew install mysql-connector-csed -i -e 's/libs="$libs -l "...

2019-07-24 14:33:11 273

原创 Hive向SparkSQL迁移总结

Hive & SparkSQL使用不同点hive中对空格、制表符、大小写的不明感，spark-sql中敏感（通过压缩sql，去掉敏感符号；字段大小写要匹配）在shell中提交hive -e 和spark-sql -e，spark-sql需要用""显式的把字符串引起来 spark-sql -e 执行时转义符号需要修改为[]，而不可以使用//SparkSQL优化(Spark2...

2019-07-11 11:10:26 2237 14

原创 git托管上线规范

序号具体步骤执行人备注 1 在测试机 xxx@xxx:/xxx中修改自建自己到开发分支，并在上面修改确定好分支再修改，禁止在master分支上操作 Developer 2 代码测试，并可行 Developer ...

2019-07-08 18:23:50 125

原创 maven打包日常总结

1、将第三方依赖性jar包中的文件打包入jar中，打包时修改引入jar包的包名，防止包冲突  <plugin> <groupId>org.apache.maven.plugins</groupId> ...

2019-06-06 11:25:28 378

原创 SparkStreaming-Kafka数据的消费

1、保证元数据恢复，就是Driver端挂了之后数据仍然可以恢复// 创建StreamingContext对象val ssc: StreamingContext = StreamingContext.getOrCreate(checkpointPath, () => BatchProcessTopic.createContext(brokers, topics, batc...

2019-05-23 15:52:48 662

原创 SparkStreaming-日志的等级的设置

我们在构建项目的时候日志等级设置是很有必要，日志太多太乱会直接影响我们的判读，SparkStreaming由于是流式处理日志会更加的多。1、屏蔽系统日志//请注意是apache.log4j不是org.slf4jimport org.apache.log4j.{Level, Logger}// 屏蔽不必要的日志 ,在终端上显示需要的日志 Logger.getLogger("...

2019-05-23 15:44:36 2011

原创 jieba分词器关键词提取在spark中的应用（java版-scala调用）

启动spark-shell## jieba-analysis-1.0.3-SNAPSHOT.jar 为bluemapleman提供，作者进行了打包。链接: https://pan.baidu.com/s/1FeSkrueoXB303_KnsExPog 提取码: negi spark-shell--jars jieba-analysis-1.0.3-SNAPSHOT.jar执行代码...

2019-05-07 11:49:47 2699

转载通过maven命令手动安装jar到本地仓库

使用maven来管理构件项目的时候往往会遇到这样一个问题，你的项目依赖于一个第三方的jar（这里就拿jar类型的构件举例了），但是这个jar在maven的中心仓库没，这时怎么在pom.xml中引用这个third.jar呢？在pom中引用依赖的的第三方构件的时候，这些构件可以是来源于maven的公共仓库central，也可以是位于自己机器上的本地仓库，当然也可以是自己搭建的nexus私...

2019-05-07 11:29:31 1594

原创 CentOS 6.10安装Python2.7.3（包含setuptools、pip）

安装注意事项：千万不要卸载系统的python，可能会导致yum无法使用，甚至有重新装机的风险注意程序的安装路径注意版本的冲突安装准备查看当前系统中的python版本python --version返回Python 2.6.6为正常。检查CentOS版本cat /etc/redhat-release返回CentOS release 6.10 (Final...

2019-04-30 14:48:28 632

原创 spark-sql 手动动态指定控制台输出日志级别

登录服务器客户端把spark/conf/log4j.properties.template 复制到A用户根目录 (改名为log4j.properties)，修改其中的一行为log4j.rootCategory=WARN, console 启动spark-sql spark-sql--conf"spark.driver.extraJavaOptions=-Dlog...

2019-04-18 16:45:28 885

转载 Hadoop中查看HDFS中的一个文件的位置信息

指令hadoop fsck /user/hadoop/filename-files -blocks-locations-racks-files 文件分块信息，-blocks 在带-files参数后才显示block信息-locations 在带-blocks参数后才显示block块所在datanode的具体IP位置，-racks 在带-files参数后...

2019-04-11 14:16:56 6311

原创 Spark DataFrame 学习整理

import org.apache.spark.sql.{SQLContext, Row}import org.apache.spark.sql.types.{StringType, IntegerType, StructField, StructType}import org.apache.spark.sql.hive.HiveContextimport sqlContext.impli...

2019-03-11 17:36:17 191

原创 Spark DataFrame pivot()实现分组、透视、求和

问题：对A列和B列进行分组，然后在C列上进行透视操作并对D列数据进行求和实现功能如下：实现方式：Spark中语法为：df.groupBy(“A”, “B”).pivot(“C”).sum(“D”)，显然这种语法格式非常直观，但这其中也有个值得注意的地方：为取得更好的性能，需要明确指定透视列对应的不同值，例如如果C列有两个不同的值（small 和 ...

2019-03-07 16:10:37 7209

原创将以有的项目发布到github上

1、在github上创建项目(最好本地项目名称和git项目名称相同)2、在本地项目的根目录下进行操作# 当前项目的目录中生成本地的git管理（会发现在当前目录下多了一个.git文件夹）git init# 将项目上所有的文件添加到仓库中的意思，如果想添加某个特定的文件，只需把.换成这个特定的文件名即可# 注意事项：git不能添加为空的目录git add .# 第一次提交git ...

2019-02-28 15:28:40 138

A_Comparison_of_ORC-Compress_Performance_with_Big_.pdf

jieba分词器包含关键词提取（java版）

hive入门资料

空空如也