Tardis1-CSDN博客

原创面试的感受

1，铂涛旅行投递的是大数据开发工程师，面试的时候是ETL工程师流程:先写一份试卷，试卷内容大致如下: 1，数据维度的概念，结合平时相关 2，数据库和数据仓库的区别 3，用过什么ETL工具 4，做一道题目面试主要注重的是数据的采集，要想好怎么答结合平时工作2，青木科技这是一家比较不正规的公司第一轮面试，算是负责人面试问问你做过什么之类的，主要是会Hase和写一些pyt...

2018-04-17 22:44:29 572

原创 Hive的优化历程

公司的系统想要转型，由我和项目经理两个人来完成从传统的数据库向HIVE+HADOOP_+SPARK，用以满足日益膨胀的大量数据。对于将数据存储在Hive，进行了以下的优化: 1,Hive的引擎目前为止有三种，分别为MR,TEZ,SPRAK.由于公司用的是Hive1.2.1,spark是老版本1.6.2,我查了hive on spark 的网页后发现这个hive version 不支持我目前...

2018-03-09 23:46:26 1342

原创决策树、随机森林的思路和spark实现

一、决策树 1、概念 2、构造决策树的思路流程算法名：Generate_decisione_tree D:表示所有数据的集合 attribute_list,代表所有数据中属性的集合 Attribute_selection_method: 表示通过某个方法，得到进行分类的最适合的属性 3、如何实现Attribute_selection_method (1)使用信息增益的ID3

2017-12-26 15:24:51 710

原创 Spark----管道的概念与例子

一、管道的概念学习来源:Spark官网对管道的描述 1、管道的几个基本概念： (1)DataFrame:其实就是DataSet的集合，可以理解为，dataset为某张表里面的一行，那么行的集合就是一张表，所以dataFrame就是一张表，但是表的field比较丰富，可以有向量，在很多算法里面，向量的使用是必不可少的; (2)Transformer:作用就是将DataFrame A 变成 D

2017-12-11 23:12:41 1680

原创 Sprak Java 推荐算法的思路和实现

推荐算法在org.apache.spark.ml.recommendation 或者org.apache.spark.mlib.recommendation下面相比于org.apache.spark.mlib.recommendation面向RDD算子来计算，org.apache.spark.ml.recommendation面向DataFrame来计算，往后spark会逐渐采用datafra

2017-12-02 16:15:41 10468

原创 Spark Java 用 KMeans算法实现图片压缩

压缩前：981 KB 压缩后：111 KB 思路：取得图片每一点的像素，组成向量Vector如下：（w，h，R,G,B）；设置目的K值，训练所有点，获得KMeansModel；此遍历所有的点，利用模型预测每个点属于哪个中心点，同时改变这个点的R,G,B值使这个点的颜色与这个点所在的集合相同；重新利用收集的数据画出图片。一共需要两个类，一个处理跟图片相关，一个处理KMean

2017-09-21 11:50:04 1145

原创单线程解析文件，根据文件关键词进行统计，并将结果输出(二)

上一篇：单线程解析文件，根据文件关键词进行统计，并将结果输出(一)中得到总结是：AllHandler类获得文件流，进行遍历每一行数据，将符合关键字的每一行数据，交给对应的处理器loadFileHandler、udpConnectHandler处理。本小节目标：完成AllHandler类的设计1、首先获取文件流：利用BufferReader和FileReader实现，避免使

2016-06-17 15:55:40 585

原创单线程解析文件，根据文件关键词进行统计，并将结果输出(一)

待解析的文件：race_dc_2016-05-26文件大小70W行，其中文件中部分数据如下：[udpconnect 忘记自己 Udp_Connect 第0次连接成功 223.89.5.212016-05-26 00:00:24][udpconnect 忘记自己 Udp_Init_Stream 第0次init成功223.89.5.21 2016-05-26 00:00:24]

2016-06-14 16:57:48 714

原创终极版：Andorid手机流量监测思路与代码实现（一）

首先，先上效果图：包括本月总的wifi流量和234g流量，同时能够统计出本日使用wifi和234g流量最多的APP，并且进行排序（事实上，实现了：每一个APP的每一天和手机总流量的数据都存在SQLite中，所以你想怎样显示就怎样显示）一、前期准备：关于Android系统自带API，TrafficStack的使用，其中uid是指每个APP独一无二的标示，在Android中，第三方APP标志大于

2016-05-02 16:20:11 3240 9

原创梯度消失以及爆炸引入xavier对每层输出和权重分布做限制

因此引入Xavier来限制每层输出h满足均值为1，方差为a（超参数）的分布。去掉正则，激活算下三层MLP每一层权重梯度可以看到层层相扣。具体计算不算了知道有这个就行了，pytorch引用很方便。同理也限制每层权重W满足均值为1方差为a的分布。疑问：批量归一化也做了限制，那有冲突吗。如果W太大太小层数太多就会有问题。

2023-06-10 14:14:49 87

原创 ReLu 和 Dropout的疑问

我就在想两者作用是不是都一样，因为都是让一些因子为0失去作用。Dropout ： h在一定概率p(超参数自己调节)下为0。同样是使得某些因子失效，可以防止过拟合。作用就是把隐藏层结果小于0的因子剔除。h在1-p的概率下为h/(1-p)而且dropout 有缩放功能。dropout 是随机。

2023-05-12 17:02:44 205

原创 Hive3面试基础

面试准备之Hive回顾基本知识效率优化提示：以下是本篇文章正文内容，下面案例可供参考提示：这里对文章进行总结：例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

2023-05-04 08:53:31 516

原创随机森林做用户扩散模型

背景：数据：特征处理：模型设置：调参：效果：

2019-03-29 13:53:26 375

原创弹窗统计

target：指标弹窗的曝光人数，次数，占首页UV和PV的占比弹窗给5星好评按钮点击人数，次数，占弹窗曝光人数或次数的占比弹窗去反馈按钮点击人数，次数，占弹窗曝光人数或次数的占比弹窗关闭按钮点击人数，次数，占弹窗曝光人数或次数的占比点击关闭后二次弹出弹窗的曝光人数，次数，占首页UV和PV的占比点击关闭后二次弹出弹窗给5星好评按钮点击人数...

2018-06-27 09:29:02 514

转载有用的语句

USE eagle; set hive.execution.engine=spark; USE eagle; USE view_huanju; USE kaixindou; CREATE TEMPORARY FUNCTION urldecode AS ‘com.hiido.hive.udf.URLDecodeUDF’;— tmp0create temporary table tm...

2018-06-22 09:34:58 260

原创窗口函数

1，窗口函数举例: create table company （dep string, –部门 employ_id string, –员工id salary double）–员工薪水找出每个部门，薪水排名前三的员工id hive，sql，mysql 。。。都适合用select * from (select dep ,employ_id , rank...

2018-06-10 14:52:49 444

原创 java hdfs 上传下载工具类

package com.apache.spark.test.hdfs;import java.io.InputStream; import java.net.URI; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileStatus; import org.apache.ha

2018-01-29 23:48:09 340

原创 Spark maven

斯蒂芬斯蒂芬是的project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xs

2018-01-22 22:42:28 435

原创数据开发面试经验

1、降低维度 2、cart算法 3、数学公式微积分 4、聚类算法思路 5、决策树思路 6、处理多少数据 7、项目经验 8、神经网络 9、决策树回归CART 10、上百度最多的ip 11、sql基本题目 12、什么时候用什么算法，算法的运用情况

2018-01-16 23:21:16 576

原创数据开发面试准备

1、datanode、namenode、resourceManager，NodeManger的区别和流程 http://www.aboutyun.com/thread-7778-1-1.html 2、hadoop map-reducer的流程，combine的作用 http://blog.csdn.net/lisonglisonglisong/article/details/47125319

2018-01-10 23:44:36 413

原创解决Maven安装配置的java环境变量错误

用一次性解决的办法：假设你的java的jdk安装目录为: E:\JAVA\bin进入maven安装目录:打开mvn这个文件，把JAVA_HOME给固定死，这样就不会老是报莫名其妙的错，也不用管什么麻烦的配置了

2017-09-23 11:17:46 623

原创 Spark 自带 demo 的学习总结

1.the way that to build the RDD(1) generate from the folder : offer the folder path which has been upload the hdfsSparkSession spark = SparkSession .builder() .appName("JavaHdfsLR"

2017-09-02 10:35:22 885

原创 Spark 自带demo学习日志

the way that to build the RDD (1) generate from the folder : offer the folder path which has been upload the hdfsSparkSession spark = SparkSession .builder() .appName("JavaHdfsLR").master("

2017-09-01 23:39:32 555

原创 System memory 249364480 must be at least 471859200

我是在eclipse run遇到这个问题的，所以解决办法是来到这里加上:表示运行的时候虚拟空间最小为128，最大为512

2017-08-27 23:31:58 1894

原创运行 Spark错误 A master URL must be set in your configuration

A master URL must be set in your configuration:在linux上面run java写的代码的时候，报错，应该增加如下部分:hadoop为master的别名

2017-08-27 23:24:29 941

转载 Hadoop学习(1)——MapReduce的原理和操作

MapReduce的流程图名词解释：Map的过程：每个输入分片会让一个map任务来处理，默认情况下，以HDFS的一个块的大小（默认为64M）为一个分片，当然我们也可以设置块的大小。map输出的结果会暂且放在一个环形内存缓冲区中（该缓冲区的大小默认为100M，由io.sort.mb属性控制），当该缓冲区快要溢出时（默认为缓冲区大小的80%，由io.sort.spill.percent属性控制）

2017-08-20 19:48:10 351

转载 Hadoop学习之路-----不同进程通信的代理对象

代理模式的作用是：为其他对象提供一种代理以控制对这个对象的访问。在某些情况下，一个客户不想或者不能直接引用另一个对象，而代理对象可以在客户端和目标对象之间起到中介的作用。代理模式一般涉及到的角色有：　　抽象角色：声明真实对象和代理对象的共同接口；　　代理角色：代理对象角色内部含有对真实对象的引用，从而可以操作真实对象，同时代理对象提供与真实对象相同的接口以便在任何时刻

2017-07-30 10:42:57 279

所在的公司，现在想要利用jenkins实现自动化的部署，目标是，在eclipse上修改，将代码提交到团队的github中央仓库上，之后，利用jenkins连接github，在jenkins上里面将项目打包成一个ear包（实际上里面包含两个war用于前后端的发布）之后上传到nexus，成功后，利用部署工具G3来完成部署。首先面对的困难是，因为项目都是老掉牙的java项目，不是maven项目，不过也可以

2017-07-26 23:23:59 2911

原创欢迎使用CSDN-markdown编辑器

学习jenkins心得—->自动部署和发布最近由于工作需要，需要研究下怎么将原本的项目从RTC 的jazz 存储迁移到Git上，之后，理由nexus+G3实现远程Linux机器的自动部署，主要的开发环境如下：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗

2017-06-25 19:22:43 348

原创安装Maven出错注意事项

最近在安装Maven那么简单的东西居然花了我那么久，报错两次：1、ERROR: JAVA_HOME is set to an invalid directory.JAVA_HOME = D:/jdk1.5.0_15/bin;Please set the JAVA_HOME variable in your environment to match thelocation o

2017-03-14 21:02:30 688

原创 Could not find action or result：There is no Action mapped for namespace / and action name

跟着Struts2+Spring3+Hibenate学习，里面搞错了，建立的struts.xml 应该是 struts2.xml害的我搞了很久，这本书很不严谨！

2017-03-07 22:32:24 441

原创 Struts报没有找到org.apache.struts2.dispatcher.ng.filter.StrutsPrepareAndExecuteFilter

解决：重新下载新版的struts jar包，地址：http://download.csdn.net/detail/ahy1024/4626028

2017-03-07 22:30:23 1139

原创 Treeset根据值进行大小的排序

package com.hh.racejob.oneoff.levelrank;import java.sql.ResultSet;import java.sql.SQLException;import java.util.ArrayList;import java.util.Iterator;import java.util.List;import java.util.TreeSe

2016-07-08 10:24:23 3715

原创单线程解析文件，根据文件关键词进行统计，并将结果输出(三)

上一篇是：单线程解析文件，根据文件关键词进行统计，并将结果输出(二)完成了获取文件输入，并将每一行分发到对应的处理器的工具类，本次完成对应的三个工具类的实现。一、首先实现三个需要解析的文件的bean类：自己实现get和set方法/**待解析的loadFile关键字对应的bean以/t划分成四部分，其中第二部分用空格分开成三部分**/public class LoadFile{

2016-06-22 10:34:57 762

原创查看在eclipse中打不开的jar源码或者是查看.class并且修改

最简单直接的工具是利用jd—gui，下载地址如下：http://download.csdn.net/detail/eyebrows_cs/5277552只可以看不可以修改，想要修改，点击上面的file——save all sources保存成压缩文件，然后在压缩文件里面修改，最后在变成jar文件格式

2016-06-20 17:29:11 2414

原创队列的add（）方法和offer（）方法的区别

看API：add（）：Inserts the specified element at the tail of this queue. As the queue is unbounded, this method will never throw IllegalStateException or return false.offer（）：Inserts the specified el

2016-06-20 10:47:39 18792 3

原创 LinkedBlockingQueue 与ConcurrentLinkedQueue队列的不同与同

LinkedBlockingQueue 的API中，从队列中获取元素，有以下几个方法：1、take（）：原文：Retrieves and removes the head of this queue, waiting if necessary until an element becomes available.翻译完：从队列中取出元素E，如果队列为空，则阻塞该线程直到队列不为空拿出元素E位置；这...

2016-06-20 10:25:56 4662 1

原创 ConcurrentHashMap的优势与使用情况

来自权威书籍：Java并发编程实战;同步容器类在执行每个操作期间都持有一个锁。于HashMap不同，ConcurrentHashMap用了不同的枷锁策越来提供更高的并发性和伸缩性。ConcurrentHashMap并不是将每个方法都在同一个锁上同步，并使得每次只能有一个线程访问容器，而是用一种粒度更小的枷锁机制来实现更大程度的共享，这种机制成为分段锁(Lock Striping)。在这

2016-06-17 17:16:40 1305

android网络框架Volley

新闻开源项目

用Hive load数据到表里面，load成功之后无法进行select