自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(58)
  • 资源 (2)
  • 问答 (1)
  • 收藏
  • 关注

原创 面试的感受

1,铂涛旅行 投递的是大数据开发工程师,面试的时候是ETL工程师 流程:先写一份试卷,试卷内容大致如下: 1,数据维度的概念,结合平时相关 2,数据库和数据仓库的区别 3,用过什么ETL工具 4,做一道题目 面试主要注重的是数据的采集,要想好怎么答结合平时工作2,青木科技 这是一家比较不正规的公司 第一轮面试,算是负责人面试问问你做过什么之类的,主要是会Hase和写一些pyt...

2018-04-17 22:44:29 572

原创 Hive的优化历程

公司的系统想要转型,由我和项目经理两个人来完成从传统的数据库向HIVE+HADOOP_+SPARK,用以满足日益膨胀的大量数据。 对于将数据存储在Hive,进行了以下的优化: 1,Hive的引擎目前为止有三种,分别为MR,TEZ,SPRAK.由于公司用的是Hive1.2.1,spark是 老版本1.6.2,我查了hive on spark 的网页后发现这个hive version 不支持我目前...

2018-03-09 23:46:26 1342

原创 决策树、随机森林的思路和spark实现

一、决策树 1、概念 2、构造决策树的思路流程 算法名:Generate_decisione_tree D:表示所有数据的集合 attribute_list,代表所有数据中属性的集合 Attribute_selection_method: 表示通过某个方法,得到进行分类的最适合的属性 3、如何实现Attribute_selection_method (1)使用信息增益的ID3

2017-12-26 15:24:51 710

原创 Spark----管道的概念与例子

一、管道的概念 学习来源:Spark官网对管道的描述 1、管道的几个基本概念: (1)DataFrame:其实就是DataSet的集合,可以理解为,dataset为某张表里面的一行,那么行的集合就是一张表,所以dataFrame就是一张表,但是表的field比较丰富,可以有向量,在很多算法里面,向量的使用是必不可少的; (2)Transformer:作用就是将DataFrame A 变成 D

2017-12-11 23:12:41 1680

原创 Sprak Java 推荐算法的思路和实现

推荐算法在org.apache.spark.ml.recommendation 或者org.apache.spark.mlib.recommendation下面相比于org.apache.spark.mlib.recommendation面向RDD算子来计算,org.apache.spark.ml.recommendation面向DataFrame来计算,往后spark会逐渐采用datafra

2017-12-02 16:15:41 10468

原创 Spark Java 用 KMeans算法实现图片压缩

压缩前:981 KB 压缩后:111 KB 思路: 取得图片每一点的像素,组成向量Vector如下:(w,h,R,G,B); 设置目的K值,训练所有点,获得KMeansModel; 此遍历所有的点,利用模型预测每个点属于哪个 中心点,同时改变这个点的R,G,B值使这个点的颜色 与这个点所在的集合相同; 重新利用收集的数据画出图片。一共需要两个类,一个处理跟图片相关,一个处理KMean

2017-09-21 11:50:04 1145

原创 单线程解析文件,根据文件关键词进行统计,并将结果输出(二)

上一篇: 单线程解析文件,根据文件关键词进行统计,并将结果输出(一)中得到总结是:AllHandler类获得文件流,进行遍历每一行数据,将符合关键字的每一行数据,交给对应的处理器loadFileHandler、udpConnectHandler处理。本小节目标:完成AllHandler类的设计1、首先获取文件流:利用BufferReader和FileReader实现,避免使

2016-06-17 15:55:40 585

原创 单线程解析文件,根据文件关键词进行统计,并将结果输出(一)

待解析的文件:race_dc_2016-05-26文件大小70W行,其中文件中部分数据如下:[udpconnect 忘记自己 Udp_Connect 第0次连接成功 223.89.5.212016-05-26 00:00:24][udpconnect 忘记自己 Udp_Init_Stream 第0次init成功223.89.5.21 2016-05-26 00:00:24]

2016-06-14 16:57:48 714

原创 终极版:Andorid手机流量监测思路与代码实现(一)

首先,先上效果图:包括本月总的wifi流量和234g流量,同时能够统计出本日使用wifi和234g流量最多的APP,并且进行排序(事实上,实现了:每一个APP的每一天和手机总流量的数据都存在SQLite中,所以你想怎样显示就怎样显示) 一、前期准备: 关于Android系统自带API,TrafficStack的使用,其中uid是指每个APP独一无二的标示,在Android中,第三方APP标志大于

2016-05-02 16:20:11 3240 9

原创 D2L运行环境问题+anaconda 多环境

jupyter 配置多个环境

2023-06-30 23:37:21 216

原创 梯度消失以及爆炸引入xavier对每层输出和权重分布做限制

因此引入Xavier来限制每层输出h满足均值为1,方差为a(超参数)的分布。去掉正则,激活算下三层MLP每一层权重梯度可以看到层层相扣。具体计算不算了知道有这个就行了,pytorch引用很方便。同理也限制每层权重W满足均值为1方差为a的分布。疑问:批量归一化也做了限制,那有冲突吗。如果W太大太小层数太多就会有问题。

2023-06-10 14:14:49 87

原创 ReLu 和 Dropout的疑问

我就在想两者作用是不是都一样,因为都是让一些因子为0失去作用。Dropout : h在一定概率p(超参数自己调节)下为0。同样是使得某些因子失效,可以防止过拟合。作用就是把隐藏层结果小于0的因子剔除。h在1-p的概率下为h/(1-p)而且dropout 有缩放功能。dropout 是随机。

2023-05-12 17:02:44 205

原创 Hive3面试基础

面试准备之Hive回顾基本知识效率优化提示:以下是本篇文章正文内容,下面案例可供参考提示:这里对文章进行总结:例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

2023-05-04 08:53:31 516

原创 Surrogate Key

artificial key

2023-04-18 15:36:34 79

原创 随机森林做用户扩散模型

背景:数据:特征处理:模型设置:调参:效果:

2019-03-29 13:53:26 375

原创 弹窗统计

target:指标弹窗的曝光 人数,次数,占首页UV和PV的占比弹窗给5星好评按钮点击 人数,次数,占弹窗曝光人数或次数的占比弹窗去反馈按钮点击 人数,次数,占弹窗曝光人数或次数的占比弹窗关闭按钮点击 人数,次数,占弹窗曝光人数或次数的占比点击关闭后二次弹出弹窗的曝光 人数,次数,占首页UV和PV的占比点击关闭后二次弹出弹窗给5星好评按钮点击 人数...

2018-06-27 09:29:02 514

转载 有用的语句

USE eagle; set hive.execution.engine=spark; USE eagle; USE view_huanju; USE kaixindou; CREATE TEMPORARY FUNCTION urldecode AS ‘com.hiido.hive.udf.URLDecodeUDF’;— tmp0create temporary table tm...

2018-06-22 09:34:58 260

原创 窗口函数

1,窗口函数 举例: create table company (dep string, –部门 employ_id string, –员工id salary double)–员工薪水 找出每个部门,薪水排名前三的员工id hive,sql,mysql 。。。都适合用select * from (select dep ,employ_id , rank...

2018-06-10 14:52:49 444

原创 java hdfs 上传下载工具类

package com.apache.spark.test.hdfs;import java.io.InputStream; import java.net.URI; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileStatus; import org.apache.ha

2018-01-29 23:48:09 340

原创 Spark maven

斯蒂芬斯蒂芬是的project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xs

2018-01-22 22:42:28 435

原创 数据开发面试经验

1、降低维度 2、cart算法 3、数学公式微积分 4、聚类算法思路 5、决策树思路 6、处理多少数据 7、项目经验 8、神经网络 9、决策树回归CART 10、上百度最多的ip 11、sql基本题目 12、什么时候用什么算法,算法的运用情况

2018-01-16 23:21:16 576

原创 数据开发面试准备

1、datanode、namenode、resourceManager,NodeManger的区别和流程 http://www.aboutyun.com/thread-7778-1-1.html 2、hadoop map-reducer的流程,combine的作用 http://blog.csdn.net/lisonglisonglisong/article/details/47125319

2018-01-10 23:44:36 413

原创 解决Maven安装配置的java环境变量错误

用一次性解决的办法: 假设你的java的jdk安装目录为: E:\JAVA\bin进入maven安装目录:打开mvn这个文件, 把JAVA_HOME给固定死,这样就不会老是报莫名其妙的错,也不用管什么麻烦的配置了

2017-09-23 11:17:46 623

原创 Spark 自带 demo 的学习总结

1.the way that to build the RDD(1) generate from the folder : offer the folder path which has been upload the hdfsSparkSession spark = SparkSession .builder() .appName("JavaHdfsLR"

2017-09-02 10:35:22 885

原创 Spark 自带demo学习日志

the way that to build the RDD (1) generate from the folder : offer the folder path which has been upload the hdfsSparkSession spark = SparkSession .builder() .appName("JavaHdfsLR").master("

2017-09-01 23:39:32 555

原创 System memory 249364480 must be at least 471859200

我是在eclipse run遇到这个问题的,所以解决办法是来到这里加上:表示运行的时候虚拟空间最小为128,最大为512

2017-08-27 23:31:58 1894

原创 运行 Spark错误 A master URL must be set in your configuration

A master URL must be set in your configuration:在linux上面run java写的代码的 时候,报错,应该增加如下部分:hadoop为master的别名

2017-08-27 23:24:29 941

转载 Hadoop学习(1)——MapReduce的原理和操作

MapReduce的流程图 名词解释:Map的过程 :每个输入分片会让一个map任务来处理,默认情况下,以HDFS的一个块的大小(默认为64M)为一个分片,当然我们也可以设置块的大小。map输出的结果会暂且放在一个环形内存缓冲区中(该缓冲区的大小默认为100M,由io.sort.mb属性控制),当该缓冲区快要溢出时(默认为缓冲区大小的80%,由io.sort.spill.percent属性控制)

2017-08-20 19:48:10 351

转载 Hadoop学习之路-----不同进程通信的代理对象

代理模式的作用是:为其他对象提供一种代理以控制对这个对象的访问。在某些情况下,一个客户不想或者不能直接引用另一个对象,而代理对象可以在客户端和目标对象之间起到中介的作用。 代理模式一般涉及到的角色有:   抽象角色:声明真实对象和代理对象的共同接口;   代理角色:代理对象角色内部含有对真实对象的引用,从而可以操作真实对象,同时代理对象提供与真实对象相同的接口以便在任何时刻

2017-07-30 10:42:57 279

原创 非maven项目利用jenkin实现自动部署

所在的公司,现在想要利用jenkins实现自动化的部署,目标是,在eclipse上修改,将代码提交到团队的github中央仓库上,之后,利用jenkins连接github,在jenkins上里面将项目打包成一个ear包(实际上里面包含两个war用于前后端的发布)之后上传到nexus,成功后,利用部署工具G3来完成部署。首先面对的困难是,因为项目都是老掉牙的java项目,不是maven项目,不过也可以

2017-07-26 23:23:59 2911

原创 欢迎使用CSDN-markdown编辑器

学习jenkins心得—->自动部署和发布最近由于工作需要,需要研究下怎么将原本的项目从RTC 的jazz 存储迁移到Git上,之后,理由nexus+G3实现远程Linux机器的自动部署,主要的开发环境如下:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗

2017-06-25 19:22:43 348

原创 安装Maven出错注意事项

最近在安装Maven那么简单的东西居然花了我那么久,报错两次:1、ERROR: JAVA_HOME is set to an invalid directory.JAVA_HOME = D:/jdk1.5.0_15/bin;Please set the JAVA_HOME variable in your environment to match thelocation o

2017-03-14 21:02:30 688

原创 Could not find action or result:There is no Action mapped for namespace / and action name

跟着Struts2+Spring3+Hibenate学习,里面搞错了 ,建立的struts.xml 应该是 struts2.xml害的我搞了很久,这本书很不严谨!

2017-03-07 22:32:24 441

原创 Struts报没有找到org.apache.struts2.dispatcher.ng.filter.StrutsPrepareAndExecuteFilter

解决:重新下载新版的struts jar包 ,地址:http://download.csdn.net/detail/ahy1024/4626028

2017-03-07 22:30:23 1139

原创 Treeset根据值进行大小的排序

package com.hh.racejob.oneoff.levelrank;import java.sql.ResultSet;import java.sql.SQLException;import java.util.ArrayList;import java.util.Iterator;import java.util.List;import java.util.TreeSe

2016-07-08 10:24:23 3715

原创 单线程解析文件,根据文件关键词进行统计,并将结果输出(三)

上一篇是:单线程解析文件,根据文件关键词进行统计,并将结果输出(二)完成了获取文件输入,并将每一行分发到对应的处理器的工具类,本次完成对应的三个工具类的实现。一、首先实现三个需要解析的文件的bean类:自己实现get和set方法/**待解析的loadFile关键字对应的bean以/t划分成四部分,其中第二部分用空格分开成三部分**/public class LoadFile{

2016-06-22 10:34:57 762

原创 查看在eclipse中打不开的jar源码或者是查看.class并且修改

最简单直接的工具是利用jd—gui,下载地址如下:http://download.csdn.net/detail/eyebrows_cs/5277552只可以看不可以修改,想要修改,点击上面的file——save all sources保存成压缩文件,然后在压缩文件里面修改,最后在变成jar文件格式

2016-06-20 17:29:11 2414

原创 队列的add()方法和offer()方法的区别

看API:add():Inserts the specified element at the tail of this queue. As the queue is unbounded, this method will never throw IllegalStateException or return false.offer():Inserts the specified el

2016-06-20 10:47:39 18792 3

原创 LinkedBlockingQueue 与ConcurrentLinkedQueue队列的不同与同

LinkedBlockingQueue 的API中,从队列中获取元素,有以下几个方法:1、take():原文:Retrieves and removes the head of this queue, waiting if necessary until an element becomes available.翻译完:从队列中取出元素E,如果队列为空,则阻塞该线程直到队列不为空拿出元素E位置;这...

2016-06-20 10:25:56 4662 1

原创 ConcurrentHashMap的优势与使用情况

来自权威书籍:Java并发编程实战;同步容器类在执行每个操作期间都持有一个锁。于HashMap不同,ConcurrentHashMap用了不同的枷锁策越来提供更高的并发性和伸缩性。ConcurrentHashMap并不是将每个方法都在同一个锁上同步,并使得每次只能有一个线程访问容器,而是用一种粒度更小的枷锁机制来实现更大程度的共享,这种机制成为分段锁(Lock Striping)。在这

2016-06-17 17:16:40 1305

android网络框架Volley

除了源码,里面还有使用教程的demo要好好看。看到了调用的demo,对于volley的使用基本没问题

2015-05-05

新闻开源项目

开源项目,是新闻的,模版已经全了.可以任意修改

2014-11-27

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除