pends-CSDN博客

转载 Shell特殊变量的含义

Shell特殊变量：Shell 0," role="presentation" style="position: relative;">0,0,0, #, ∗," role="presentation" style="position: relative;">∗,∗,*, @, ?," role="presentation" style="position: relative;">?

2018-02-05 10:16:25 898

原创 Hive语句前的常见设置

1.hive.cli.print.header=true 是否显示查询结果的列名，默认为不显示 2.set hive.exec.parallel=true; 参数控制在同一个sql中的不同的job是否可以同时运行,默认为false. 3.hive.map.aggr=true 决定是否可以在 Map 端进行聚合操作，从而减轻清洗阶段数据传输和Reduce阶段的执行时间

2017-12-04 14:32:28 552

转载 hive日志的存储位置

日志记录了程序运行的过程，是一种查找问题的利器。Hive中的日志分为两种系统日志，记录了hive的运行情况，错误状况。Job 日志，记录了Hive 中job的执行的历史过程。系统日志存储在什么地方呢？在hive/conf/ hive-log4j.properties 文件中记录了Hive日志的存储情况，默认的存储情况：hive.root.logger=WARN,DRFA hive.lo

2017-09-12 10:33:29 420

原创 python安装opencv模块

安装纠缠了很久，今天终于装上opencv了。具体环境是，先安装了Anaconda,然后进入如下页面： https://anaconda.org/menpo/repo?type=conda&label=main 点击opencv 或者opencv3，页面下会有相应的安装命令：如opencv3的命令为： conda install -c menpo opencv3=3.2.0 openc

2017-06-29 21:48:47 1684

转载关于HiveQL的常用语法总结(四)——其它技巧(hive代码优化)

大数据有一个特点，就是数据量大，因此如果能提高代码本身的运行效率，或者是使得代码在分布式机器上能更好的进行计算，就会极大的节省时间成本或者是资源成本。所以，本节想给大家分享下hive的优化。引言——优化思路首先是一个思路的问题。hive代码该怎么去优化呢？从哪里着手？显然这是代码跑的比较慢之后，最先想到的两个问题。要先回答这个问题，我们得搞清楚hive代码的运行机制，有多少个步骤，在每个步骤上是

2017-05-21 18:09:26 792

原创关于HiveQL的常用语法总结(三)——常用函数

这一节，常常可以使得我们的hive代码简洁高效，甚至是完成一些用常规方法“基本完成不了”的事情，所以这一节我也想跟大家分享下。本节主要分享下平时经常用到的但又容易忽略的函数，肯定不是Hive的全部内置函数。Hive的全部内置函数可以从获取。参考链接：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF5、日期函数在

2017-05-21 16:43:37 2833

本节，应该是数据库作业中使用最频繁的内容，也是至为重要的一节。但是也不必紧张，无非就是增删改查，重点在于查，为什么呢？在大数据时代，最重要的两个主题是分析和挖掘。无论是分析还是挖掘，其基础都是有数据可依据，那么就需要将目标数据查找出来，因此这是最基础的一步，当然也就是用的最多的一步。本节主要讲四个方面：导入数据，插入数据，删除数据，查询数据。1、导入数据一般来说,在SQL创建表后,我们可以使用ins

2017-05-21 16:22:57 692

原创关于HiveQL的常用语法总结(一)——DDL

利用Hadoop平台做用户画像也有一些时日了，用到Hive的时候是非常多的，今年年初就想总结下Hive中常用的语法情况，因为各种各样的原因，一直拖到现在，惭愧…总算可以稍作总结下了，这个主题我想分为三个部分进行叙述：DDL——DML——其它技巧。本系列文章的定位是：总结hive的常用知识点和实战经验，不涉及艰深的大数据理论架构等问题。好啦，直接进入主题吧。1、数据库语言简介数据库语言有四大功

2017-05-21 14:34:06 1134

转载常见推荐系统—综述

1.关于推荐系统随着互联网技术和社会化网络的发展，每天有大量包括博客，图片，视频，微博等等的信息发布到网上。传统的搜索技术已经不能满足用户对信息发现的需求，原因有多种，可能是用户很难用合适的关键词来描述自己的需求，也可能用户需要更加符合他们兴趣和喜好的结果，又或是用户无法对自己未知而又可能感兴趣的信息做出描述。推荐引擎的出现，可以帮用户获取更丰富，更符合个人口味和更加有意义的信息。个性化推荐根据

2017-05-16 23:46:16 1020 1

原创迁移学习系列（一）

本系列梗概本次想分享的是迁移学习，不是像目前大部分的论文一样讲想法讲思路，当然我不是觉得思路想法不重要，其实是觉得很重要，但同时我也是一个很注重实战的人，所以想在这里通过一次金融大数据比赛来跟大家分享一次实战经验，谈谈迁移学习。大致分为五个章节来叙述： 1.事情前因后果的概述，思路之类的 2.数据的预处理 3.构建深度学习网络 4.迁移深度学习网络 5.再次构建深度学习网络题目梗概1、首先

2017-05-13 23:03:57 1122

原创 python-内嵌函数和闭包

**一、概述** Python中，是一切皆对象的，函数当然也是，因此函数内部是可以再嵌套函数的，这一点下面可以举例子说明。再延伸一点，就能引申出一个高级概念了：闭包。嵌套函数在其外部函数(但不是全局区域)内使用，那么这个嵌套函数就会被认为是闭包。如前所述，闭包是一个高级概念，一般在函数式编程(一种编程范式，与面向对象编程和面向过程编程是同级别的)中提到的比较多。Py

2017-04-23 17:26:49 3878

原创 Python-numpy库学习系列——newaxis

今天看源代码，发现了newaxis库的属性，貌似很有用的样子，就自己试验了下import numpy as npx=np.array([1,2,3]) #创建矩阵y=np.array([1,2,3])[:,np.newaxis]#增加维度，x.shapeOut[11]: (3,)y.shapeOut[12]: (3, 1)z=y[np.newaxis]z.shapeOut[14]: (1,

2017-03-13 23:35:51 1130

原创 TesnsorFlow安装与调试

随着谷歌最近的TesnsorFlow V1.0的发布和技术峰会的举办，TesnsorFlow就逐步走入了更多人的视野了，深度学习也将会推向另一个热潮，我也尝试了下TesnsorFlow在Mac上的安装与调试，下面讲述下步骤。我的安装主要是与Python相结合使用的，TesnsorFlow的安装会涉及到很多辅助的安装库，所以建议直接先安装anaconda，它包含了很多库所以整个安装与调试分为了三步

2017-02-19 12:23:21 2846

原创概述Hadoop和Spark

目前大数据技术具有代表性的大体上是分为两代大数据技术：以Hadoop为核心的第一代大数据生态圈包括hive/mahout/Impala/Flume/Zoomkeeper… 以Spark为核心的第二代大数据生态圈包括mllib/SparkQL/Spark Streaming/GraphX1、Hadoop生态圈Hadoop的核心是YARN,HDFS和Mapreduce YARN：分布式

2017-02-16 23:58:49 723

原创 Hive2.0函数大全(中文版)

摘要Hive内部提供了很多函数给开发者使用，包括数学函数，类型转换函数，条件函数，字符函数，聚合函数，表生成函数等等，这些函数都统称为内置函数。目录数学函数集合函数类型转换函数日期函数条件函数字符函数聚合函数表生成函数具体的可以参见链接Hive2.0中文使用手册**参考资料 LanguageManual UDF 《Hive权威指南》**

2016-12-12 23:38:56 800

原创 centos7+jdk1.8+scala+spark+IEDA(mac可参考)集群环境搭建

因为硬件原因，博文一直没有更新，非常抱歉，最近去买了一个配置比较好的笔记本，尝试了下spark在linux下环境的搭建，利用一个星期的业余时间，终于是搭建成功了，特此记下了，也是给大家一些借鉴，如有问题，可以留言，或者邮箱([email protected])。好，下面切入正题啦~ 首先，我的笔记本是双核四线程的，大环境是mac下同下用平行桌面搭建了四个虚拟机(win7+3个centos的l

2016-12-08 16:51:02 983

转载欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2016-12-08 16:28:08 359

翻译深度学习-受限玻尔兹曼机(RBM)

受限玻尔兹曼机(Restricted Boltzmann Machine,简称RBM)是由Hinton和Sejnowski于1986年提出的一种生成式随机神经网络(generative stochastic neural network)，该网络由一些可见单元(visible unit，对应可见变量，亦即数据样本)和一些隐藏单元(hidden unit，对应隐藏变量)构成，可见变量和隐藏变量都是二元

2016-10-29 22:57:21 1339

原创 Spark在Linux下集群的搭建

上篇博客写了下在Windows下安装Spark本地应用的方法，虽然如此，但其实我最想做的是在Linux下的Spark集群环境的搭建，如今实际使用的时候基本上都是在Linux上运行的，搭建一个Windows下的本地应用实在是不熟悉Linux，不熟悉Spark等，因此想先搞明白Spark是什么，搭建出来后是什么样子，为了熟悉这些内容，当然最好的方式就是在熟悉的Windows环境下搭建出来，现在基本情况了

2016-07-21 22:08:52 1063 1

原创 Spark+Python+Pycharm在Windows下的配置

初次学习在大数据平台下做数据分析和数据挖掘，之前主要是在MATLAB上在一些数据分析，虽然很熟悉了，然而受速度和方便程度的影响，毕竟还是不太方便做实时的、集群的、超大数据量的分析，因此决定放下用了6年的MATLAB，转战python+spark。为何选择python+spark？选择spark是毋庸置疑的，目前最先进的大数据平台，可是为什么选择python而不选择spark同样支持的scala、J

2016-07-16 01:01:40 17831 13

ydq1206的博客