笛在月明-CSDN博客

原创 hadoop fs与 hdfs dfs区别

如果文件系统是HDFS,两者是等价的。

2020-03-14 09:27:55 763

翻译 Spark 内存管理模型

在工作中有时候我们可能会遇到Spark内存溢出问题，因此有必要了解一下Spark是如何进行内存管理的。在Spark 1.6.0以后的版本中，内存管理模型如下：这里面可以看到三个核心组成部分：1.Reserved memory这是系统保留的内存，其大小是固定的，对于Spark1.6.0 来说其大小为300M，意味着300M RAM不参与Spark内存空间计算。2.User memory...

2020-03-03 09:23:56 387

学习数据科学的最好方法是在练习中学。如果可以回到过去，我想告诉三年前的自己：去Kaggle注册一个账号，并且开启你的比赛之旅。尽管 Kaggle 和经典数据科学之间存在差异，但 Kaggle 仍然是一种很好的入门工具。作为一个流行的数据科学竞赛平台，Kaggle提供了许多企业中的实际问题和丰富的数据集供我们练习和探索。2017年3月谷歌收购了Kaggle。斯坦福大学人工智能实验室与视觉实验室负责...

2018-12-20 22:19:24 591

转载 MapReduce：详解Shuffle过程

Shuffle过程，也称Copy阶段。reduce task从各个map task上远程拷贝一片数据，并针对某一片数据，如果其大小超过一定的阀值，则写到磁盘上，否则直接放到内存中。注意：Shuffle过程是贯穿于map和reduce两个过程的！Hadoop的集群环境，大部分的map task和reducetask是执行在不同的节点上的，那么reduce就要取map的输出结果。那么集群中运行...

2018-12-04 16:40:56 416

转载如何进阶为一名优秀的程序员

“当你50岁时，还愿意编程吗？”这个话题在HackerNews上众说纷纭，不过我们能够看到，那些真正成功的程序员，如John Carmack、Peter Norvig、Jeff Dean，即使他们不再年轻，但依然对编程充满热情，他们身上有哪些与众不同之处，又有哪些值得我们学习？有人进行了总结。选择当前科技领域的一个小子集，亲近它、拥抱它，并且尝试推进这个小领域的发展。理解不同数据结构...

2018-11-26 20:30:07 234

转载 linux shell命令组合

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&amp

2018-11-26 20:24:38 644

原创 Django实现文件从服务器下载到本地

首先在urls.py中导入download方法并设置urlpatterns ：urlpatterns = patterns('',url(r'^download/', download,name='crm_download'),）；相应的templates的html文件中添加重定向的地址： &amp;amp;lt;a href=&amp;quot;/download/?field={{field}}&amp;amp;amp;name=...

2018-10-21 16:12:20 8554 4

原创 Django sqlite数据库与models不对应解决方法

在前端将参数传给后台后，前端并没有显示数据库中的数据，被这个问题困扰了很久==…后来突然发现数据库的表名与models的类名没有对应：即正确的对应关系应该是promatch_document:Document其中promatch为app的名字，Document在这里是一个类。解决方法是改变表名 - ALTER TABLE 旧表名 RENAME TO 新表名另外，字段也需要与数据库中的一一...

2018-10-15 14:22:11 929

转载 Django-修改models类

步骤：将APP目录下的__pycache__文件夹删除，以及迁移文件000*_initial.py和*init.py*全部删除然后用 python manage.py dbshell 命令进入数据库shell，删除所有和app有关的表:drop table ***接着有一张django_migrations表, 里面记录这有关创建表的记录,删除对应的数据表: del...

2018-10-15 13:49:01 1461

原创命令行操作Sqlite3数据库

1.加载数据库（这里是.db数据库）进入数据库所在路径，输入" sqlite3 + 数据库名.db " (如： " sqlite3 kwd.db “) 打开数据库2.输入 " .table " 查看数据库中存在哪些表3.输入” .schema ’ 查看建表语句4.通过SQL查询语句 " select * from 表名 " （如：" select * from info "）...

2018-10-14 10:06:34 1447

转载 Map Reduce中的排序

排序贯穿于Map任务和Reduce任务，是MapReduce非常重要的一环，排序操作属于MapReduce计算框架的默认行为，不管流程是否需要，都会进行排序。在MapReduce计算框架中，主要用到了两种排序方法：快速排序和归并排序快速排序：通过一趟排序将要排序的数据分割成独立的两部分，其中一部分的所有数据比另外一部分的所有数据都小，然后再按此方法对这两部分数据分别进行快速排序，整个排序过程可...

2018-08-15 20:16:46 1897 2

转载 Java中equals和==的区别

一、java中内存分配策略及堆和栈的比较 1、内存分配策略 a.按照编译原理的观点,程序运行时的内存分配有三种策略,分别是静态的,栈式的,和堆式的. 静态存储分配是指在编译时就能确定每个数据目标在运行时刻的存储空间需求,因而在编译时就可以给他们分配固定的内存空间.这种分配策略要求程序代码中不允许有可变数据结构(比如可变数组)的存在,也不允许有嵌套或者递归的结构出现,因为它们都会导致编译程序无...

2018-08-07 21:31:18 226

原创机器学习常见的问题总结（四）

1.二阶收敛为什么比一阶收敛更快？一阶收敛是以1/n的速度收敛，二阶收敛是以1/(n^2)的速度收敛，所以速度比较快。 2.拟牛顿法是如何近似海塞矩阵的？3.为什么BFGS效果要好于DFP？ BFGS优于DFP的原因在于，BFGS有自校正的性质(self-correcting property)。通俗来说，如果某一步BFGS对Hessian阵的估计偏了，导致优化变慢，那么BFGS会在较...

2018-05-17 15:09:39 1021

原创 leetcode 树相关题目小结

leetcode 98. Validate Binary Search Tree Given a binary tree, determine if it is a valid binary search tree (BST). Assume a BST is defined as follows: The left subtree of a node conta...

2018-05-13 15:07:49 1568

原创 leetcode动态规划小结-持续更新中

1.动态规划专区 300. Longest Increasing Subsequence Given an unsorted array of integers, find the length of longest increasing subsequence.For example, Given [10, 9, 2, 5, 3, 7, 101, 18], The longest ...

2018-05-11 21:53:07 1055

原创使用tensorflow seq2seq进行时间序列预测

时间序列预测可以根据短期预测，长期预测，以及具体场景选用不同的方法，如ARMA、ARIMA、神经网络预测、SVM预测、灰色预测、模糊预测、组合预测法等等。所谓没有最好的模型，只有最适合的模型。至于哪一种模型能针对特定预测问题达到最高的精度，需要通过实验来证明。本文通过生成的随机数利用tensorflow的seq2seq模型进行单变量时间序列预测实验，目的是理解seq2seq的模型基础架构以及验证模...

2018-05-11 16:56:52 16349 12

原创单调栈

单调栈是一种特殊的栈，栈内元素保持递增或者递减。单调栈有两个性质： 1.满足从栈顶到栈底的元素具有严格的单调性 2.满足栈的后进先出特性越靠近栈底的元素越早进栈利用单调栈，可以找到从左/右遍历第一个比它小/大的元素的位置，在某些问题中可以将时间复杂度从O(N^2)降低为O(N).如leetcode 84. Largest Rectangle in Histogram. 这道题的描述...

2018-05-11 15:44:16 698

原创最小圆覆盖问题

最小圆覆盖问题-一个很经典的问题。题目大概是，平面上n个点，求一个半径最小的圆，能够覆盖所有的点。首先，我们可以从一个空集R开始，不断把平面上的点加入到R中，同时维护R的外接圆最小，就可以得到一个简单的解法。另外一种想法是，先任意选取两个点，以这两个点的连线为直径作圆。再以此判断剩余的点，看它们是否都在圆内（或圆上），如果都在，说明这个圆已经找到。如果没有都在：假设我们用的最开始的两个...

2018-05-07 16:07:00 4830

原创 leetcode 23. Merge k Sorted Lists 几种解法

1.取值排序法首先我们最先想到的可能是将所有链表的值放进一个数组中，然后进行排序，最后将排序后的元素依次构建新的链表。代码如下： class Solution(object): def mergeKLists(self, lists): """ :type lists: List[ListNode] :rtype: ListNo...

2018-05-03 22:40:51 493

转载 Spark性能优化：数据倾斜调优

前言继《Spark性能优化：开发调优篇》和《Spark性能优化：资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。1.数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望...

2018-04-26 19:09:27 305

原创机器学习中常见的问题整理（三）

本文继续整理各个平台上最热门的机器学习问题及参考解答，如有问题欢迎补充~ 1. 激活函数ReLU相比Sigmoid的优势有哪些? （1）Relu计算量小；（2）Relu没有饱和区和梯度消失；（3）用Relu去估计非线型函数时收敛更快。AlexNet论文里说大概比sigmoid快6倍。最后，Relu有个缺点是输出为0后，梯度没法反向传递，这个Relu就死掉了。。 2. dropou...

2018-04-23 22:47:12 768

原创机器学习中常见的问题整理（二）

1.KNN算法有哪些缺点？（1）计算代价很大 ①由于KNN必须对分类数据计算与每一个训练数据的距离，非常耗时； ②KNN算法必须保存全部的数据集，如果训练数据集很大，那么就需要耗费大量的存储空间；（2）无法处理categorical变量（3）对变量的缩放非常敏感（4）难以处理不同单位和不同数值范围的变量（5）对高维数据表现不佳（6）可解释性较差，无法给出决策树那样...

2018-04-10 21:23:20 1382 4

原创机器学习中常见的问题整理（一）

本文整理了一些常见的机器学习中可能会遇到的问题，这些问题包括基本概念的理解，各种场景下模型的选择等问题，以及一些常见概念背后的原因，结果和改进思路等。1.对于xgboost，还有必要做很多特征工程吗？特征工程是个很广的概念，包括特征筛选、特征变换、特征合成、特征提取等等。对于xgboost，它能够很好地做到特征选择，所以这一点不用我们去操心太多。至于特征变换（离散化、归一化、标准化...

2018-04-04 17:55:08 3935

原创 Datacastle算法竞赛-精品旅行服务成单预测-AUC：0.94+解决方案

Datacastle在前一段时间发布了一个算法竞赛-精品旅行服务成单预测。当时空闲时间比较多就报名参加了，后面为了赶论文进度没有继续做下去，最后的一次提交结果是0.94+的auc。共计提取了76个特征，分别使用了基于权重和stacking的模型融合方法，下面是对特征和模型的一些整理。一、特征 1.基本信息：如用户性别，省份，年龄等。 2.历史订购信息：之前是否购买过精品，订购每种类型订单的...

2018-02-13 19:35:13 1594 11

原创变位词

变位词是指由变换个别词或短语的字母顺序构成的新的词或短语，例如“triangle”是“integral”的变位词。今天要解决的问题是编写一个方法，对字符串数组进行排序，将所有变位词排在相邻的位置。分析：由于变位词仅仅是不同字符串的字符顺序不同，比较简单的一种想法是将所有字符串内部字符进行排序，若两个字符串互为变位词，则排序后就相同，另外一种方法是数一下各个字符串中各个字符出现的次数，如...

2018-02-13 17:27:55 1087

原创微信小程序跳一跳辅助程序指北

一、本实验测试环境： Win7 64位+华为荣耀9 二、准备：电脑与手机均安装豌豆荚，手机调到微信小程序跳一跳首页界面。三、使用方法 1.启动adbadb start-server 可能出现的错误1： C:\Users\Admin>adb devices List of devices attached 重启动adb kill掉adb adb kill...

2018-02-05 15:50:48 849

原创 spark中使用udf执行filter

有时我们需要使用filter执行过滤操作，使用下面的语句则会报错：new_user_rdd = user_rdd.filter(lambdax:begin<=datetime.strptime(x['finish_time'])<=end) TypeError: condition should be string or Column一个解决方法是：from pyspark.sql.funct

2018-01-03 13:37:01 2361

原创从rdd创建dataframe

有时我们想将spark的dataframe转为pandas的dataframe，首先需要将rdd转为spark的dataframe，下面是一种方法：from pyspark.sql.types import *from pyspark.sql import Rowschema = StructType([StructField('name', StringType()), StructField(

2018-01-03 13:30:57 918

原创 python求list中重复元素最后一个value位置

这个问题如果换成求第一个value的位置，可以使用list.index(value)来求，倘若使用enumerate也未尝不可：def unique_index(L,e): return [j for (i,j) in enumerate(L) if i == e]由于是求最后一个出现的位置，因此可以采取更为简单的方法。就是将列表反转，然后求第一个元素。

2018-01-01 09:12:19 5844 1

原创 jupyter notebook MemoryErrory

今天在一台新笔记本上第一次使用jupyter的时候，出现了MemoryError,查看了笔记本内存，一共8G，使用了不到4G，所以应该不是笔记本本身的内存限制，查找了资料，发现如果在64位笔记本上安装了32位的python，可能会导致这个问题。于是重新卸载了python32位（卸载只需要重新运行一下安装程序，选择unistall即可），安装了64位python，问题解决。

2017-12-23 09:11:23 8423 1

翻译使用随机森林计算特征重要度

随机森林包含很多决策树，决策树中的每一个节点是某一个特征的条件。这些条件用来将数据集分成两部分，使得每一部分的响应值归为同一个集合。最优条件的选择依据是不纯度。不纯度在分类中通常为Gini不纯度或信息增益/信息熵，对于回归问题来说是方差。下面是两种计算特征重要度的方法： 1 基于sklearn的实现from sklearn.datasets import load_bostonfrom sk

2017-12-20 20:47:21 22984 5

原创 RL,MAB与Contextual Bandits区别

Contextual Bandits介于RL与MAB之间。RL: 动作改变状态，奖励由状态，动作决定CB: 动作不改变状态，奖励由状态，动作决定MAB:动作不改变状态，奖励只由动作决定linUCB是Contextual Bandits的一种方法。其基本思想是用函数近似期望收益，对于每一个动作，学习一个这样的估计函数，当面临新的状态s的时候，先估计每个动作的期望收益，再根据UCB算法挑一个动作

2017-12-18 16:02:56 3055

原创程序媛必备之日常BGM

锦鲤抄蝉声陪伴着行云流浪回忆开始后安静遥望远方荒草复没的古井枯塘匀散一缕过往晨曦惊扰了陌上新桑风卷起庭前落花穿过回廊浓墨追逐着情绪流淌染我素衣白裳阳光微凉琴弦微凉风声疏狂人间仓皇呼吸微凉心事微凉流年匆忙对错何妨你在尘世中辗转了千百年却只让我看你最后一眼火光描摹容颜燃尽了时间别留我一人孑然一身凋零在梦境里面...

2017-12-17 22:54:30 689

转载 groupByKey与reduceByKey区别

If we compare the result of both ( “groupByKey” and “reduceByKey”) transformations, we have got the same results. I am sure you must be wondering what is the difference in both transformations. The “re

2017-10-18 20:26:41 762

原创 pandas易错点总结

1.按照多个条件筛选时，应当使用&而不是and,如： lc.loc[(lc[“grade”] == “B”) & (lc[“loan_amnt”] > 5000)] 2. 单一series赋值给series之前需要转换数据格式，如int,float,datetime 3. loc,iloc,ix区别 loc按索引名称取值，如：import pandas as pddata = [[1,

2017-10-10 15:59:02 533

原创盘点机器学习中常见的损失函数和优化算法

在机器学习中，对于目标函数、损失函数、代价函数等不同书上有不同的定义。通常来讲，目标函数可以衡量一个模型的好坏，对于模型的优化通常求解模型的最大化或者最小化，当求取最小化时也称loss function即损失函数，也称为成本函数、代价函数。大多数情况下两者并不做严格区分。损失函数包含损失项与正则项。正则项的目的是提高模型的泛化能力，防止过拟合。本文仅讨论损失项，下面是一些常见的损失函数的损失项。

2017-08-19 16:23:10 7377

原创平衡数

假定我们定义一个数值序列可以被分成两部分，使得这两部分的乘积相等，这样的数列为平衡数，如1236中，1*2*3=6, 为平衡数。现给定一个数列，判断是否为平衡数。分析：此题有多种解法，首先最原始的想法是顺次设置分隔符，然后比较分割后的两个子串的乘积，为了提高检查效率，可以首先过滤掉非完全平方数，即数字开方后不为整型的数字，但是这样增加了计算复杂度。 def balance_num_ini

2017-03-24 15:22:53 1644

转载 Python模块: collections

转自：http://www.zlovezl.cn/articles/collections-in-python/ Python作为一个“内置电池”的编程语言，标准库里面拥有非常多好用的模块。比如今天想给大家介绍的 collections 就是一个非常好的例子。基本介绍我们都知道，Python拥有一些内置的数据类型，比如str, int, list, tuple, dict等， colle

2017-02-20 10:11:08 473

原创 Elasticsearch mappings小结

type为string类型的mapping的最重要的两个属性是index和analyzer. index与三种可选项： analyzed First analyze the string and then index it. In other words, index this field as full text.not_analyzed Index this field,

2017-02-05 22:33:33 1130

原创 python进行桶排序与基数排序总结

本文首先举例阐述了两种排序方法的操作步骤，然后列出了用python进行的实现过程，最后对桶式排序方法的优劣进行了简单总结。一、桶排序：排序一个数组[5,3,6,1,2,7,5,10]值都在1-10之间，建立10个桶：[0 0 0 0 0 0 0 0 0 0] 桶[1 2 3 4 5 6 7 8 9 10] 桶代表的值遍历数组，第一个数字5，第五个桶加1[0 0 0 0 1 0 0 0 0

2017-02-02 20:29:54 3025