自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

柳汀轩

仗剑红尘天涯路

  • 博客(107)
  • 资源 (9)
  • 收藏
  • 关注

原创 hadoop fs与 hdfs dfs区别

如果文件系统是HDFS,两者是等价的。

2020-03-14 09:27:55 763

翻译 Spark 内存管理模型

在工作中有时候我们可能会遇到Spark内存溢出问题,因此有必要了解一下Spark是如何进行内存管理的。在Spark 1.6.0以后的版本中,内存管理模型如下:这里面可以看到三个核心组成部分:1.Reserved memory这是系统保留的内存,其大小是固定的,对于Spark1.6.0 来说其大小为300M, 意味着300M RAM不参与Spark内存空间计算。2.User memory...

2020-03-03 09:23:56 387

原创 数据科学系列(一)Kaggle如何入门?

学习数据科学的最好方法是在练习中学。如果可以回到过去,我想告诉三年前的自己:去Kaggle注册一个账号,并且开启你的比赛之旅。尽管 Kaggle 和经典数据科学之间存在差异,但 Kaggle 仍然是一种很好的入门工具。作为一个流行的数据科学竞赛平台,Kaggle提供了许多企业中的实际问题和丰富的数据集供我们练习和探索。2017年3月谷歌收购了Kaggle。斯坦福大学人工智能实验室与视觉实验室负责...

2018-12-20 22:19:24 591

转载 MapReduce:详解Shuffle过程

Shuffle过程,也称Copy阶段。reduce task从各个map task上远程拷贝一片数据,并针对某一片数据,如果其大小超过一定的阀值,则写到磁盘上,否则直接放到内存中。注意:Shuffle过程是贯穿于map和reduce两个过程的!Hadoop的集群环境,大部分的map task和reducetask是执行在不同的节点上的,那么reduce就要取map的输出结果。那么集群中运行...

2018-12-04 16:40:56 416

转载 如何进阶为一名优秀的程序员

“当你50岁时,还愿意编程吗?”这个话题在HackerNews上众说纷纭,不过我们能够看到,那些真正成功的程序员,如John Carmack、Peter Norvig、Jeff Dean,即使他们不再年轻,但依然对编程充满热情,他们身上有哪些与众不同之处,又有哪些值得我们学习?有人进行了总结。选择当前科技领域的一个小子集,亲近它、拥抱它,并且尝试推进这个小领域的发展。理解不同数据结构...

2018-11-26 20:30:07 234

转载 linux shell命令组合

                  &amp

2018-11-26 20:24:38 644

原创 Django实现文件从服务器下载到本地

首先在urls.py中导入download方法并设置urlpatterns :urlpatterns = patterns('',url(r'^download/', download,name='crm_download'),);相应的templates的html文件中添加重定向的地址: <a href="/download/?field={{field}}&name=...

2018-10-21 16:12:20 8554 4

原创 Django sqlite数据库与models不对应解决方法

在前端将参数传给后台后,前端并没有显示数据库中的数据,被这个问题困扰了很久==…后来突然发现数据库的表名与models的类名没有对应:即正确的对应关系应该是promatch_document:Document其中promatch为app的名字,Document在这里是一个类。解决方法是改变表名 - ALTER TABLE 旧表名 RENAME TO 新表名另外,字段也需要与数据库中的一一...

2018-10-15 14:22:11 929

转载 Django-修改models类

步骤:将APP目录下的__pycache__文件夹删除,以及迁移文件000*_initial.py和*init.py*全部删除然后用 python manage.py dbshell 命令进入数据库shell, 删除所有和app有关的表:drop table ***接着有一张django_migrations表, 里面记录这有关创建表的记录,删除对应的数据表: del...

2018-10-15 13:49:01 1461

原创 命令行操作Sqlite3数据库

1.加载数据库(这里是.db数据库 )进入数据库所在路径,输入" sqlite3 + 数据库名.db " (如: " sqlite3 kwd.db “) 打开数据库2.输入 " .table " 查看数据库中存在哪些表3.输入” .schema ’ 查看建表语句4.通过SQL查询语句 " select * from 表名 " (如:" select * from info ")...

2018-10-14 10:06:34 1447

转载 Map Reduce中的排序

排序贯穿于Map任务和Reduce任务,是MapReduce非常重要的一环,排序操作属于MapReduce计算框架的默认行为,不管流程是否需要,都会进行排序。在MapReduce计算框架中,主要用到了两种排序方法:快速排序和归并排序快速排序:通过一趟排序将要排序的数据分割成独立的两部分,其中一部分的所有数据比另外一部分的所有数据都小,然后再按此方法对这两部分数据分别进行快速排序,整个排序过程可...

2018-08-15 20:16:46 1897 2

转载 Java中equals和==的区别

一、java中内存分配策略及堆和栈的比较 1、内存分配策略 a.按照编译原理的观点,程序运行时的内存分配有三种策略,分别是静态的,栈式的,和堆式的. 静态存储分配是指在编译时就能确定每个数据目标在运行时刻的存储空间需求,因而在编译时就可以给他们分配固定的内存空间.这种分配策略要求程序代码中不允许有可变数据结构(比如可变数组)的存在,也不允许有嵌套或者递归的结构出现,因为它们都会导致编译程序无...

2018-08-07 21:31:18 226

原创 机器学习常见的问题总结(四)

1.二阶收敛为什么比一阶收敛更快? 一阶收敛是以1/n的速度收敛,二阶收敛是以1/(n^2)的速度收敛,所以速度比较快。 2.拟牛顿法是如何近似海塞矩阵的?3.为什么BFGS效果要好于DFP? BFGS优于DFP的原因在于,BFGS有自校正的性质(self-correcting property)。通俗来说,如果某一步BFGS对Hessian阵的估计偏了,导致优化变慢,那么BFGS会在较...

2018-05-17 15:09:39 1021

原创 leetcode 树相关题目小结

leetcode 98. Validate Binary Search Tree Given a binary tree, determine if it is a valid binary search tree (BST). Assume a BST is defined as follows: The left subtree of a node conta...

2018-05-13 15:07:49 1568

原创 leetcode动态规划小结-持续更新中

1.动态规划专区 300. Longest Increasing Subsequence Given an unsorted array of integers, find the length of longest increasing subsequence.For example, Given [10, 9, 2, 5, 3, 7, 101, 18], The longest ...

2018-05-11 21:53:07 1055

原创 使用tensorflow seq2seq进行时间序列预测

时间序列预测可以根据短期预测,长期预测,以及具体场景选用不同的方法,如ARMA、ARIMA、神经网络预测、SVM预测、灰色预测、模糊预测、组合预测法等等。所谓没有最好的模型,只有最适合的模型。至于哪一种模型能针对特定预测问题达到最高的精度,需要通过实验来证明。本文通过生成的随机数利用tensorflow的seq2seq模型进行单变量时间序列预测实验,目的是理解seq2seq的模型基础架构以及验证模...

2018-05-11 16:56:52 16349 12

原创 单调栈

单调栈是一种特殊的栈,栈内元素保持递增或者递减。 单调栈有两个性质: 1.满足从栈顶到栈底的元素具有严格的单调性 2.满足栈的后进先出特性越靠近栈底的元素越早进栈 利用单调栈,可以找到从左/右遍历第一个比它小/大的元素的位置,在某些问题中可以将时间复杂度从O(N^2)降低为O(N).如leetcode 84. Largest Rectangle in Histogram. 这道题的描述...

2018-05-11 15:44:16 698

原创 最小圆覆盖问题

最小圆覆盖问题-一个很经典的问题。 题目大概是,平面上n个点,求一个半径最小的圆,能够覆盖所有的点。 首先,我们可以从一个空集R开始,不断把平面上的点加入到R中,同时维护R的外接圆最小,就可以得到一个简单的解法。 另外一种想法是,先任意选取两个点,以这两个点的连线为直径作圆。再以此判断剩余的点,看它们是否都在圆内(或圆上),如果都在,说明这个圆已经找到。如果没有都在:假设我们用的最开始的两个...

2018-05-07 16:07:00 4830

原创 leetcode 23. Merge k Sorted Lists 几种解法

1.取值排序法 首先我们最先想到的可能是将所有链表的值放进一个数组中,然后进行排序,最后将排序后的元素依次构建新的链表。代码如下: class Solution(object): def mergeKLists(self, lists): """ :type lists: List[ListNode] :rtype: ListNo...

2018-05-03 22:40:51 493

转载 Spark性能优化:数据倾斜调优

前言 继《Spark性能优化:开发调优篇》和《Spark性能优化:资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。1.数据倾斜调优 调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望...

2018-04-26 19:09:27 305

原创 机器学习中常见的问题整理(三)

本文继续整理各个平台上最热门的机器学习问题及参考解答,如有问题欢迎补充~ 1. 激活函数ReLU相比Sigmoid的优势有哪些? (1)Relu计算量小; (2)Relu没有饱和区和梯度消失; (3)用Relu去估计非线型函数时收敛更快。AlexNet论文里说大概比sigmoid快6倍。 最后,Relu有个缺点是输出为0后,梯度没法反向传递,这个Relu就死掉了。。 2. dropou...

2018-04-23 22:47:12 768

原创 机器学习中常见的问题整理(二)

1.KNN算法有哪些缺点? (1)计算代价很大 ①由于KNN必须对分类数据计算与每一个训练数据的距离,非常耗时; ②KNN算法必须保存全部的数据集,如果训练数据集很大,那么就需要耗费大量的存储空间; (2)无法处理categorical变量 (3)对变量的缩放非常敏感 (4)难以处理不同单位和不同数值范围的变量 (5)对高维数据表现不佳 (6)可解释性较差,无法给出决策树那样...

2018-04-10 21:23:20 1382 4

原创 机器学习中常见的问题整理(一)

本文整理了一些常见的机器学习中可能会遇到的问题,这些问题包括基本概念的理解,各种场景下模型的选择等问题,以及一些常见概念背后的原因,结果和改进思路等。1.对于xgboost,还有必要做很多特征工程吗?特征工程是个很广的概念,包括特征筛选、特征变换、特征合成、特征提取等等。对于xgboost,它能够很好地做到特征选择,所以这一点不用我们去操心太多。至于特征变换(离散化、归一化、标准化...

2018-04-04 17:55:08 3935

原创 Datacastle算法竞赛-精品旅行服务成单预测-AUC:0.94+解决方案

Datacastle在前一段时间发布了一个算法竞赛-精品旅行服务成单预测。当时空闲时间比较多就报名参加了,后面为了赶论文进度没有继续做下去,最后的一次提交结果是0.94+的auc。共计提取了76个特征,分别使用了基于权重和stacking的模型融合方法,下面是对特征和模型的一些整理。 一、特征 1.基本信息:如用户性别,省份,年龄等。 2.历史订购信息:之前是否购买过精品,订购每种类型订单的...

2018-02-13 19:35:13 1594 11

原创 变位词

变位词是指由变换个别词或短语的字母顺序构成的新的词或短语,例如“triangle”是“integral”的变位词。今天要解决的问题是编写一个方法,对字符串数组进行排序,将所有变位词排在相邻的位置。 分析: 由于变位词仅仅是不同字符串的字符顺序不同,比较简单的一种想法是将所有字符串内部字符进行排序,若两个字符串互为变位词,则排序后就相同,另外一种方法是数一下各个字符串中各个字符出现的次数,如...

2018-02-13 17:27:55 1087

原创 微信小程序跳一跳辅助程序指北

一、本实验测试环境: Win7 64位+华为荣耀9 二、准备: 电脑与手机均安装豌豆荚,手机调到微信小程序跳一跳首页界面。 三、使用方法 1.启动adbadb start-server 可能出现的错误1: C:\Users\Admin>adb devices List of devices attached 重启动adb kill掉adb adb kill...

2018-02-05 15:50:48 849

原创 spark中使用udf执行filter

有时我们需要使用filter执行过滤操作,使用下面的语句则会报错:new_user_rdd = user_rdd.filter(lambdax:begin<=datetime.strptime(x['finish_time'])<=end) TypeError: condition should be string or Column一个解决方法是:from pyspark.sql.funct

2018-01-03 13:37:01 2361

原创 从rdd创建dataframe

有时我们想将spark的dataframe转为pandas的dataframe,首先需要将rdd转为spark的dataframe,下面是一种方法:from pyspark.sql.types import *from pyspark.sql import Rowschema = StructType([StructField('name', StringType()), StructField(

2018-01-03 13:30:57 918

原创 python求list中重复元素最后一个value位置

这个问题如果换成求第一个value的位置,可以使用list.index(value)来求,倘若使用enumerate也未尝不可:def unique_index(L,e):    return [j for (i,j) in enumerate(L) if i == e]由于是求最后一个出现的位置,因此可以采取更为简单的方法。就是将列表反转,然后求第一个元素。

2018-01-01 09:12:19 5844 1

原创 jupyter notebook MemoryErrory

今天在一台新笔记本上第一次使用jupyter的时候,出现了MemoryError,查看了笔记本内存,一共8G,使用了不到4G,所以应该不是笔记本本身的内存限制,查找了资料,发现如果在64位笔记本上安装了32位的python,可能会导致这个问题。于是重新卸载了python32位(卸载只需要重新运行一下安装程序,选择unistall即可),安装了64位python,问题解决。

2017-12-23 09:11:23 8423 1

翻译 使用随机森林计算特征重要度

随机森林包含很多决策树,决策树中的每一个节点是某一个特征的条件。这些条件用来将数据集分成两部分,使得每一部分的响应值归为同一个集合。最优条件的选择依据是不纯度。不纯度在分类中通常为Gini不纯度或信息增益/信息熵,对于回归问题来说是方差。 下面是两种计算特征重要度的方法: 1 基于sklearn的实现from sklearn.datasets import load_bostonfrom sk

2017-12-20 20:47:21 22984 5

原创 RL,MAB与Contextual Bandits区别

Contextual Bandits介于RL与MAB之间。RL: 动作改变状态,奖励由状态,动作决定CB: 动作不改变状态,奖励由状态,动作决定MAB:动作不改变状态,奖励只由动作决定linUCB是Contextual Bandits的一种方法。其基本思想是用函数近似期望收益,对于每一个动作,学习一个这样的估计函数,当面临新的状态s的时候,先估计每个动作的期望收益 ,再根据UCB算法挑一个动作

2017-12-18 16:02:56 3055

原创 程序媛必备之日常BGM

锦鲤抄蝉声陪伴着行云流浪 回忆开始后安静遥望远方 荒草复没的古井枯塘 匀散一缕过往 晨曦惊扰了陌上新桑 风卷起庭前落花穿过回廊 浓墨追逐着情绪流淌 染我素衣白裳 阳光微凉 琴弦微凉 风声疏狂 人间仓皇 呼吸微凉 心事微凉 流年匆忙 对错何妨 你在尘世中辗转了千百年 却只让我看你最后一眼 火光描摹容颜燃尽了时间 别留我一人 孑然一身 凋零在梦境里面...

2017-12-17 22:54:30 689

转载 groupByKey与reduceByKey区别

If we compare the result of both ( “groupByKey” and “reduceByKey”) transformations, we have got the same results. I am sure you must be wondering what is the difference in both transformations. The “re

2017-10-18 20:26:41 762

原创 pandas易错点总结

1.按照多个条件筛选时,应当使用&而不是and,如: lc.loc[(lc[“grade”] == “B”) & (lc[“loan_amnt”] > 5000)] 2. 单一series赋值给series之前需要转换数据格式,如int,float,datetime 3. loc,iloc,ix区别 loc按索引名称取值,如:import pandas as pddata = [[1,

2017-10-10 15:59:02 533

原创 盘点机器学习中常见的损失函数和优化算法

在机器学习中,对于目标函数、损失函数、代价函数等不同书上有不同的定义。通常来讲,目标函数可以衡量一个模型的好坏,对于模型的优化通常求解模型的最大化或者最小化,当求取最小化时也称loss function即损失函数,也称为成本函数、代价函数。 大多数情况下两者并不做严格区分。损失函数包含损失项与正则项。正则项的目的是提高模型的泛化能力,防止过拟合。本文仅讨论损失项,下面是一些常见的损失函数的损失项。

2017-08-19 16:23:10 7377

原创 平衡数

假定我们定义一个数值序列可以被分成两部分,使得这两部分的乘积相等,这样的数列为平衡数,如1236中,1*2*3=6, 为平衡数。现给定一个数列,判断是否为平衡数。 分析: 此题有多种解法,首先最原始的想法是顺次设置分隔符,然后比较分割后的两个子串的乘积,为了提高检查效率,可以首先过滤掉非完全平方数,即数字开方后不为整型的数字,但是这样增加了计算复杂度。 def balance_num_ini

2017-03-24 15:22:53 1644

转载 Python模块: collections

转自:http://www.zlovezl.cn/articles/collections-in-python/ Python作为一个“内置电池”的编程语言,标准库里面拥有非常多好用的模块。比如今天想给大家 介绍的 collections 就是一个非常好的例子。 基本介绍我们都知道,Python拥有一些内置的数据类型,比如str, int, list, tuple, dict等, colle

2017-02-20 10:11:08 473

原创 Elasticsearch mappings小结

type为string类型的mapping的最重要的两个属性是index和analyzer. index与三种可选项: analyzed First analyze the string and then index it. In other words, index this field as full text.not_analyzed Index this field,

2017-02-05 22:33:33 1130

原创 python进行桶排序与基数排序总结

本文首先举例阐述了两种排序方法的操作步骤,然后列出了用python进行的实现过程,最后对桶式排序方法的优劣进行了简单总结。一、桶排序:排序一个数组[5,3,6,1,2,7,5,10]值都在1-10之间,建立10个桶:[0 0 0 0 0 0 0 0 0 0] 桶[1 2 3 4 5 6 7 8 9 10] 桶代表的值遍历数组,第一个数字5,第五个桶加1[0 0 0 0 1 0 0 0 0

2017-02-02 20:29:54 3025

tablib-0.12.1.tar.gz

tablib简介tablib为requests作者kennethreitz维护,支持python2到python3.简单的说就是一个通用的数据集,操作类似数据库

2019-09-10

odfpy-1.3.6.tar.gz

Odfpy is a library to read and write OpenDocument v. 1.2 files. The main focus has been to prevent the programmer from creating invalid documents.

2019-09-10

scipy python37 wheel 64位

Scipy库构建于NumPy之上,提供了一个用于在Python中进行科学计算的工具集,如数值计算的算法和一些功能函数,可以方便的处理数据。

2018-10-16

numpy wheel python37

Numpy(Numerical Python)是一个开源的、高性能的Python数值计算库为提高运算效率,ndarray数组值的类型默认相同,创建时自动指定默认数据类型

2018-10-16

LDA数学八卦

本文档对LDA的原理进行了深入浅出的解读,值得业界主题模型开发相关人员一读。

2017-10-21

python2.7 xgboost安装包

xgboost安装包,支持python2.7,可用于分类回归等机器学习任务。

2017-10-21

2001-2012年美国大学生数学建模特等奖论文全集

2001-2012年美国大学生数学建模特等奖论文全集

2015-06-20

仿淘宝 网站模板

一套适合初学者 进行网站设计与开发的 网页设计与制作的模板教程 希望大家喜欢

2015-01-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除