自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(154)
  • 问答 (1)
  • 收藏
  • 关注

原创 大数据&算法工程师知识点大全

下面内容为自己找工作的过程中,自己整理的知识点以及从别人面经中整理的知识点大全,对其中的大部分问题,我都会给出我认为最优答案的csdn链接(ps:本篇博客正在整理过程中,会不定期更新一些新的知识点的答案,希望可以帮到更多的同学!最新更新于2019-9-25)【1】在github上找到了一个2018/2019/校招/春招/秋招/自然语言处理(NLP)/深度学习(Deep Learning)/机...

2018-04-04 10:53:08 4272 1

原创 怎么解决数据倾斜问题?

本文面向的读者是从事数据分析、数据处理(ETL)等相关工作的朋友们,相信大家在工作中一定遇到过数据倾斜的问题,读完本文,你会了解到数据倾斜的定义及其危害、产生的原因及应对措施、常见倾斜场景及解决办法等知识,相信对你今后处理数据倾斜问题会有一定的帮助。目前流行的大数据相关的计算框架之所以能够处理大量的数据和计算,基本上都是依赖分布式计算的思想,即由一个通过某种组织关系连接在一起的集群来共同完...

2019-04-19 14:35:32 5487

原创 推荐系统系列三:推荐系统冷启动

下面内容转自大数据与人工智能微信公众号,由于网络上推荐系统的相关学习资料太多太杂,东拼西凑学习很难摸出门道,同时我也在学习推荐系统,因此我将该系列内容摘录到我的博客,方便大家直接在博客中查看,大家一起学习进步,后面我也会阅读推荐系统相关的论文,并在本博客记录笔记,希望大家一起进步哈。===================正文开始================...

2019-04-11 16:38:47 3628

原创 推荐系统系列二:推荐系统的工程实现

下面内容转自大数据与人工智能微信公众号,由于网络上推荐系统的相关学习资料太多太杂,东拼西凑学习很难摸出门道,同时我也在学习推荐系统,因此我将该系列内容摘录到我的博客,方便大家直接在博客中查看,大家一起学习进步,后面我也会阅读推荐系统相关的论文,并在本博客记录笔记,希望大家一起进步哈。 在我更新第一篇《推荐系统介绍》之后,过了一两天这篇介绍的阅读量就达到了三百多,可见...

2019-04-10 13:37:31 3479 1

原创 如何优雅的在 Microsoft word中插入代码

近日需要写一些包含代码的Word文档,直接复制代码进去并不优雅,于是从网上发现了这个小工具,和大家分享一下。一、工具http://www.planetb.ca/syntax-highlight-word二:操作步骤:第一步:打开上面这个网站,截图如下:第二步:将自己的代码复制到这个Code文本框中,并点击Show Hightlighted按钮,会自动打开一个新页面,该页面中...

2019-04-08 16:26:45 4120 2

原创 推荐系统系列一:推荐系统介绍

下面内容转自大数据与人工智能微信公众号,由于网络上推荐系统的相关学习资料太多太杂,东拼西凑学习很难摸出门道,同时我也在学习推荐系统,因此我将该系列内容摘录到我的博客,方便大家直接在博客中查看,大家一起学习进步,后面我也会阅读推荐系统相关的论文,并在本博客记录笔记,希望大家一起进步哈。===================正文开始===================一,推荐系...

2019-04-07 20:04:21 13227 3

原创 LRU算法 + Java实现代码

LRU原理LRU(Least recently used,最近最少使用)算法根据数据的历史访问记录来进行淘汰数据,其核心思想是“如果数据最近被访问过,那么将来被访问的几率也更高”。最常见的实现是使用一个链表保存缓存数据,详细算法实现如下新数据插入到链表头部; 每当缓存命中(即缓存数据被访问),则将数据移到链表头部; 当链表满的时候,将链表尾部的数据丢弃。 【命中率】 当存在热...

2019-04-06 20:47:44 645

转载 Linux top命令里面%CPU和cpu(s)的差别

有的同学会把%CPU和us%搞晕,也就是下图所示在top的时候查看cpu的信息。这时有的同学会问:这两个CPU到底哪个是对的。其实都是对的,只是表达的意思不一样。官方解释如下Cpu(s):34.0% us: 用户空间占用CPU百分比%CPU:上次更新到现在的CPU时间占用百分比读到这里我也不是十分理解他们俩的关系,我一直以为%CPU是每个进程占用的cpu百分比,按...

2019-04-01 09:33:02 1199

转载 TF-IDF 介绍

最近在学习主题分类的内容,下面是关于TF-IDF通俗易懂的介绍。任务一:现在有一篇长文《中国的蜜蜂养殖》,用计算机提取它的关键词。1、词频:如果某个词很重要,它应该在这篇文章中多次出现。我们进行"词频"(Term Frequency,缩写为TF)统计。2、停用词:结果你肯定猜到了,出现次数最多的词是----"的"、"是"、"在"----这一类最常用的词。它们叫做"停用词"(stop w...

2019-02-21 15:08:03 500

转载 稀疏矩阵存储格式Compressed Sparse Column Format (CSC)

目的Compressed Sparse Column Format (CSC)的目的是为了压缩矩阵,减少矩阵存储所占用的空间。这很好理解,手法无法就是通过增加一些"元信息"来描述矩阵中的非零元素存储的位置(基于列),然后结合非零元素的值来表示矩阵。这样在一些场景下可以减少矩阵存储的空间。Spark API在Spark中我们一般创建这样的稀疏矩阵的API为: package o...

2019-01-03 16:26:31 1609

转载 Spark性能优化:资源调优篇

       近日在搞xgboost分布式在spark上的运行情况,发现其运行速度较慢,便查找原因,下面这篇博客诗写得很好的一篇,转载以备后用!在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源...

2018-12-18 10:39:08 404

原创 在缺少高版本glibc的机器上通过修改ELF引用使之成功运行测试实例

问题分析:本篇文档是在《更改引用高版本glibc的程序到引用低版本的glibc》之后的补充文档,如果以后遇到相同问题,首先看我之前原创的《更改文件引用的高版本glibc到低版本glibc》这篇,然后再来看本篇。本篇文档将详细记录一个在低版本glibc机器上运行由a.cpp文件编译之后的a文件,由最初的缺少GLIBC_2.14错误提示到最终成功运行的一系列步骤。1:我们在45.154机器...

2018-10-24 16:48:57 1240

转载 先验概率、后验概率与似然估计--通俗易懂的解释

本文假设大家都知道什么叫条件概率了(P(A|B)表示在B事件发生的情况下,A事件发生的概率)。先验概率和后验概率教科书上的解释总是太绕了。其实举个例子大家就明白这两个东西了。假设我们出门堵车的可能因素有两个(就是假设而已,别当真):车辆太多和交通事故。堵车的概率就是先验概率 。那么如果我们出门之前我们听到新闻说今天路上出了个交通事故,那么我们想算一下堵车的概率,这个就叫做条件概率...

2018-10-24 16:41:28 3356 2

原创 更改引用高版本glibc的程序到引用低版本的glibc

1:问题背景描述在拥有高版本glibc的机器上编译分布式xgboost程序,结果在拥有低版本glibc版本的集群机器上无法运行,总是报错,显示缺少glibc_2.14,为了解决整个问题,google查阅了很多资料,大体给出了两种方案:方案一:升级集群所有机器的glibc版本以满足程序运行要求,但是升级glibc是有很大风险的,尤其是在生产环境,风险最大,所以放弃这个方法!方案二:在低版...

2018-10-17 09:17:11 15165 6

转载 机器学习中常用的损失函数你知多少?

转自机器之心公众号!本文作者将常用的损失函数分为了两大类:分类和回归。然后又分别对这两类进行了细分和讲解,其中回归中包含了一种不太常见的损失函数:平均偏差误差,可以用来确定模型中存在正偏差还是负偏差。机器通过损失函数进行学习。这是一种评估特定算法对给定数据建模程度的方法。如果预测值与实际结果偏离较远,损失函数会得到一个非常大的值。在一些优化函数的辅助下,损失函数逐渐学会减少预测值的误差...

2018-09-12 14:10:15 1141

转载 在eclipse中使用git

这是在eclipse中对git的一般用法 下载与安装    Eclipse Java EE IDE中已经包含了git,所以,就不用再额外安装了。将eclipse中的工程用git来控制    1:选中工程的名字,右键选中“Team” --> Share Project,然后选中git,接着需要选中git的仓库。单击确定。这一步完成之后,这个工程的目录,会从eclipse的work...

2018-08-03 08:37:16 401

转载 Shell脚本中调用其他Shell脚本

在Linux平台上开发,经常会在console(控制台)上执行另外一个脚本文件,经常用的方法有:./my.sh 或 source my.sh 或 . my.sh;这三种方法有什么不同呢?我们先来了解一下在一个shell脚本中如何调用另外一个shell脚本,其方法有 fork    exec    source。1、fork  ( /directory/script.sh) :如果shell...

2018-07-26 08:56:42 2035

原创 Apache Hadoop YARN

Apache Hadoop YARN - 概念和应用程序本系列的其他文章:Apache Hadoop简介YARN Apache Hadoop YARN - 背景和概述Apache Hadoop YARN - 概念和应用程序Apache Hadoop YARN - ResourceManager Apache Hadoop YARN - NodeManagerAPACHE HADOOP YA...

2018-07-20 15:36:25 2590

原创 Hadoop Yarn详解

一、Yarn简介Yarn是Hadoop集群的资源管理系统。Hadoop2.0对MapReduce框架做了彻底的设计重构,我们称Hadoop2.0中的MapReduce为MRv2或者Yarn。在介绍Yarn之前,我们先回头看一下Hadoop1.x对MapReduce job的调度管理方式(可参考:Hadoop核心之MapReduce架构设计),它主要包括两部分功能:1. ResourceM...

2018-07-20 10:15:50 973

转载 Kaggle 数据清洗挑战 Day 1~Day5

本文系转发自:https://blog.csdn.net/cyan_soul前些天报名参加了 Kaggle 的 Data Cleaning 5天挑战,5天的任务如下:Day 1: Handling missing valuesDay 2: Data scaling and normalizationDay 3: Cleaning and parsing datesDay 4: Fixing enc...

2018-07-13 17:08:27 547

转载 Scala中object、class与trait的区别

今天在学习Scala时,突然想用Idea来创建一个学习类(cmd撸代码太痛苦),直接创建了一个class:class Test { def main(args: Array[String]) { print("Hello World!") }}当我要运行这个main函数时,缺无法执行,当时就郁闷了,再次查看新建时,才知道,Scala class的分类:那这三中类型:class,Obje...

2018-07-02 17:32:37 375

转载 二叉树的后序非递归遍历(巧妙思想)

大家都知道二叉树的前序非递归遍历非常好写://二叉树的结构public class TreeNode { TreeNode left; TreeNode right; int val; TreeNode(int val) { this.val = val; left = right = null; }}123456789...

2018-05-06 10:13:00 5721 3

原创 Windows10中使用Anaconda安装keras-gpu版本【入坑经验总结】

【注】本教程是在已经安装tensorflow-gpu1.7.0基础上,安装keras-gpu版本的一些经验!第一次安装keras的时候,也不清楚什么cpu版本的还有gpu版本的,就百度按照别人的方法直接使用命令conda install keras进行安装,结果。。。它弹出来了提示说还需要附带安装theano以及tensorflow1.1.0版本以及其他几个库,什么也不懂,就同意了,结果在跑ker...

2018-04-26 14:02:40 11241 2

转载 Windows环境下安装TensorFlow并在Jupyter notebook上使用

在成功安装tensorflow之后,在Anaconda Prompt中activate tensorflow之后,输入python,再输入import tensorflow as tf可以正确运行,但是在jupyter notebook上import的时候一直报错说找不到tensorflow模块,网上找了找解决办法,发现是我们只有在tensorflow环境下才可以打开notebook才可以正确im...

2018-04-26 11:44:49 1210

原创 windows10 64位 Tensorflow安装--CUDA 9.1+cuDNN7.1+python3.6.4+tensorflow-GPU1.7.0安装详解

一、前言vs2017安装请见博主文章:vs2017安装和使用教程(详细)Anaconda安装可见博主文章:Anaconda安装二、改动1.我在Anaconda文章里写的Tensorflow是针对于CUDA8.0来说的,因此安装的是py3.52.CUDA9.0是官方Tensorflow的最新版本,那么好不容易装好的CUDA9.1就泡汤了。但是,世上无难事,只怕有心人!3.接下来我为大家展示CUDA9...

2018-04-25 23:36:22 3004

转载 关于jupyter notebook的kernel error的问题

最近打开jupyter notebook发现内核错误【kernal error】 FileNotFoundError: [WinError 2] The system cannot find the file specified,查了资料原来是我中午用conda删除了一些环境,所以牵涉到这个jupyter notebook,可能是路径问题,导致文件找不到。最终找到解决方法:在cmd运行:pytho...

2018-04-25 23:30:42 3129

原创 windows10下使用nvidia-smi查看GPU使用情况

nvidia-smi所在的位置为:C:\Program Files\NVIDIA Corporation\NVSMIcmd进入目录输入命令即可:具体如下所示:重要的参数主要是温度、内存使用、GPU占有率,具体如下红框所示。...

2018-04-25 18:38:47 35193 7

原创 OneHotEncoder独热编码和 LabelEncoder标签编码

学习sklearn和kagggle时遇到的问题,什么是独热编码?为什么要用独热编码?什么情况下可以用独热编码?以及和其他几种编码方式的区别。首先了解机器学习中的特征类别:连续型特征和离散型特征            拿到获取的原始特征,必须对每一特征分别进行归一化,比如,特征A的取值范围是[-1000,1000],特征B的取值范围是[-1,1].如果使用logistic回归,w1*x1+w2*x2...

2018-04-19 16:30:37 4253

转载 pandas使用get_dummies进行one-hot编码

离散特征的编码分为两种情况:1、离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one-hot编码2、离散特征的取值有大小的意义,比如size:[X,XL,XXL],那么就使用数值的映射{X:1,XL:2,XXL:3}使用pandas可以很方便的对离散型特征进行one-hot编码[python] view plain copyimport pandas as pd...

2018-04-19 14:17:53 556

原创 Windows安装XGBoost详细教程

折腾了半天,终于把xgboost在自己电脑装好了【只是表面装好了,但是还是import的时候出现各种问题】网上有很多帖子说的方法都是自己要下载git,还要下载mingw32等软件,目的只有一个,就是为了编译从github上下载的xgboost源码,自己尝试了好多次都失败了,后来直接下载别人已经编译好的xgboost文件,在安装就可以了,具体过程如下:附加1:python各版本,32位及64位下载地...

2018-04-17 18:24:15 1420

转载 自然语言处理资源及机器学习面试题目大全

先说说面试,我深深的觉得刷题检验自己知识和巩固知识的方式,推荐如下:那些深度学习《面试》你可能需要知道的如何准备机器学习工程师的面试 ?七月在线实验室---BAT机器学习面试题如何准备机器学习工程师的面试 ?读完这21个机器学习面试问题和答案,入职率提升99%....等等我觉得上面很多问题可以很好的检查下自己掌握那些算法到什么样的水平。然后是推荐我学自然语言处理时的书籍和教材,我觉得自然语言工程师...

2018-04-11 10:42:35 3572

转载 B 树、B- 树、B+ 树和B* 树

B树即二叉搜索树:1. 所有非叶子结点至多拥有两个儿子(Left和Right);2. 所有结点存储一个关键字;3. 非叶子结点的左指针指向小于其关键字的子树,右指针指向大于其关键字的子树;如:B树的搜索,从根结点开始,如果查询的关键字与结点的关键字相等,那么就命中;否则,如果查询关键字比结点关键字小,就进入左儿子;如果比结点关键字大,就进入右儿子;如果左儿子或右儿子的指针为空,则报告找不到相应的关...

2018-04-09 10:31:29 187

转载 Pandas速查手册中文版

本文翻译自文章:Pandas Cheat Sheet - Python for Data Science,同时添加了部分注解。对于数据科学家,无论是数据分析还是数据挖掘来说,Pandas是一个非常重要的Python包。它不仅提供了很多方法,使得数据处理非常简单,同时在数据处理速度上也做了很多优化,使得和Python内置方法相比时有了很大的优势。如果你想学习Pandas,建议先看两个网站。(1)官网...

2018-04-08 21:32:35 649

转载 决策树之剪枝原理与CART算法

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u014688145/article/details/53326910决策树学习笔记(二)前言继续关于决策树的内容,本篇文章主要学习了决策树的剪枝理论和基于二叉树的CART算法。主要内容:理解决策树损失函数的定义以及物理含义基尼指数的主要两个作用理解CART剪枝原理,以及它的基本假设和核心思想决策树的...

2018-04-04 19:37:01 1305

转载 深度学习入门

零基础入门深度学习(1) - 感知器 零基础入门深度学习(2) - 线性单元和梯度下降 零基础入门深度学习(3) - 神经网络和反向传播算法 零基础入门深度学习(4) - 卷积神经网络 零基础入门深度学习(5) - 循环神经网络 零基础入门深度学习(6) - 长短时记忆网络(LSTM) 零基础入门深度学习(7) - 递归神经网络深度学习论文学习路线(Deep Learning Papers Rea...

2018-04-03 20:22:42 1831 1

转载 程序员面试、算法研究、编程艺术、红黑树、机器学习5大系列集锦

程序员面试、算法研究、编程艺术、红黑树、机器学习5大经典原创系列集锦与总结 (七月在线:https://www.julyedu.com/,面试 & 算法 & 机器学习在线课程)作者:July--结构之法算法之道blog之博主。时间:2010年10月-2014年12月。出处:http://blog.csdn.net/v_JULY_v 。说明:本博客中部分文章经过不断修改、优化,已集结...

2018-04-03 14:31:59 233

转载 从头到尾解析Hash表算法

作者:July、wuliming、pkuoliver  出处:http://blog.csdn.net/v_JULY_v。  说明:本文分为三部分内容,    第一部分为一道百度面试题Top K算法的详解;第二部分为关于Hash表算法的详细阐述;第三部分为打造一个最快的Hash表算法。------------------------------------ 第一部分:Top K 算法详解问题描述百...

2018-04-03 14:25:13 160

转载 评价分类器性能指标之AUC、ROC

前言曾经面试的时候被问到过这么一个问题,怎么向一个没有任何计算机、数学、统计等基础的人介绍下什么是AUC,当时我败北了。不过后来我有一天顿悟了,为了检验我的顿悟是否有效,特此一答。我给出的答案是 AUC是指 随机给定一个正样本和一个负样本,分类器输出该正样本为正的那个概率值 比 分类器输出该负样本为正的那个概率值 要大的可能性。作者:小小丘链接:https://www.zhihu.com/ques...

2018-03-23 15:00:03 3299

转载 协方差与相关系数 numpy中cov与corrcoef的使用

协方差与相关系数协方差与相关系数协方差相关系数1.协方差如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。可以通俗的理解为:两个变量在变化过程中是同方向变化?还是反方向变化?同向或反向程度如何? 你变...

2018-03-20 20:34:23 2331

转载 XGBoost、LightGBM的详细对比介绍

sklearn集成方法集成方法的目的是结合一些基于某些算法训练得到的基学习器来改进其泛化能力和鲁棒性(相对单个的基学习器而言)主流的两种做法分别是:bagging基本思想独立的训练一些基学习器(一般倾向于强大而复杂的模型比如完全生长的决策树),然后综合他们的预测结果,通常集成模型的效果会优于基学习器,因为模型的方差有所降低。常见变体(按照样本采样方式的不同划分)Pasting:直接从样本集里随机抽...

2018-03-20 19:27:11 1881

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除