自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(97)
  • 问答 (7)
  • 收藏
  • 关注

原创 企业微信-拉取企业微信聊天记录

完整代码下载地址:https://download.csdn.net/download/lyn5284767/11485236一,前提1,企业微信开通了会话内容存档2,程序运行环境windows平台,VS2017,c++3,你是企业微信的管理员二,准备工作1,获取RSA公私钥对,推荐用http://web.chacuo.net/netrsakeypair这个网址生成。...

2019-08-07 09:22:05 13976 7

转载 VUE经典开源项目

UI组件element★9305 –饿了么出品的Vue2的web UI工具套件 Vux★6802 –基于Vue和WeUI的组件库 mint-ui★4776 – Vue 2的移动UI元素 iview★4458 –基于Vuejs的开源UI组件库 Keen-UI★2363 –轻量级的基本UI组件合集 vue-material★2207 –通过Vue Mater...

2019-04-25 10:16:07 604

原创 sklearn基础(一)文本特征提取函数CountVectorizer()和TfidfVectorizer()

CountVectorizer()函数CountVectorizer()函数只考虑每个单词出现的频率;然后构成一个特征矩阵,每一行表示一个训练文本的词频统计结果。其思想是,先根据所有训练文本,不考虑其出现顺序,只将训练文本中每个出现过的词汇单独视为一列特征,构成一个词汇表(vocabulary list),该方法又称为词袋法(Bag of Words)。我们举一个例子:from sk...

2018-12-28 13:28:58 29016 2

原创 windows系统下pycharm远程访问linux系统下jupyter notebook,并调用spark平台(五)pycharm调用juypter notebook

一,anaconda安装本例使用的是Anaconda3-5.3.1-Linux-x86_64.sh,放在/opt文件夹下首先,安装anaconda一直点回车,直到有询问,输入yes查询anaconda版本至此anaconda安装完毕二,jupyter notebook安装安装jupyter输入:pip install jupyter安装ipython...

2018-12-24 09:08:17 2468 4

原创 windows系统下pycharm远程访问linux系统下jupyter notebook,并调用spark平台(四)spark平台搭建

三台linux系统机器,分别为192.168.88.177 主机名master,192.168.88.178 主机名slave2,192.168.88.179 主机名slave3一,Sacla安装本例下载的是scala2.12.8,将文件放在/opt文件夹下首先进入/opt文件夹解压文件修改环境配置文件在文件末尾添加:使环境生效:检查版本...

2018-12-20 10:32:34 368

原创 windows系统下pycharm远程访问linux系统下jupyter notebook,并调用spark平台(三)-hadoop平台搭建

一,安装jdk创建目录输入:mkdir /usr/lib/jvm拷贝下载好的jdk放入解压修改环境变量在文件最后加入:export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_171export PATH=$JAVA_HOME/bin:$PATHexport CLASSPATH=$JAVA_HOME/lib:$CLASSPATH...

2018-12-19 17:01:36 513

原创 windows系统下pycharm远程访问linux系统下jupyter notebook,并调用spark平台(二)-linux系统免密码登录

一,openssl安装查看openssl版本输入:openssl version有结果,则已经安装了openssl,如无结果则需要安装。下载opensslhttp://www.openssl.org/source/openssl-1.1.0e.tar.gz将其放入windows共享文件夹中。如无gcc则还需要安装gcc输入:yum -y install gcc...

2018-12-19 15:39:10 289

原创 windows系统下pycharm远程访问linux系统下jupyter notebook,并调用spark平台(一)-VMware Workstation设置

一,虚拟机信息准备了3台虚拟机,1台作master,2台作slave。系统:centos 7。二,虚拟机网络设置3台虚拟机都需要进行设置1,修改VMware网络模式为桥接模式:2,设置静态IP和网络输入: cd /etc/sysconfig/network-scripts/输入:ls查看网络配置文件不同电脑可能文件不同,本例中配置文件为ifcfg...

2018-12-19 14:09:27 605

转载 机器学习-集成学习(Boosting算法-梯度提升树(GBDT))

一,算法介绍算法流程转自(李航(统计学方法)):             二,实例下面我们举一个实例,数据也采用(李航《统计学方法》):我们假定使用的损失函数为均方差损失函数:                                                         (1)初始化根据公式:                      ...

2018-09-27 14:40:48 584

转载 机器学习-集成学习(Boosting算法-提升树)

一,介绍提升树主要用于回归问题,但是,也可疑根据设定阈值来进行分类。算法流程如下:输入:训练数据集输出:提升树算法流程: (1)初始化 (2)对m = 1,2,…,M计算残差 拟合残差学习一个回归树,得到 更新(3)得到回归问题提升树 举例(来自李航的《统计学方法》)...

2018-09-27 10:27:02 312

原创 Mongodb数据库搭建

1,下载MongoDB(64位)wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.4.9.tgz2,安装MongoDB(安装到/sparklearning)tar  –zvxf mongodb-linux-x86_64-2.4.9.tgz3,修改文件名(必须修改,不然路径中包含了‘-’和‘.’会导致程序读取不到)...

2018-09-27 09:04:29 139

转载 Spark集群搭建

(1)JDK 1.8 安装在根目录下创建sparkLearning目前,后续所有相关软件都放置在该目录下,代码如下:[root@slave01 /]# mkdir /sparkLearning[root@slave01 /]# lsbin etc lib media proc selinux sys varboot ...

2018-09-22 17:34:03 2507

原创 hadoop搭建常见错误

一,集群电脑,ssh生成密匙,必须也放到本机,不然执行hadoop-daemons.sh start journalnode会报错,Prmission denied二,格式化HDFS(集群机器都需要执行)三,journalnode启动不了一定要检查防火墙是否关闭...

2018-09-22 17:32:50 253

原创 VMware Workstation 无界面linux系统(centos6.5),命令行安装VMTools,并建立共享文件夹

1、VMware tools安装 1.1 选中要安装VMware tools的linux虚拟机,然后点击VMware Workstation10顶部的“虚拟机(M)”按钮,选中“安装VMware tools”按钮,此时VMware tools的安装包就会默认放在/dev/cdrom目录中。1.2进入该Linux系统中的命令行,建立一个挂载cdrom的目录[root@master /]#...

2018-09-19 14:33:53 5238 1

原创 机器学习-聚类性能度量指标

聚类性能度量大致分为两类:一,将聚类结果与某个“参考模型”进行比较,称为“外部指标”;二,直接考察聚类结果,称为“内部指标”。外部指标主要有:Jaccard系数、FM指数、Rand指数。对数据集D={X1,X2,...Xm},假定通过聚类算法给出的簇划分为C={C1,C2,...Ck},参考模型给出的簇类划分为C*={C1*,C2*,...Cs*}。相应的λ和λ*分别表示C和C*对应的簇标...

2018-09-11 09:47:35 2542

原创 机器学习-贝叶斯网络

一,介绍无论是朴素贝叶斯或者是半朴素贝叶斯,都是建立在所有属性独立或者仅仅只有很少的属性有依赖的前提下。但是,现实环境中很多属性之间都是相互关联、相互影响的,因而我们用一个有向无黄网来刻画属性之间的关系,并用条件概率表来描述属性的联合概率分布,这个就称为贝叶斯网络,也叫信念网。二,从全概率和贝叶斯公式到贝叶斯网络全概率公式:设事件是一个完备事件组,则对于任意一个事件C,若有如下公式...

2018-09-10 11:47:01 1817 1

原创 机器学习-半朴素贝叶斯

一,介绍朴素贝叶斯采用了属性独立的假设条件,这在现实生活中是难以成立的,因而人们尝试对属性条件进行了一定程度放松,假设每个属性最多依赖另一个属性,产生了一类称为半朴素贝叶斯的学习方法:                                                                半朴素贝叶斯的基本思路是适当考虑一部分依赖性强的属性。最常用的策略是“独依赖...

2018-09-06 14:44:51 822 2

原创 机器学习-决策树裁剪(二)

决策树裁剪有两种方式:预裁剪和后裁剪。预裁剪是在划分叶节点时进行计算,如果划分能带来泛化性能则划分,否则不划分。后裁剪是决策树完全划分完毕后,自底向上对结点进行考察,如果性能提升则合并,其训练时间比预裁剪决策树要大得多。训练数据:1,青绿,蜷缩,浊响,清晰,凹陷,硬滑,是2,乌黑,蜷缩,沉闷,清晰,凹陷,硬滑,是3,乌黑,蜷缩,浊响,清晰,凹陷,硬滑,是6,青绿,稍蜷,浊响,清晰,稍...

2018-08-24 14:22:50 688

原创 机器学习-K-摇臂赌博机相关算法

一,介绍学习K-摇臂赌博机的相关算法需要明白两个概念:探索和利用。仅探索:将所有尝试机会平均分给每个摇臂,以各个摇臂的平均吐币概率作为奖赏期望。仅利用:按下目前最优的摇臂,有多个则随机选取一个。算法一:ε-贪心算法基于概率对探索和利用折中:以ε的概率进行探索,以1-ε的概率进行利用,一般如果尝试次数非常大,可以让ε随着尝试次数增加而减小。我们用Q(k)表示平均奖赏:  ...

2018-08-20 15:42:32 2262

原创 机器学习-马尔可夫随机场(MRF)

一,介绍首先,我们来交接几个基本概念:1)马尔可夫随机过程:是随机过程的一种,其原始模型为马尔科夫链,其主要特征是:在已知眼下状态(如今)的条件下,它未来的变化(将来)不依赖于以往的变化,而只跟眼下所处的状态有关。2)随机场:随机场实际上是一种特殊的随机过程,跟普通的随机过程不同的是,其參数取值不再是实数值而有是多维的矢量值甚至是流行空间的点集。3)马尔可夫随机场:马尔科夫随机场是...

2018-08-15 15:38:15 7069

原创 机器学习-隐马尔科夫模型(HMM)

一,介绍隐马尔科夫模型(Hidden Markov Model,以下简称HMM)是比较经典的机器学习模型了,它在语言识别,自然语言处理,模式识别等领域得到广泛的应用。目前随着深度学习的崛起,尤其是RNN,LSTM等神经网络序列模型的火热,HMM的地位有所下降。使用HMM模型时我们的问题一般有这两个特征:1)我们的问题是基于序列的,比如时间序列,或者状态序列。2)我们的问题中有两类数据,一类...

2018-08-15 09:27:25 2182

原创 机器学习-特征选择

一,介绍常见的特征选择方法有三类:过滤式、包裹式、嵌入式。(1)过滤式过滤式中最著名的方法为Relief。其思想是:现在同类中找到样本最相近的两点,称为“猜中近邻”;再从异类样本中寻找最近的两点,称为“猜错近邻”,然后用于计算某个属性的相关统计量:                                                 其中为第i个分量在j属性上的取值。...

2018-08-13 16:12:26 1217

转载 泰勒展开

推荐阅读时间:5min~8min主要内容:更好的理解,并且记忆泰勒展开式我们学习泰勒展开,本质上就是为了在某个点附近,用多项式函数取近似其他函数。可能有些童鞋就要问了,既然有一个函数了,为什么还需要用多项式函数取进行近似,理由就是多项式函数具有非常多优良的性质。比如说,多项式函数既好计算,也好求导,还好积分,等等一系列的优良性质。好,本质已经说...

2018-08-13 14:16:17 2679

原创 机器学习-降维算法(KPCA算法)

一,介绍现实中往往很多数据是线性不可分的,因此我们需要引入核函数把数据映射到高纬度而达到线性可分。基于核函数的主成分分析(KPCA)和主成分分析(KPCA)的步骤是一样的,只不过需要用核函数替代了原来的数据。原理从其他地方拷贝而来:二,代码实现from sklearn.datasets import make_moonsfrom sklearn.decomposition ...

2018-08-08 16:01:11 21287 1

原创 机器学习-降维算法(PCA算法)

一,介绍PCA算法原理就是线性映射(或线性变换),简单的来说就是将高维空间数据投影到低维空间上,那么在数据分析上,我们是将数据的主成分(包含信息量大的维度)保留下来,忽略掉对数据描述不重要的成分。即将主成分维度组成的向量空间作为低维空间,将高维数据投影到这个空间上就完成了降维的工作。为了获得数据的主成分,选取数据差异最大的方向(方差最大的方向)作为第一个主成分,第二个主成分选择方差次大的方...

2018-08-08 14:34:36 1099

原创 机器学习-降维算法(MDS算法)

一,介绍在现实数据中,很多数据都是高纬度的,在高纬度情况下进行数据处理将会有极大的数据处理量。为了,减少计算量,常常需要缓解这种数据维度灾难,这有两种途径:降维和特征选择。我们在这里介绍其中一种降维算法:MDS算法。MDS算法要求原始空间中样本之间的距离在低维空间中得以保持。但是为了有效降维,我们往往只需要降维后的距离与原始空间距离尽可能接近即可。要学习MDS算法,首先,我们要了解范数...

2018-08-08 09:24:45 27849 5

原创 机器学习-聚类(层次聚类算法)

一,介绍层次聚类试图在不同层次对数据集进行划分。划分方式可以采用“自底向上”的聚合策略,也可以采用“自顶向下”的分拆策略。我们在这里介绍其中一种:AGNES算法。这是一种自底向上的层次类聚算法。先将每个样本都看成一个初始聚类簇,然后每次算法找出最近的两个聚类簇进行合并,不断重复直到达到设定个数。算法流程如下:(1)初始化聚类簇、聚类个数,距离矩阵;(2)找出距离最近的两个聚类进...

2018-08-06 15:43:49 677

原创 机器学习-聚类(密度聚类算法)

一,介绍密度聚类算法有多种,我们这里主要介绍一种著名的密度聚类算法:DBSCAN。首先,我们通过下图了解几个概念:                                             (1)邻域,与中心x距离不超过ε距离,如上图红色虚线圈(2)核心对象,确定聚类的初始点,如上图的x1(3)密度直达,在聚类核心对象邻域内的点,如上图x2由x1密度直达(...

2018-08-06 15:08:07 628

原创 机器学习-聚类(混合高斯算法)

一,介绍学习混合高斯,先要了解几个概念:1,协方差:协方差是对两个随机变量联合分布线性相关程度的一种度量。两个随机变量越线性相关,协方差越大,完全线性无关,协方差为零。根据数学期望的性质:                                                               推导协方差为:                      ...

2018-08-06 10:36:23 9332

原创 机器学习-聚类(学习向量量化算法)

一,介绍算法主要步骤包括:初始化原型向量;迭代优化,更新原型向量。 流程如下:具体来说,主要是: 1、对原型向量初始化,可以选择满足yj=tj,j∈{1,2,…,m}yj=tj,j∈{1,2,…,m}条件的某个样本 xj=(xj1,xj2,…,xjn)xj=(xj1,xj2,…,xjn)作为 qjqj的初始值; 2、从数据集DD 中任意选择一个样本 xjxj,找到与此样本距离最近的...

2018-08-02 14:24:30 5462

原创 机器学习-聚类(K均值算法)

一,介绍采用K均值算法进行聚类,首先需要做的是确定K的个数,一般来讲,有以下几种方法:1、按需选择简单地说就是按照建模的需求和目的来选择聚类的个数。比如说,一个游戏公司想把所有玩家做聚类分析,分成顶级、高级、中级、菜鸟四类,那么K=4;如果房地产公司想把当地的商品房分成高中低三档,那么K=3。按需选择虽然合理,但是未必能保证在做K-Means时能够得到清晰的分界线。2、观察法就...

2018-08-01 16:00:44 5253

原创 机器学习-集成学习(Bagging算法之随机森林)

一,介绍Bagging算法:假定有m个训练集,我们采用自助采样法,每次随机抽取一个放入采样集中,然后再把样本放回训练集,一共抽取m次,获得一个用于训练的采样集(里面有m个样本)。根据需要我们一共抽取T个采样集,学习出T个基学习器。在进行预测时,对于分类任务采用简单投票发;回归任务采用简单平均法。随机森林:随机森林是Bagging算法的扩展。在以决策树为基学习器构建bagging集成的基...

2018-07-31 14:50:04 2901

原创 机器学习-集成学习(AdaBoosting算法)

一,介绍AdaBoosting算法是Boosting算法中最常用的一种,其思想是:先从初始训练集训练一个基学习器,在根据基学习器的表现对训练样本进行调整,使得错误的训练样本在后续受到更多关注,然后调整样本分布训练下一个基学习器;如此重复直到学习器数目达到指定值T,最终将T个学习器进行加权结合。二,算法推导假设对训练数据进行二分类,训练集为N个多维的特征向量,学习器的数目为T个。则T个分...

2018-07-30 10:02:40 5939

原创 机器学习-朴素贝叶斯

一,介绍贝叶斯定理:                                                                              从上述公式,不难发现,类条件概率P(x|c)需要求所有属性上的联合概率,这难以从有限的训练集直接估计获取,为了解决这儿问题,我们假设所有属性都是独立的,获得朴素贝叶斯公式:                  ...

2018-07-25 11:42:35 255

原创 机器学习-支持向量回归

一,介绍支持向量回归(SVR)是期望找到一条线,能让所有的点都尽量逼近这条线,从而对数据做出预测。SVR的基本思路和SVM中是一样的,在ϵ−SVR需要解决如下的优化问题:                                                                            其回归图形如下:                     ...

2018-07-24 13:56:14 5828

原创 机器学习-支持向量机(非线性分类)

一,介绍在进行分类的时候,大部分数据并不是线性可分的,而是需要通过数据映射,将数据变换到高维度进行分类,这就需要借助核函数来对其进行变换。我们已经在线性情况下,超平面公式可以写为:                                                         对于线性不可分,我们使用一个非线性映射,将数据映射到特征空间,在特征空间中使用线性学习器,...

2018-07-24 10:23:21 5998 1

原创 一分钟看懂Python中Numpy.nonzero()函数

Numpy.nonzero()返回的是数组中,非零元素的位置。如果是二维数组就是描述非零元素在几行几列,三维数组则是描述非零元素在第几组中的第几行第几列。举例如下:二维数组:a = np.array([[1, 0, 3], [0, 2, 0], [0, 0, 9]])b = np.nonzero(a)print(b)结果为:(array([0, 0, 1, 2], dtyp...

2018-07-23 11:34:52 11936 4

原创 机器学习-支持向量机(线性分类)

一,决策面方程我们以二维平面为例,假设有一条直线,方程如下:                                                                        aX+bY+c = 0我们可以将此直线向量化:                                                             进一步简...

2018-07-20 15:21:10 1759

原创 机器学习-神经网络

一,介绍神经网络有多种,包括:反向传播神经网络(BP神经网络)、径向基函数神经网络(RBF神经网络)、竞争型学习神经网络(ART神经网络)等。神经网络可以分为三个部分:输入层、隐藏层、输出层。其中隐藏层根据需要可以有多层。在这里,我们主要介绍BP神经网络,一种最常用的神经网络。其思想是根据输入层数据加上权值进行计算获得输出层结果,再根据输出层结果和实际结果比较,调整权值,直到权值调整到...

2018-07-18 15:14:19 312

原创 机器学习-决策树建立(一)

优点:计算复杂度不高,输出结果易于理解,对中间再缺失不敏感,可以处理不相关特性。缺点:可能产生过渡匹配问题使用类型:数字型和标称型一,基本概念1,信息熵度量样本集合纯度的最常用指标之一。值越小,则纯度越高。公式为:其中,Pk为第k类占总数的比例。例如,有10个样本,4个为好,6个为坏,则信息熵为:Ent(D)=-(4/10*log2(4/10)+6/10*log...

2018-07-16 13:49:40 580

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除