自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 资源 (7)
  • 问答 (1)
  • 收藏
  • 关注

原创 关于MongoDB的URL连接时用户名或密码中出现特殊字符问题

今天连接公司的线上MongoDB数据库时碰到一个有意思的问题,报错如下:java.lang.IllegalArgumentException: The connection string contains invalid user information. If the username or password contains a colon (:) or an at-sign (@) th

2017-10-13 18:19:10 17033 2

原创 Java对MongoDB的基础操做

import java.util.ArrayList;import java.util.regex.Pattern;import org.bson.Document;import com.mongodb.BasicDBObject; import com.mongodb.MongoClient;import com.mongodb.client.FindIterable;import

2017-09-28 12:04:06 314

原创 Java的split方法使用多种分隔符切分字符串

方法一:多个分隔符使用'|'分开,例如: String str = "abc;123,456?999|haha"; String[] strs=str.split(";|,"); for(String s : strs){ System.out.println(s); }输出:abc123456?999|haha方法二:

2017-09-27 15:01:42 22379 2

原创 Hadoop表连接问题

1、在Map阶段连接   适用情况,两个表连接,一个表非常大,一个表非常小,小的表可以放进内存中。使用分布式缓存DistributedCache,将小表缓存到每个Map节点上,连接时,扫描Map中的大表分块,判断是否存在和小表相同的键,如果存在,则进行连接。2、Reduce阶段连接  Map阶段,给每个键值对标注来源,例如来源于a表,标记后的数据为;来源于b表,表记为  R

2017-08-24 14:35:52 325

原创 Hadoop基本理论

1、什么是Hadoop?Hadoop是一个分布式系统。主要包含两个核心组件HDFS和MR。HDFS: 分布式存储系统,解决海量数据的存储问题。MR:分布式计算框架,解决海量数据的处理问题。在基础的HDFS和MR基础上,Hadoop生态圈又加入了其它的组件:    Habse 非关系型的分布式数据库,    Hive基于HDFS的数据仓库,    Pig  一个基

2017-08-24 08:49:49 439

原创 记记关于tensorflow训练模型时出现损失函数为NAN问题

交叉熵损失函数输出NAN的问题:之前使用tensorflow训练模型,开始的一段迭代周期,模型的预测准确率一直在上升,徘徊一段时间后,准确率骤减,直至到随机猜测的水平,开始以为是模型出了问题,就修改了一下代码,记录训练过程中的误差,希望通过误差曲线,分析是否模型的问题。结果绘图出错,将损失数组输出看了一下,发现后期的损失值都是0。在网上查询,发现是损失函数的特性造成的,在交叉熵损失函数中,会计

2017-06-16 17:38:01 12388 1

原创 KMeans聚类算法

1、什么是聚类    所谓聚类就是将一组对象按照特征划分不为的小组,使得组内的差异性尽可能的小,组间的差异尽可能的大。例如,粗粒度的分类,按照学校实力,分为985、211高校,普通一本高校,二本高校,三本高校。如果再更加细的分类,一个学校里面会按照所修的课程差异性分为不同学院,不同专业,这些同学院的专业课相差较小,不同的学院的课程相差就很大了。2、聚类与分类的区别    分类算

2017-05-07 14:06:22 6266 1

原创 决策树算法

1、什么是决策树?    决策树是一种树形的判定结构,从根节点到每个叶节点是一个完整的判定路径。每个分支节点会对样本的某一个特征进行检测,将样本分配到子节点中,不同子节点对应着不同的特征取值。当一个预测样本进来时,从树根开始,检测样本的特征,按照取值传到对应子树中,在子树中进行同样的操作,这样一级一级最后到达叶子节点,次叶子节点的类标记或者取值则为最后的预测结果。    相当于使用数据的特

2017-05-03 15:03:03 518

原创 朴素贝叶斯算法

1、从贝叶斯到朴素贝叶斯  贝叶斯公式如下:                            通过先验概率求后验概率     P(A)被称为先验概率,是已经给出的或者通过现有数据统计可以求出的,对A出现概率的一个大胆估计。P(B|A)/P(B)可以理解为一个实验,即满足某种现实状况,是对这个贝叶斯估计的一个修正因子。P(A|B)被称为后验概率,即满足某种事实条件的概率。    对应到机器学习...

2017-05-01 14:59:55 550

原创 Logistics回归

1.什么是Logistics?Logistics回归虽然后缀回归,但是不属于回归算法,而是分类算法。该算法通过在样本空间中寻找一个分类超平面,将正负样本分别分到互不相交的两个子空间中。2、算法公式推导数据准备:logistics算法需要使用数值型数据,对于标称型数据需要转换为数值型数据,为了加速收敛,通常会对原始数据进行标准化。它是对感知机算法的一种改良版,感知机算法的模型

2017-04-30 16:21:53 5173 3

原创 SVM算法

区别:将数据切分开的分离超平面存在无数个,一般的算法是随机选取其中的一个,同一个算法,运行多次,多次得到的结果可能会不一致。SVM算法追求寻找一个分离超平面能够将数据切分,同时这个分离超平面距离数据点中最近的点要尽可能远。而距离切分超平面的距离表示了分类的确信程度,寻找间隔最大的超平面即是以最大确信程度将所有数据分类。点到分离超平面的距离为:y=y1(W.X+b)定义超平面到数据集的距

2017-01-11 11:31:59 471

原创 k近邻算法及python实现

k近邻算法是机器学习中最简单的一种算法,简单粗暴,给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的k个实例,把这K个实例中出现最多的类作为输入实例的类。对于初学者可能会好奇,这个最近邻是什么意思?例如调查一群人的信息,会对研究目标调查多个特征,例如人的头发长度、身高、年龄、体重、肤色,性别,对这些特征采用数值进行刻画。假设现在我们需要通过头发长度、身高、年龄、体重和肤色来判断

2016-12-19 18:01:06 2385

原创 机器学习实战学习笔记-决策树

1.决策树算法介绍:    决策树是一种监督学习算法,使用样本数据针对数据属性建立决策树模型,根据决策树对测试数据进行分类。2.决策树的特点:    决策树的计算法负责读不高,输出易于理解,但是可能会出现过度匹配的问题,适用于数值型和标称型数据。3.决策树的构造:    1.    采用递归的方式,在当前数据集上选择一个特征,针对该特征对数据集进行划分为几个

2016-08-22 18:46:14 484 2

原创 机器学习实战学习笔记-KNN算法

1.KNN算法介绍。KNN算法即k~近邻算法,通过计算测试数据与已知分类的样本数据集的相似度,选择相似度最高的前k条数据。统计k个数据中分类出现最高的分类,做为测试数据的分类。2.算法特点优点:精度高、对异常值不敏感 缺点:时间复杂度和空间复杂度高   适用数据:数据型和标称型下面的相似度计算采用欧式距离:两个n维向量想x(x1,x2,...,xn),y(y1,

2016-08-21 16:58:18 476

Java的redis驱动包

上传的是2.9的版本,还有其它版本见https://mvnrepository.com/artifact/redis.clients/jedis

2017-09-28

Redis数据库Windows x64安装文件

redis 的windows系统安装文件,解压之后会有一个zip和msi文件。

2017-09-28

朴素贝叶斯算法测试数据集

朴素贝叶斯的测试数据,每个文件是一个数字的01矩阵,一个文件对应一个数字,文件名第一个字符为对应的数字。

2017-05-01

Logistics测试数据

Logistics回归算法的测试数据,每行为一条记录,不同特征以制表符隔开,末尾为样本的分类标记。

2017-05-01

Logistics模拟数据

2017-04-30

Knn测试数据

一个用于knn算法的分类数据

2016-12-20

knn算法测试数据

2016-12-19

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除