自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 资源 (3)
  • 收藏
  • 关注

原创 python 利用pandas将arff文件转csv文件

直接贴代码啦:#coding=utf-8import pandas as pddef arff_to_csv(fpath): #读取arff数据 if fpath.find('.arff') <0: print('the file is nott .arff file') return f = open(fpath) ...

2018-03-16 22:27:25 6417 3

原创 数据处理之python常用技术小结

在数据预处理的过程中经常会使用python这个工具,想来每次处理新数据时总会因不同的需求而求助谷歌、百度来实现基础的数据处理操作(囧…),遂写此博文贡自己日后参考,也希望能给进来浏览的小伙伴或多或少帮助,持续更新~

2017-12-30 20:21:50 508

原创 开发一个坐标计算工具, A表示向左移动,D表示向右移动,W表示向上移动,S表示向下移动。从(0,0)点开始移动,从输入字符串里面读取一些坐标,并将最终输入结果输出到输出文件里面。

开发一个坐标计算工具, A表示向左移动,D表示向右移动,W表示向上移动,S表示向下移动。从(0,0)点开始移动,从输入字符串里面读取一些坐标,并将最终输入结果输出到输出文件里面。输入:合法坐标为A(或者D或者W或者S) + 数字(两位以内) 坐标之间以;分隔。 非法坐标点需要进行丢弃。如AA10; A1A; %; YAD; 等。 下面是一个简单的例子 如:A10;S20;W10;D3

2017-09-02 10:40:35 1655

原创 聚类方法之DBSCAN

算法思想DBSCAN是一种基于密度的聚类方法,其思想是根据样本间的紧密程度来对簇进行划分。DBSCAN的样本点一般被分为三类: 1.核心点: 在半径Eps内含有超过MinPts数目的点 2.边界点: 在半径Eps内含有的点不超过MinPts,但是落在核心点领域内的点 3.噪声点: 既不是核心点也不是噪声点的点。 这里有两个参数需要人为指定:半径长度Eps 和 点的数据MinPts

2017-08-12 14:50:26 2530 1

原创 数据预处理之特征选择

特征选择的意义在对数据进行异常值、缺失值、数据转换等处理后,我们需要从当前数据集中选出有意义的特征,然后输入到算法模型中进行训练。对数据集进行特征选择主要基于以下几方面的考虑:1.冗余的特征会影响阻碍模型找寻数据潜在的规律,若冗余的特征过多,还会造成维度容灾,占用大量的时间空间,使算法运行效率大打折扣。2.去除不相关的特征会降低学习任务的难度,保留关键的特征更能直观的看出数据潜在的规律。

2017-08-11 21:32:11 8004 1

原创 数据预处理之数据离散化

数据离散化的意义数据离散化是指将连续的数据进行分段,使其变为一段段离散化的区间。分段的原则有基于等距离、等频率或优化的方法。数据离散化的原因主要有以下几点:1**.算法需要:**比如决策树、朴素贝叶斯等算法,都是基于离散型的数据展开的。如果要使用该类算法,必须将离散型的数据进行。有效的离散化能减小算法的时间和空间开销,提高系统对样本的分类聚类能力和抗噪声能力。

2017-08-11 20:23:30 18631

原创 数据预处理之数据标准化

数据标准化的意义在对数据集建模前,常常要对数据的某一特征或几个特征进行规范化处理,其目的在于将特征值归一到同一个维度,消除比重不平衡的问题。常用的标准化方法有 最大-最小标准化、零-均值标准化 和 小数定标标准化。

2017-08-11 19:45:07 2571

原创 数据预处理之异常值处理

异常值,即在数据集中存在不合理的值,又称离群点。比如年龄为-1,笔记本电脑重量为1吨等,都属于异常值的范围。从集合角度来看,异常值即离群点

2017-08-09 19:53:51 81829 1

原创 数据挖掘之建模过程

数据挖掘建模过程

2017-08-09 18:48:04 12230

原创 数据预处理之缺失值处理

缺失值产生原因数据集中部分数据的缺失是一件很头疼的事情,不但增大了数据集的不确定性,也影响了算法的执行。缺失值产生的原因主要有以下几点: 1.有些信息暂时无法获取,或获取信息的成本过高 2.信息遗漏,即人为的原因,如收集信息不认真、忘记填写信息等 3.缺失值本身就不存在,比如单身狗的女朋友缺失值的影响1.数据集丢失了大量的信息 2.数据集表现出的不确定性增大,使得获取数据潜在规律的难度加大

2017-08-09 16:37:18 11211

原创 浅谈knn(k近邻)算法

概述K近邻算法是一种懒惰算法,即没有对数据集进行训练的过程,其模型的三个要素:距离度量、k值的选择和分类决策规则决定。K近邻的思想很简单,即在一个数据集上,给定一个新样本,找到与新样本距离最近的k个实例,在这些实例中属于多数的类即为这个新样本的类。

2017-08-06 11:09:34 1138

原创 浅谈感知机算法

感知机是一种二分类算法,其输入的实例为一特征向量,输出的实例的实例类别只有+1,-1两个值。 感知机属于线性分类模型,是判别模型的一种。其原理是,通过训练集求出一个分离超平面,将正负样本进行分离。

2017-08-06 10:17:51 2528

原创 从基础出发:统计学习方法三要素

统计学习方法,初听起来感觉很陌生,到底什么是统计学习方法,怎么去理解?统计学习方法由三个要素构成,即 模型 策略和算法。 模型是来确定一个假设;策略用来验证或纠正模型的好坏;而算法,是在选定模型和策略后,使用某种计算方法来使模型最优。

2017-08-05 19:52:55 561

原创 带你入门mysql常用命令

mysql基本操作,包括数据库、数据表创建和修改,触发器、视图、索引的创建及例如max()、min()、concat()等函数的使用

2017-08-05 19:33:14 301

原创 python实现二叉树及插入,遍历操作

coding:utf-8”’ author:xzfreewind ”’构建二叉树的树形结构class TreeNode(object): def init(self,value,left=None,right=None): self.vaule = value self.left = left self.right = right构

2017-07-25 20:39:25 1841

翻译 Ubuntu16.04 微信网页版安装

1.从github上下载微信版本,网址: https://github.com/geeeeeeeeek/electronic-wechat/releases 2.我下载的版本是v2.0 linux-x64.tar.gz,下载并解压,得到electronic-wechat-linux-x64文件夹 tar -zxvf 下载/linux-x64.tar.gz

2017-07-25 14:36:33 2616

原创 ERROR 2002 (HY000): Can't connect to local MySQL server through socket '/var/run/mysqld/mysqld.sock'

本人系统Ubuntu 16.04,不知道之前经过了什么操作,准备登录本地mysql数据库,打开终端输入 mysql -u root -p ,输入密码后,发现出现如下错误:     ERROR 2002 (HY000): Can't connect to local MySQL server through socket '/var/run/mysqld/mysqld.sock'   翻译过

2017-07-22 09:12:26 325

原创 用python写入和查询mysql及注意事项

python的mysql操作参照  python操作mysql数据库  ,python对mysql的操作基本都可以在教程中学会,由于初次用python使用mysql,经历了一些坑,为了警醒自己和帮助小白少走弯路,在博客中记录下python调用mysql的注意事项,持续更新...     mysql的安装和python配置mysql就不说了,这里言简意赅的说说在插入和查询时要注意的事项,先贴

2017-07-20 19:22:34 1215

原创 用python实现文件夹文件读取及删除操作

python可以通过os包对文件进行操作。以下代码分别实现一文件夹下所有文件名的读取和文件删除操作import os#读取path目录下的文件名,返回文件名list列表def readFileName(path): lists = [] for root,dirs,files in os.walk(path): for file in files:

2017-07-14 15:12:56 2408

原创 数据结构之单链表及python实现

线性表的链式存储又称为单链表,特色指通过一组任意存储单元来存储线性表种的数据元素,为数据元素之间建立起线性关系。每个元素间逻辑上相邻,物理位置不相邻。      链式存储优点在于插入删除,缺点查找速度慢,以下是链式表的python实现:#coding:utf-8'''author:xzfreewind'''class Node(object): def __init__(

2017-07-10 20:18:45 574

原创 数据结构之栈的定义及python实现

栈是一个逻辑结构,通俗的讲,是一个有“纪律”的线性表,栈只允许一端进行插入和删除操作,即“先进后出”规则。如下图所示:       红箭头代表栈顶,即只允许插入和删除的那一端。绿箭头代表栈底,是固定的,即不允许进行插入和删除的另一端。当这个栈内没有元素时,则此时该栈被称为空栈。同样的,栈也有初始化,判定是否为空,插入(进栈),删除(出栈)等操作。下面是关于栈的python实现。

2017-07-10 19:15:46 1936

原创 数据结构--顺序表定义及python实现

顺序表即线性表的顺序存储结构。它是通过一组地址连续的存储单元对线性表中的数据进行存储的,相邻的两个元素在物理位置上也是相邻的。比如,第1个元素是存储在线性表的起始位置LOC(1),那么第i个元素即是存储在LOC(1)+(i-1)*sizeof(ElemType)位置上,其中sizeof(ElemType)表示每一个元素所占的空间。   下面是顺序表的python实现:#codi

2017-07-08 15:30:51 4055

转载 Ubuntu16.04完全离线安装mysql

申明:本博客的行文思路和大致内容转载自http://www.cnblogs.com/JasonTech0713/p/6690949.html 与转载博客的区别在于,本博客属于在完全无网络下安装及配置mysql,包括依赖包的安装和相关包的下载链接一、在官网下载mysql官网地址:https://dev.mysql.com/downloads/mysql/因为我的电脑是64位ubu

2017-07-07 20:02:25 9885 3

原创 朴素贝叶斯原理及python实现

一、贝叶斯算法引入      朴素贝叶斯算法是基于贝叶斯定理和特征条件独立假设的分类法,是一种基于概率分布的分类算法。      贝叶斯分类算法,通俗的来讲,在给定数据集的前提下,对于一个新样本(未分类),在数据集中找到和新样本特征相同的样本,最后根据这些样本算出每个类的概率,概率最高的类即为新样本的类。       哈哈,先用个样例来大体感受下。       这里有大学生恋爱情况

2017-06-30 21:28:07 8616

翻译 分类聚类区别及聚类概述

在初学分类聚类时,对这两个概念不是很了解。随着深入的了解,现有了一些基本的认识。现对聚类进行个人理解上的总结,欢迎大家批评指正。一、分类和聚类的区别分类和聚类的概念是比较容易混淆的。对于分类来说,在对数据集分类时,我们是知道这个数据集是有多少种类的,比如对一个学校的在校大学生进行性别分类,我们会下意识很清楚知道分为“男”,“女”而对于聚类来说,在对数据集操作时,我们是不知道该数

2017-06-27 09:18:58 50376 5

原创 python实现数据离散化

数据挖掘中有些算法,特别是分类算法,只能在离散型数据上进行分析,然而大部分数据集常常是连续值和离散值并存的。因此,为了使这类算法发挥作用,需要对数据集中连续型属性进行离散化操作。那么,如何对连续型属性离散化呢?常见的有等宽分箱法,等频分箱法:等宽分箱法的思想是,将数据均匀划分成n等份,每份的间距相等。等频分箱法的思想是,将观察点均匀分成n等份,每份的观察点数相同。在对数据离散化前,

2017-06-21 19:57:40 16077 3

原创 相关性检验之Pearson系数及python实现

皮尔森相关系数是用来反应俩变量之间相似程度的统计量,在机器学习中可以用来计算特征与类别间的相似度,即可判断所提取到的特征和类别是正相关、负相关还是没有相关程度。

2017-06-21 16:59:41 81055 12

原创 如何获取存放在Git上的项目及log日志

最近在提取git上项目的数据集,用到了一些常用的git命令,现做一些小结:1.将Git上的项目拷贝到本地  在git命令行中,通过 git clone ,即可将项目拷贝到本地文件中,如:   $git clone https://github.com/jquery/jquery.git  通过这个命令即可在本地主机生成一个和远程主机库名相同的目录,当然~如果要将该项目存放在指定目录

2017-06-19 19:15:53 5922

libmecab2_0.996-1.3_amd64.deb

ubuntu版本下离线安装mysql所需要的依赖包

2017-07-07

libaio1_0.3.110-2_amd64.deb

mysql离线安装所需要的依赖包

2017-07-07

BugInfo.jar 缺陷分析包

调用BugInfo需要使用的BugInfo.jar,在java中引用可以使用里面的功能

2017-06-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除