lonely_square_three-CSDN博客

原创 python 利用pandas将arff文件转csv文件

直接贴代码啦：#coding=utf-8import pandas as pddef arff_to_csv(fpath): #读取arff数据 if fpath.find('.arff') <0: print('the file is nott .arff file') return f = open(fpath) ...

2018-03-16 22:27:25 6417 3

原创数据处理之python常用技术小结

在数据预处理的过程中经常会使用python这个工具，想来每次处理新数据时总会因不同的需求而求助谷歌、百度来实现基础的数据处理操作（囧…），遂写此博文贡自己日后参考，也希望能给进来浏览的小伙伴或多或少帮助，持续更新~

2017-12-30 20:21:50 508

原创开发一个坐标计算工具， A表示向左移动，D表示向右移动，W表示向上移动，S表示向下移动。从（0,0）点开始移动，从输入字符串里面读取一些坐标，并将最终输入结果输出到输出文件里面。

开发一个坐标计算工具， A表示向左移动，D表示向右移动，W表示向上移动，S表示向下移动。从（0,0）点开始移动，从输入字符串里面读取一些坐标，并将最终输入结果输出到输出文件里面。输入：合法坐标为A(或者D或者W或者S) + 数字（两位以内）坐标之间以;分隔。非法坐标点需要进行丢弃。如AA10; A1A; %; YAD; 等。下面是一个简单的例子如：A10;S20;W10;D3

2017-09-02 10:40:35 1655

原创聚类方法之DBSCAN

算法思想DBSCAN是一种基于密度的聚类方法，其思想是根据样本间的紧密程度来对簇进行划分。DBSCAN的样本点一般被分为三类： 1.核心点: 在半径Eps内含有超过MinPts数目的点 2.边界点: 在半径Eps内含有的点不超过MinPts,但是落在核心点领域内的点 3.噪声点: 既不是核心点也不是噪声点的点。这里有两个参数需要人为指定：半径长度Eps 和点的数据MinPts

2017-08-12 14:50:26 2530 1

原创数据预处理之特征选择

特征选择的意义在对数据进行异常值、缺失值、数据转换等处理后，我们需要从当前数据集中选出有意义的特征，然后输入到算法模型中进行训练。对数据集进行特征选择主要基于以下几方面的考虑：1.冗余的特征会影响阻碍模型找寻数据潜在的规律，若冗余的特征过多，还会造成维度容灾，占用大量的时间空间，使算法运行效率大打折扣。2.去除不相关的特征会降低学习任务的难度，保留关键的特征更能直观的看出数据潜在的规律。

2017-08-11 21:32:11 8004 1

原创数据预处理之数据离散化

数据离散化的意义数据离散化是指将连续的数据进行分段，使其变为一段段离散化的区间。分段的原则有基于等距离、等频率或优化的方法。数据离散化的原因主要有以下几点：1**.算法需要：**比如决策树、朴素贝叶斯等算法，都是基于离散型的数据展开的。如果要使用该类算法，必须将离散型的数据进行。有效的离散化能减小算法的时间和空间开销，提高系统对样本的分类聚类能力和抗噪声能力。

2017-08-11 20:23:30 18631

原创数据预处理之数据标准化

数据标准化的意义在对数据集建模前，常常要对数据的某一特征或几个特征进行规范化处理，其目的在于将特征值归一到同一个维度，消除比重不平衡的问题。常用的标准化方法有最大-最小标准化、零-均值标准化和小数定标标准化。

2017-08-11 19:45:07 2571

原创数据预处理之异常值处理

异常值，即在数据集中存在不合理的值，又称离群点。比如年龄为-1，笔记本电脑重量为1吨等，都属于异常值的范围。从集合角度来看，异常值即离群点

2017-08-09 19:53:51 81829 1

原创数据挖掘之建模过程

数据挖掘建模过程

2017-08-09 18:48:04 12230

原创数据预处理之缺失值处理

缺失值产生原因数据集中部分数据的缺失是一件很头疼的事情，不但增大了数据集的不确定性，也影响了算法的执行。缺失值产生的原因主要有以下几点： 1.有些信息暂时无法获取，或获取信息的成本过高 2.信息遗漏，即人为的原因，如收集信息不认真、忘记填写信息等 3.缺失值本身就不存在，比如单身狗的女朋友缺失值的影响1.数据集丢失了大量的信息 2.数据集表现出的不确定性增大，使得获取数据潜在规律的难度加大

2017-08-09 16:37:18 11211

原创浅谈knn（k近邻）算法

概述K近邻算法是一种懒惰算法，即没有对数据集进行训练的过程，其模型的三个要素：距离度量、k值的选择和分类决策规则决定。K近邻的思想很简单，即在一个数据集上，给定一个新样本，找到与新样本距离最近的k个实例，在这些实例中属于多数的类即为这个新样本的类。

2017-08-06 11:09:34 1138

原创浅谈感知机算法

感知机是一种二分类算法，其输入的实例为一特征向量，输出的实例的实例类别只有+1，-1两个值。感知机属于线性分类模型，是判别模型的一种。其原理是，通过训练集求出一个分离超平面，将正负样本进行分离。

2017-08-06 10:17:51 2528

原创从基础出发：统计学习方法三要素

统计学习方法，初听起来感觉很陌生，到底什么是统计学习方法，怎么去理解？统计学习方法由三个要素构成，即模型策略和算法。模型是来确定一个假设；策略用来验证或纠正模型的好坏；而算法，是在选定模型和策略后，使用某种计算方法来使模型最优。

2017-08-05 19:52:55 561

原创带你入门mysql常用命令

mysql基本操作，包括数据库、数据表创建和修改，触发器、视图、索引的创建及例如max()、min()、concat()等函数的使用

2017-08-05 19:33:14 301

原创 python实现二叉树及插入，遍历操作

coding:utf-8”’ author:xzfreewind ”’构建二叉树的树形结构class TreeNode(object): def init(self,value,left=None,right=None): self.vaule = value self.left = left self.right = right构

2017-07-25 20:39:25 1841

翻译 Ubuntu16.04 微信网页版安装

1.从github上下载微信版本，网址： https://github.com/geeeeeeeeek/electronic-wechat/releases 2.我下载的版本是v2.0 linux-x64.tar.gz，下载并解压，得到electronic-wechat-linux-x64文件夹 tar -zxvf 下载/linux-x64.tar.gz

2017-07-25 14:36:33 2616

原创 ERROR 2002 (HY000): Can't connect to local MySQL server through socket '/var/run/mysqld/mysqld.sock'

本人系统Ubuntu 16.04，不知道之前经过了什么操作，准备登录本地mysql数据库，打开终端输入 mysql -u root -p ，输入密码后，发现出现如下错误： ERROR 2002 (HY000): Can't connect to local MySQL server through socket '/var/run/mysqld/mysqld.sock' 翻译过

2017-07-22 09:12:26 325

原创用python写入和查询mysql及注意事项

python的mysql操作参照 python操作mysql数据库，python对mysql的操作基本都可以在教程中学会，由于初次用python使用mysql，经历了一些坑，为了警醒自己和帮助小白少走弯路，在博客中记录下python调用mysql的注意事项，持续更新... mysql的安装和python配置mysql就不说了，这里言简意赅的说说在插入和查询时要注意的事项，先贴

2017-07-20 19:22:34 1215

原创用python实现文件夹文件读取及删除操作

python可以通过os包对文件进行操作。以下代码分别实现一文件夹下所有文件名的读取和文件删除操作import os#读取path目录下的文件名，返回文件名list列表def readFileName(path): lists = [] for root,dirs,files in os.walk(path): for file in files:

2017-07-14 15:12:56 2408

原创数据结构之单链表及python实现

线性表的链式存储又称为单链表，特色指通过一组任意存储单元来存储线性表种的数据元素，为数据元素之间建立起线性关系。每个元素间逻辑上相邻，物理位置不相邻。链式存储优点在于插入删除，缺点查找速度慢，以下是链式表的python实现：#coding:utf-8'''author:xzfreewind'''class Node(object): def __init__(

2017-07-10 20:18:45 574

原创数据结构之栈的定义及python实现

栈是一个逻辑结构，通俗的讲，是一个有“纪律”的线性表，栈只允许一端进行插入和删除操作，即“先进后出”规则。如下图所示：红箭头代表栈顶，即只允许插入和删除的那一端。绿箭头代表栈底，是固定的，即不允许进行插入和删除的另一端。当这个栈内没有元素时，则此时该栈被称为空栈。同样的，栈也有初始化，判定是否为空，插入（进栈），删除（出栈）等操作。下面是关于栈的python实现。

2017-07-10 19:15:46 1936

原创数据结构--顺序表定义及python实现

顺序表即线性表的顺序存储结构。它是通过一组地址连续的存储单元对线性表中的数据进行存储的，相邻的两个元素在物理位置上也是相邻的。比如，第1个元素是存储在线性表的起始位置LOC(1)，那么第i个元素即是存储在LOC(1)+(i-1)*sizeof(ElemType)位置上，其中sizeof(ElemType)表示每一个元素所占的空间。下面是顺序表的python实现：#codi

2017-07-08 15:30:51 4055

转载 Ubuntu16.04完全离线安装mysql

申明：本博客的行文思路和大致内容转载自http://www.cnblogs.com/JasonTech0713/p/6690949.html 与转载博客的区别在于，本博客属于在完全无网络下安装及配置mysql，包括依赖包的安装和相关包的下载链接一、在官网下载mysql官网地址：https://dev.mysql.com/downloads/mysql/因为我的电脑是64位ubu

2017-07-07 20:02:25 9885 3

原创朴素贝叶斯原理及python实现

一、贝叶斯算法引入朴素贝叶斯算法是基于贝叶斯定理和特征条件独立假设的分类法，是一种基于概率分布的分类算法。贝叶斯分类算法，通俗的来讲，在给定数据集的前提下，对于一个新样本（未分类），在数据集中找到和新样本特征相同的样本，最后根据这些样本算出每个类的概率，概率最高的类即为新样本的类。哈哈，先用个样例来大体感受下。这里有大学生恋爱情况

2017-06-30 21:28:07 8616

翻译分类聚类区别及聚类概述

在初学分类聚类时，对这两个概念不是很了解。随着深入的了解，现有了一些基本的认识。现对聚类进行个人理解上的总结，欢迎大家批评指正。一、分类和聚类的区别分类和聚类的概念是比较容易混淆的。对于分类来说，在对数据集分类时，我们是知道这个数据集是有多少种类的，比如对一个学校的在校大学生进行性别分类，我们会下意识很清楚知道分为“男”,“女”而对于聚类来说，在对数据集操作时，我们是不知道该数

2017-06-27 09:18:58 50376 5

原创 python实现数据离散化

数据挖掘中有些算法，特别是分类算法，只能在离散型数据上进行分析，然而大部分数据集常常是连续值和离散值并存的。因此，为了使这类算法发挥作用，需要对数据集中连续型属性进行离散化操作。那么，如何对连续型属性离散化呢?常见的有等宽分箱法，等频分箱法：等宽分箱法的思想是，将数据均匀划分成n等份，每份的间距相等。等频分箱法的思想是，将观察点均匀分成n等份，每份的观察点数相同。在对数据离散化前，

2017-06-21 19:57:40 16077 3

原创相关性检验之Pearson系数及python实现

皮尔森相关系数是用来反应俩变量之间相似程度的统计量，在机器学习中可以用来计算特征与类别间的相似度，即可判断所提取到的特征和类别是正相关、负相关还是没有相关程度。

2017-06-21 16:59:41 81055 12

原创如何获取存放在Git上的项目及log日志

最近在提取git上项目的数据集，用到了一些常用的git命令，现做一些小结：1.将Git上的项目拷贝到本地在git命令行中，通过 git clone ，即可将项目拷贝到本地文件中，如： $git clone https://github.com/jquery/jquery.git 通过这个命令即可在本地主机生成一个和远程主机库名相同的目录，当然~如果要将该项目存放在指定目录

2017-06-19 19:15:53 5922

xzfreewind的博客