baixiaofu-CSDN博客

原创数据处理pandas常用的函数

这一部分主要是数据处理中常用的一些函数最近突然要处理大量的数据，而且都是基本统计相关的操作，这些都是可以在excel中实现的只是实现起来不能auto，所以使用Python进行操作来实现自动化。先来熟悉一波函数，在实际的操作中使用到如下所示。函数名/方法/属性参数返回值其他方法groupby() groupby(columns,axis=) G...

2018-06-21 17:04:08 2385

原创 Python数据的合并

数据的合并有两种形式：一种是按照列进行合并；一种是按照行进行合并列合并 merge(data1,data2,how=’left’,out,inner,on=’userid’) 当合并的两个表都没有相同的列名的时候也可以合并，通过制定left_on ,right_on 来进行合并。 merge(df1,df2,left_on = ,right_on=)行合并 pandas中使用con...

2018-06-19 15:45:50 2136

原创 Python各种数据类型索引和分片

什么是索引？其本质特征是只揭示内容出处或文献线索，并不直接提供事实、资料本身。主要功能是为人们准确、迅速地获得文献资料提供线索性指引。常见的索引主要有报刊论文资料索引、文集篇目索引、语词索引、文句索引、关键词索引、专名索引、主题索引等。list数据类型的索引列表中元素的位置是从0开始进行标记的。索引可以按照如下形式进行#a为lista[0]a[-1] #获取最后一个元素...

2018-06-19 14:52:32 2617

原创 python和数据库postgresql连接

两者之间的连接需要使用到一个包：psycopg2。建立连接这个包中的包含着我们建立连接需要的主要函数有connect函数，这个函数的作用是建立连接。也就是两者之间的一个借口，通过这个借口我们可以在Python中可以进行我们在数据库postgresql中所能进行的查询工作。这个函数的主要参数如下：connection=connect(host='主机',import='端口',use...

2018-06-19 10:32:50 2000

原创 python数据框中列进行条件查询替换

Python中数据框的方法map(function or dict)Python中的数据框，在进行数据分析的时候或者建模的时候，可能会遇到某列的数据取值是字符串的形式。但是我们想把这种数据转变为数值型，方便我们下一步的建模需求。比如：在df数据框中存在一列名为 ‘age’，但是取值为 “中年”、“青年”、“老年”。我们想把这种字符串转换为1,2,3.data['age1']=data[...

2018-06-15 18:16:40 6959

原创背包问题

背包问题已知有n个物品组成的集合为S，每个物品的重量是weightiweightiweight_i。一个背包能装重量是weight的东西。问能从S中挑选出几件物品重量之和恰好为weight。如果存在就说这个背包问题有解，如果不存在该背包问题无解。把背包问题写成符号的形式：bag(weight,n)bag(weight,n)bag(weight,n) 可以从最后一个物品来看看什么情况，当选...

2018-06-15 15:31:08 164

原创不同模型代价函数的梯度下降算法

梯度下降reprat:θj=θj−α∂J(θ0,θ1⋯θn)∂θjforj=0,1⋯,nreprat:θj=θj−α∂J(θ0,θ1⋯θn)∂θjforj=0,1⋯,nreprat: \theta_j=\theta_j-\alpha\frac{\partial J(\theta_0,\theta_1\cdots\theta_n)}{\partial \theta_j} \\ for \...

2018-04-28 17:13:27 470

原创 Python--异常

异常创建异常和引发异常什么是异常？异常即是一个事件，该事件会在程序执行过程中发生，影响了程序的正常执行。在Python中异常一旦发生，将会终止程序运行。如何引发异常？使用raise语句自己触发异常 raise [Exception [, args [, traceback]]] def functionName( level ): if level &lt...

2018-04-24 00:01:00 306

原创 SQL中的count(1)

count(1)的作用，就是统计在分组中，每一组对应的行数或项数。效率和作用和count(*)相同。 Count（）中的表达式是否为NULL，如果为NULL则不计数，而非NULL则会计数。也就是说count(1) 和count（‘anything’）的效果是一样的。 select count(null) from temp.table //结果是0 此时不管temp.tab...

2018-04-23 14:36:15 20893 4

原创 Python之面向对象-简介概述

Python的主要对象类型是：数、字符串、列表、元组和字典。众多的内置【buildins】函数和标准库，还可以自己创建自定义函数。自定义对象：是指一系列数据（属性）以及一套访问和操做这些数据的方法。使用对象不是使用全局变量和函数的原因是：对象具有多态，封装和继承。多态，就是对不同类型的对象执行相同的操作。这些操作就像施了魔法一样能够正常运行。封装：对外部隐藏有关对象工作原理的细节。...

2018-04-22 21:00:48 146

原创 2018/4/11

聚类k-means 聚类聚类分析的代价函数：J(c(1),⋯,c(m),μ1,⋯,μK)=1m∑i=1m||X(i)−μ(i)c||2J(c(1),⋯,c(m),μ1,⋯,μK)=1m∑i=1m||X(i)−μc(i)||2J(c^{(1)},\cdots,c^{(m)},\mu_1,\cdots,\mu_K)=\frac{1}{m}\sum_{i=1} ^m||X^{(i)}-\...

2018-04-11 18:00:44 254

原创 2018/4/10

python基础教程列表 and 方法print(list(“hello”)) lst=list(“hellpo”) print(lst.clear()) print(“I”,”wish”,’to’,’register’,’a’,’complaint’,sep=’_’)x==y x is y //x和y是同一个对象 x in y //x是容器y的成员 x n...

2018-04-10 17:53:51 172

原创密度聚类

密度聚类一些核心概念核心对象密度直达密度可达密度相连核心对象：若 xjx_j 的ϵ−\epsilon-邻域内至少包含MinPtsMinPts个样本，即|Nϵ(xj)|≥MinPts|N_\epsilon(x_j)|\ge MinPts，那么就可以说 xjx_j是一个核心对象。密度直达：若xjx_j位于 xix_i的ϵ\epsilon邻域内，并且 xix_i是一个核心对象，那么就说

2017-08-10 23:49:52 1796

原创 R实现类似EXCEL中数据的透视功能：数据的行列转换

先介绍下融合和重铸能实现什么样的功能：例子：想把表1—->>转换成为表2 表1：表2： R实现数据的透视功能，使用reshape2包中的melt()函数和dcast()函数。在《R语言实战》这本书中有着详细的介绍。我在这里引用了其中的一些内容。首先是融合函数，融合顾名思义就是把原先的数据进行融化合并，具体melt()函数会融合成什么样的形式呢？ Library(reshape2

2017-07-15 17:11:22 5062

原创 SQL

substring(expression,start,length) 其中expression是字符串。start是开始街区字符串的地方，length为街区字符串的长度。start and length 都是int型 patindex(‘%pattern%’,expression) 返回pattern在expression中首次出现的位置的值。返回值是int型select distinct t

2017-06-05 17:49:51 256

转载数据探索和预处理可能涉及到的算法

相关性分析；主成分分析，用较少的变量来反映较多变量，这些较少的变量能反映原始变量的大部分信息，且彼此之间是线性无关的。周期性分析:在时间序列预测时，经常要对样本数据进行周期性分析，以更好的理解样本数据变化的特点，为时序预测分析提供指导依据。缺失值分析：样本数据中经常会出现一些缺失值，在进行建模预测前，需要对缺失值按照某些规则进行处理。处理的方法有:删除和数据补齐。坏数据处理：如果抽取

2017-05-22 22:07:21 340

数据分析( Data Analysis)是一个检查、清理、转换和建模数据的过程，目的是发现有用的信息，得出结论和推动决策制定。 Analysis of data is a process of inspecting, cleansing, transforming, and modeling data with the goal of discovering useful information,

2017-05-21 08:09:24 415

原创 the difference between data mining and meachine learning

机器学习和数据挖掘的区别数据挖掘有几种不同的概念定义：数据挖掘是从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程。数据挖掘，又称为数据库中知识发现（Knowledge Discovery of Database，KDD），它是一个从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。数据库的知识发现：数据库—>目标数据—>（数据预处理）—>变换

2017-05-13 23:27:57 344

Python语言基础教程，最新版本

这是有关Python入门一个比较经典的一本书，文中从Python的最基础的部分开始，层层深入，并有项目作为例子。

2018-05-09

SQL语言查询的艺术

本文主要讲述的是SQL，很详细。既有理论的介绍也有具体的例子可看。

2018-05-09

决策树-隐形眼镜数据集

隐形眼镜数据集，机器学习实战决策树部分的数据集，3.4所需要的数据

2017-10-04

利用Python进行数据分析数据下载和代码

《利用Python进行数据分析》包含了这本书中所有章节所需要的数据以及相应的代码，并且数据准确，但是代码没有亲自尝试是否可行。

2017-09-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

baixiaofu的博客