自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 读书总结--二分查找

感想:最近读了一本书,书名是《算法图解》个人觉得这本书挺好,里面讲了很多实用且易懂的算法,以后我会陆续的把自己的笔记搬到这上面,有兴趣的可以看一下。二分查找:二分查找是一种算法,其输入是一个有序的元素列表。如果要查找的元素包含在列表中,二分查找返回其位置;否则返回NULL。下面的例子说明了二分查找的工作原理。随便想一个1~100的数字。你的目的是以最少的次数猜到这个数字。你每次猜测后,...

2019-06-30 22:59:11 121

原创 K-近邻算法

K-近邻算法优点:精度高、对异常值不敏感、无数据输入假定。缺点:计算复杂度高、空间复杂度高。适用数据范围:数值型和标称型。工作原理:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。...

2019-04-28 22:41:03 240

原创 jieba的简单使用(Python)

Jieba库是一个优秀的第三方中文分词库,jieba支持三种分词模式:精准模式,全模式,搜索引擎模式.Jieba分词的三种模式精准模式:把文本精确的切分开,不存在冗余单词全模式:把文本中所有可能的词语都描述出来,有冗余搜索引擎模式:在精确模式基础上,对长词再次切分例子:1.全模式import jieba#全模式sentence="我喜欢上海东方明珠"result...

2019-02-13 17:48:56 478

原创 SQL简单语法和例子

1.查询当前数据库中所有表名select * from user_tables;2.查询指定表中的所有字段名select column_name from user_tab_columns where table_name = 'table_name';--表名要全大写3.查询指定表中的所有字段名和字段类型select column_name, data_type from user_t...

2019-02-11 18:16:53 2838

原创 主成分分析降维(用Python中的PCA模块实现)

 之前本人写过一篇用Python实现主成分降维的文章,现在想想感觉方法很麻烦,因为Python的PCA模块可以很容易的完成数据降维。下面附上代码# 主成分分析# coding=utf-8import pandas as pd# import numpy as npfrom sklearn.decomposition import PCA# from sklearn.preproce...

2019-01-25 17:31:56 1957

原创 数据探索与数据清洗

一 数据探索数据探索的目的是及早的发现数据的一些简单规律或特征,数据清洗的目的是留下可靠的数据,避免脏数据的干扰.数据探索的核心是:数据质量分析(跟数据清洗密切联系) 数据特征分析(分布,对比,周期性,相关性,常见统计量等)二 数据清洗数据清洗可以按如下步骤进行缺失值处理(通过describe与len发现,通过0数据发现) 异常值处理(通过散点图发现) 异常值处理(通过...

2019-01-24 17:46:44 914

原创 数据导入(python)

导入CSV数据Import pandas as pddata = pd.read_csv(“文件保存的位置”)data.describe() # 数据的统计data.sort_values(by=”列名”) #数据按某列排序导入Excel数据Excel是一种表格文件,在Python数据分析中,同样可以使用pandas模块导入Excel表格里面的数据.data =...

2019-01-18 11:55:44 656

原创 Python相关模块介绍和相关模块的安装与技巧

Python相关模块介绍1.numpy可以高效处理数据,提供数据组支持,很多模块都依赖他,比如pandas,scipy,matplotlib都依赖他,所以这个模块是基础2.pandas主要用于进行数据探索和数据分析3.matplotlib作图模块,解决可视化问题4.scipy主要进行数值计算,同时支持矩阵运算,并提供了很多高等数据处理功能,比如积分,傅里叶变换,微分方程求解...

2019-01-15 17:58:30 195

原创 正则表达式

 最近在学怎么用Python爬虫,然后学了爬虫时可能用到的一些正则表达式,整理了一下如下: 原子原子是正则表达式中的最基本的组成单位,每个正则表达式中至少要包含一个原子。常见的原子类型有:a:普通字符作为原子b:非打印字符作为原子c:通用字符作为原子d:原子表 非打印字符:\n:换行\t:tab字表符通用字符:\w:匹配任意的一个字母数字或者下划线\d:匹配任意一个十...

2019-01-14 08:40:40 118

原创 梯度下降和逻辑回归例子(Python代码实现)

import numpy as npimport pandas as pdimport osdata = pd.read_csv("iris.csv") # 这里的iris数据已做过处理m, n = data.shapedataMatIn = np.ones((m, n))dataMatIn[:, :-1] = data.ix[:, :-1]classLabels = data...

2019-01-08 18:21:35 1799

原创 逻辑回归和梯度下降

 1. 概率1.1 定义  1.2 范围  1.3 计算方法1.3.1 根据个人置信1.3.2 根据历史数据1.3.3 根据模拟数据1.4 条件概率2.2.1  基本模型预测函数:用概率表示:   2.2 Cost函数线性回归:    Cost函数: ...

2019-01-08 18:18:55 226

转载 模型评估

回归评估指标均方误差(MSE)MSE (Mean Squared Error)叫做均方误差。看公式 1m∑i=1m(yi−f(xi))21m∑i=1m(yi−f(xi))2均方根误差(RMSE)RMSE(Root Mean Squard Error)均方根误差。 1m∑i=1m(yi−f(xi))2−−−−−−−−−−−−−−−√1m∑i=1m(yi−f(xi))2 这是MSE开...

2019-01-07 18:13:29 1109

原创 主成分降维python代码实现(承接上一篇)

# coding=utf-8import pandas as pdimport numpy as npfrom sklearn.decomposition import PCAfrom sklearn.preprocessing import StandardScalerdata = pd.read_csv("pca.csv") # 数据的导入# print(type(data))...

2018-12-29 18:06:17 1091

原创 主成分(PCA)降维

主成分降维:主成分分析法是一种数学变换的方法,它把给定的一组相关变量通过线性变换转成另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列。在数学变换中保持变量的总方差不变,使第一变量具有最大的方差,称为第一主成分,第二变量的方差次大,并且和第一变量不相关,称为第二主成分。依次类推,个变量就有个主成分。其中为维正交化向量(),之间互不相关且按照方差由大到小排列,则称为的第个主成分...

2018-12-29 17:43:07 879

原创 数据分析方法论(一些总结)

一 业务分析类1.1杜邦分析法杜邦财务分析体系是利用各财务指标间的内在联系,对企业综合经营理财及经济效益进行系统分析评价的方法,其核心是把大的问题拆分为更小粒度的指标,以此了解问题出在了哪儿,从而对症下药.因其最初是由美国杜邦公司创立和运用而得名.杜邦分析法目前主要用于财务领域,通过财务比率的关系来分析财务状况.1.2同比热力图分析法同比热力图分析法是把各个业务线的同比数据放到...

2018-12-14 18:22:24 825

原创 聚类算法---层次聚类

 假设有N个待聚类的样本,对于层次聚类来说,步骤:1.(初始化)把每个样本归为一类,计算每两个类之间的距离,也就是样本与样本之间的相似度;2.寻找各个类之间最近的两个类,把他们归为一类(这样类的总数就少了一个);3.重新计算新生成的这个类和各个旧类之间的相似度;4.重复2和3直到所有的样本点都归为一类,结束 整个聚类过程其实是建立了一棵树,在建立的过程中,可以通过在第二步上设置...

2018-12-04 15:29:28 508

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除