自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(51)
  • 收藏
  • 关注

原创 Python图形

Gallery页面中有上百幅缩略图,打开之后都有源程序。因此如果你需要绘制某种类型的图,只需要在这个页面中浏览/复制/粘贴一下,基本上都能搞定。https://python-graph-gallery.com/all-charts/1、折线图import matplotlib.pyplot as pltimport numpy as np# 绘制折线图squares ...

2019-03-27 17:59:11 975

原创 python、pycharm、anaconda区别

1、pythonpython自身缺少numpy、matplotlib、scipy、scikit-learn....等一系列包,需要我们安装pip来导入这些包才能进行相应运算(python3.5自带了get-pip.py,不需额外下载安装),在cmd终端输入:pip install numpy就能安装numpy包了。每次都额外安装所需要的包略麻烦,这时候我们可以采用anaconda了。2、A...

2019-03-27 16:47:09 8171

原创 Python数据的相关性和标准化

1、相关性分析协方差:Cov(X,Y)=E(XY)-E(X)E(Y) 或cov(X, Y) = E(X-EX)(Y-EY),表示两个变量总体误差的期望,范围在负无穷到正无穷。协方差为0时,两者独立。协方差绝对值越大,两者对彼此的影响越大,反之越小公式简单翻译一下是:如果有X,Y两个变量,每个时刻的“X值与其均值之差”乘以“Y值与其均值之差”得到一个乘积,再对这每时刻的乘积求和并求出均值(...

2019-03-21 20:37:39 3645

原创 Python数据抽样

1、数据的导入查看参考参考import pandas as pdf = open("E:/test.csv", encoding="utf-8")content = pd.read_csv(f,nrows=5) ##打印(读取)前5行print(content)##等价 print(content[0:5])左闭右开,输出0-4序号行import pandas ...

2019-03-20 17:10:10 2610

原创 人工智能与数据挖掘

作为一个IT人,区分理解人工智能、机器学习、表示学习、深度学习、数据挖掘等是很有必要的~~~1、人工智能是机器或软件展示出的智能,也是研究如何让计算机或计算机软件有智能行为的一个学术领域,主要研究的是如何模拟和扩展人类的 智能。人工智能所涉及的范围甚广,例如自然语言处理、图像识别、语音识别等。人工智能分类:强人工智能和弱人工智能。前者是通过计算机来构造复杂的、拥有与人类智慧同样本质特性的机...

2019-03-18 15:33:52 15605

原创 决策树算法的研究

先来一段决策树相关的小故事:文献:周志华.机器学习[M].北京:清华大学出版社,2016: -最初的决策树算法是心理学家兼计算机科学家E.B.Hunt 1962年在研究人类的概念学习过程时提出的CLS(Concept Learning System),这个算法确立了决策树“分而治之”的学习策略。罗斯·昆兰在Hunt的指导下于1968年在美国华盛顿大学获得计算机博士学位,然后到悉尼大学任教...

2019-03-18 15:32:49 2034

原创 决策树划分与剪枝

1、决策树划分选择决策树学习的关键——如何选择最优划分属性。我们所期望的是,随着划分过程的不断进行,希望决策树的分支结点所包含的的样本尽可能属于同一类别,即结点的“纯度”要尽可能的高。1.1 信息增益要说信息增益,我们先来了解一下信息熵。“信息熵“是度量样本集合纯度最常用的一种指标。假设当前样本集合D中第k类样本所占的比例为,则D的信息熵定义为: ...

2019-03-18 15:31:52 833

原创 Python数据清洗

1、缺失值的处理准备:pandas、numpy、sklearn.preprocessing中的Imputer类import pandas as pdimport numpy as npfrom sklearn.preprocessing import Imputerdata = pd.DataFrame(np.random.randn(6, 4), columns=['col1'...

2019-03-17 12:14:38 932

原创 决策树模型(R语言)

R语言中最常用于实现决策树的有两个包,分别是rpart包和party包,其区别如下:rpart包的处理方式:首先对所有自变量和所有分割点进行评估,最佳的选择是使分割后组内的数据更为“一致”(pure)。这里的“一致”是指组内数据的因变量取值变异较小。rpart包对这种“一致”性的默认度量是Gini值。确定停止划分的参数有很多(参见rpart.control),确定这些参数是非常重要而微妙的,因...

2018-11-11 15:56:13 6497 2

原创 《机器学习》第四章决策树答案

1、证明对于不含冲突数据(即特征向量完全相同但标记不同)的训练集,必存在与训练集一致(即训练误差为0)的决策树anser 1:假设不存在与训练集一致的决策树,那么训练集训练得到的决策树至少有一个节点上存在无法划分的多个数据(若节点上没有冲突数据,那么总是能够将数据分开的)。这与前提-不含冲突数据 矛盾,因此必存在与训练集一致的决策树anser 2:考虑决策树的生成(书p74图4.2),算法...

2018-11-07 11:56:23 9094

原创 数据可视化

数据和文字是抽象的,图形却是具体的,正所谓“能用图就不用表,能用表就不用文字”。好的图形或分析报告,应该直观易懂又不失专业性,数据跃然纸上,分析一语中的。在这里推荐几个作图软件:visio 、Echart、亿图、Tableau、BirdEye、Timeflow等30种可视化工具了解和下载 https://www.csdn.net/article/2014-04-01/2819076-30-B...

2018-11-07 11:04:24 985

原创 R语言 回归

x-y对应叫法 x y 自变量(independent variable) 因变量(dependent variable) 解释变量(explanatory variable) 被解释变量(explained variable) 原因变量(causal variable) 结果变量(effect variable) 回归分析都是统计学的核心。它其实是一个广...

2018-08-24 09:33:56 1702

原创 R语言 特殊函数

1、统计函数函数 描述 mean() 平均数 median() 中位数 sd() 标准差 var() 方差 mad() 绝对中位差,即原数据减去中位数后得到的新数据的绝对值的中位数 quantile(x,probs) 求分位数,x为待求分位数的数值型向量,probs为一个由[0,1]之间的概率值组成的数值向量,eg: a<...

2018-08-23 18:54:19 5218

原创 R语言 图形

相较于数字和文字的表示,图形的展示更能引起客户的兴趣,可视化程度高,通过看图我们得以发现数据中的模式或是检查出数据中的异常值,也有助于在数以千计的零散信息中做出有意义的对比,提炼出使用其他方法时不那么容易发现的模式。1、R图形需要掌握的基本要领:图形的创建 图形的保存 自定义符号、线条、颜色和坐标轴 标注文本和标题 控制图形维度 组合多个图形1.1 图形的创建注:可以通过代...

2018-08-23 11:50:15 844

原创 R语言 函数因子列表

在开始之前,先来说说如何定义数据集的行和列,不同领域的大神往往叫法各异。大神 行叫法 列叫法 统计学家 观测(observation) 变量(variable) 数据库分析师 记录(record) 字段(field) 数据挖掘(机器学习)师 示例(example) 属性(attribute) 1、帮助函数R的帮助函数 函数...

2018-08-20 23:49:07 1364

原创 R语言的输出

R语言的输出函数有cat、sink、writeLines、write.table1)catcat函数即能输出到屏幕,也能输出到文件cat(... , file = "", sep = " ", fill = FALSE, labels = NULL,append = FALSE)eg:>cat("要添加的内容") ##结果:要添加的内容>cat("a",file=...

2018-08-20 21:09:38 10566

原创 R语言的输入

R,作为一个非常灵活的平台,是专用于探索、展示和理解数据的语言,一种为统计计算和绘图而生的语言和环境,也是统计、预测分析和数据可视化的全球通用语言,它提供各种用于分析和理解数据的方法,从最基础的到最前沿的,无所不包。1、包包是R函数、数据、预编译代码以一种定义完善的格式组成的集合。计算机上存储包的目录称为库(library)。函数.libPaths()能够显示库所在的位置, 函数libr...

2018-08-20 00:01:02 2924

原创 hello,java

目的:整理Java小知识一、技术名词1)JDBCJDBC(Java DataBase Connectivity数据库连接)提供连接各种关系数据库的统一接口,可以为多种关系数据库提供统一访问,它由一组用java语言编写的类和接口组成。JDBC为数据库开发人员提供了一个标准的API(应用程序接口),使数据库开发人员能够用纯Java API编写数据库应用程序。2)EJBEJB(Ent...

2018-08-11 12:50:32 246

转载 各种大型网站技术架构

引言近段时间以来,通过接触有关海量数据处理和搜索引擎的诸多技术,常常见识到不少精妙绝伦的架构图。除了每每感叹于每幅图表面上的绘制的精细之外,更为架构图背后所隐藏的设计思想所叹服。个人这两天一直在搜集各大型网站的架构设计图,一为了一饱眼福,领略各类大型网站架构设计的精彩之外,二来也可供闲时反复琢磨体会,何乐而不为呢?特此,总结整理了诸如国外wikipedia,Facebook,Yahoo!,YouT...

2018-07-29 23:00:12 748

转载 需求分析的经验之谈

首先,最重要的一个问题就是,为什么要做需求分析,或者说需求分析的意义是什么?每个人对这个问题可能都会有不同的体会。我的看法是,需求分析的意义在于准确无歧义地表达项目需要交付的产品,并且获得需求方的认可,从而为整个项目建立一个基准。指望需求不变化是几乎不可能的,不管是开发者还是需求方都有可能随着项目的进展提出变更的需求,所以需求分析(及变更管理)的目标不是定义一个不会再改变的需求,而是从开发开始到项...

2018-07-08 00:05:27 1207 1

转载 文本挖掘

文本挖掘指的是从文本数据中获取有价值的信息和知识,它是数据挖掘中的一种方法。文本挖掘中最重要最基本的应用是实现文本的分类和聚类,前者是有监督的挖掘算法,后者是无监督的挖掘算法。文本挖掘的主要用途是从原本未经处理的文本中提取出未知的知识,但是文本挖掘也是一项非常困难的工作,因为它必须处理那些本来就模糊而且非结构化的文本数据,所以它是一个多学科混杂领域,涵盖了信息技术、文本分析、模式...

2018-07-04 16:46:35 2018

转载 学历高=工资高?——方差分析带你探究竟

家长们总教育孩子为了好的未来,要好好学习,天天向上。那么,学历真的是越高越好吗?学历的高低与未来就业的工资高低、买房的住房面积大小是否有关系呢?这时就可以用方差分析帮助我们了解这一问题的答案~打开在线SPSS分析软件SPSSAU,导入数据后,在左侧边栏选择“方差”。将“教育水平”放入X框,“工资”、“住房面积”放入Y框,点击“开始方差分析”,SPSSAU即可一键输出结果表。分析后得到以下的结果表。...

2018-06-29 23:32:41 1022

转载 SPSS数据分析

SPSS难吗?无非就是数据类型的区别后,就能理解应该用什么样的分析方法,对应着分析方法无非是找一些参考资料进行即可。甚至在线网页SPSS软件直接可以将数据分析结果指标人工智能地分析出来,这有多难呢?本文章将周老师(统计学专家)8年的数据分析经验浓缩,便于让不会数据分析的同学,在学习数据分析的过程中可以少走弯路,树立数据分析价值观,以及以数据进行决策的思维意识,并且可以快速的掌握数据分析。本文章分为...

2018-06-29 23:02:27 4105

原创 Oracle格式化表

 格式 简例 说明 ,(逗号) '9999,999'逗号,一般以千分位出现,作为分组符号使用.如果需要您也可以当作是十分位,百分位出现,可以出现N次,视乎数字的大小而定.变态的例子是 to_char(1234,'9,9,9,9'). 注意事项:只能出现在整数部分.  .(点号) '99.99'点号,不要念为"句号",句号是个圆圈,点好只能出现在小数点对应的地方.只能出现一次.to_char(123...

2018-06-29 16:29:01 632

原创 走进Oracle

1、Oracle简介Oracle Database,又名Oracle RDBMS,或简称Oracle。是甲骨文公司的一款关系数据库管理系统。它是在数据库领域一直处于领先地位的产品。可以说Oracle数据库系统是目前世界上流行的关系数据库管理系统,系统可移植性好、使用方便、功能强,适用于各类大、中、小、微机环境。它是一种高效率、可靠性好的 适应高吞吐量的数据库解决方案。2、Oracle与SQL Se...

2018-06-29 16:16:36 327

原创 SQL Server学习路上(1)

SQL Server 是Microsoft 公司推出的关系型数据库管理系统,具有使用方便可伸缩性好与相关软件集成程度高等优点。数据库是一门主要研究如何存储、使用和管理数据的技术,数据库离不开数据和信息,其中数据和信息的关系如下:      1、数据是信息的基础      2、信息是通过数据处理产生的      3、信息用于反映数据的意义      4、准确的、相关的和及时的信息是良好决策的关键数据...

2018-06-26 16:33:41 1515

原创 matlab绘图小技能

1、matlab是什么? matlab是矩阵实验室Matrix Laboratory的缩写,作为一种著名的数值计算软件,它是美国MathWorks公司开发的以矩阵计算为基础的大型数值计算软件和高级程序设计语言,功能十分丰富。matlab在符号数学工具箱提供了基本的符号计算功能,这些功能使用matlab语言,应用在matlab的命令窗口或者M文件(脚本文件)中。2、mupad是什么...

2018-06-23 11:47:05 716

原创 总结前辈的IT经验

作为准备踏进社会这个“大学校”的一员,我深知自己羽翼未丰,不敢骄矜,我也知道未来还有很长的路要走要闯,而且这条路注定布满荆棘,伤我千万遍,但我依然会带着一股坚韧、一腔热情走下去,还要走得比别人好(一点点,哈哈)。 坚持工作的三大基本原则: 1、不怕犯错误,但不要犯大错误 2、遇事不要犹豫,要敢于作决定 3、勇于承认错误,敢于承担责任 以下用前辈的经历来激...

2018-06-20 13:11:55 1320

原创 关联分析U聚类分析探讨心脏病的诱发

1 数据准备现有一份heart disease.xls数据,内含21个变量,分别是ID(序号)、sex(性别)、age(年龄)、profession(工作强度)、Marital Status(婚姻状况)、owncar(私家车)、emotion(情绪)、tiredness(疲劳度)、exercise(运动量)、diet(饮食习惯)、sitting-up(熬夜)、petting(是否养宠物)、dr...

2018-06-18 13:12:32 1603 2

原创 数据时代的那些词儿

1、数据库数据库(Database)是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库,严格来说,数据库是长期储存在计算机内、有组织的、可共享的数据集合。常见的有mysql、oracle、sql server.2、数据仓库数据仓库(Data Warehouse,可简写为DW或DWH)是一个面向主题的,集成的,不可更新的,随时间不断变化的数据集合,它是一种信息系统,目的是构建面向分析...

2018-06-15 15:20:03 339

原创 关联分析——Apriori算法

一、引入世间万物都是有联系的,这种联系让这个世界变得丰富多彩而又生动有趣。关联分析的目的就是要寻找事物之间的联系规律,发现它们之间的关联关系。关联分析是一种简单、实用的分析技术,就是发现存在于大量数据集中的关联性或相关性,从而描述了一个事物中某些属性同时出现的规律和模式。关联分析主要是采用关联规则技术广泛应用于众多领域,例如:1)  帮助企业经营者发现顾客的购买偏好,准确定位顾客特征,给顾客提供购...

2018-06-13 11:50:15 2050

转载 正则表达式

语法正则表达式(regular expression)描述了一种字符串匹配的模式,可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。列目录时, dir *.txt或ls *.txt中的*.txt就不是一个正则表达式,因为这里*与正则式的*的含义是不同的。 构造正则表达式的方法和创建数学表达式的方法一样。也就是用多种元字符与运算符可以将小的表达...

2018-06-12 09:34:51 223

原创 excel中的数据分析

任务1:利用已给成绩表,计算算术平均数、中位数、众数,并分析各科成绩分布的特点.任务2:计算学生调查中“统计成绩”、“月支出”、“体重”的描述统计指标.1、利用excel自带的AVERAGE、MEDIAN、MODE函数分别求各科成绩的平均数、中位数和众数2、描述统计指标选择“数据”中“数据分析”,会弹出“描述统计”对话框,在“描述统计”的对话框中,在“输入区域”中选择H2:H36,在分组方式后选择...

2018-06-10 22:54:55 559

原创 python小笔记(2)

1、range和yieldrange:range([start,] stop[, step]),根据start与stop指定的范围以及step设定的步长,生成一个序列。yield:创建生成器,产生值,类似return,不过函数不会因为yield而结束,只是将流程控制权转交给函数调用者。for i in range(3): print(i) for j in range(0...

2018-06-04 19:45:11 228

原创 python小笔记(1)

——致初学python的小白,高手请忽略,哈哈1、format(格式化函数)##代码print('{:<15}'.format('hello word!'))#左对齐print('{:^15}'.format('hello word!'))#居中print('{:>15}'.format('hello word!'))#右对齐print('{:@>15}'.fo...

2018-06-04 15:48:17 276

原创 各种排序算法

1、工具C++2、目的利用不同的排序算法对一串数字进行排序4、实现过程算法1:插入排序#include <iostream>#include <stdlib.h>using namespace std;//插入排序void insert_sort(int a[],unsigned int first,unsigned int last){...

2018-06-02 23:38:03 144

原创 100以内的质数的三种实现

1、实现工具C++2、实现目标用穷举法找出1-100间的质数并显示出来,分别使用while,do…while, for循环语句3、实现过程①while#include <iostream>#include <cmath> using namespace std;int main(){ int i,j,k,flag; i=2; w...

2018-06-02 22:53:27 2107 3

转载 IT和商业之间的纽带——商业数据分析师

什么是商业分析师?商业分析师负责利用数据分析将IT技术和商业联系起来,通过数据分析帮助企业优化生产流程,产品,服务和软件,评估生产流程,确定产品需求并向管理层和投资者提供数据驱动的建议和报告。敏锐的分析师们填补了技术与商业之间的鸿沟,提高生产效率并实现技术的商业价值。国际商业分析协会(IIBA),定义商业分析师是“变革的推动者”,他们认为商业分析“是一种为组织引入和管理变革的规范方法,无论他们是营...

2018-06-01 15:35:37 2119 1

原创 现代化养猪——养殖大数据

前言这几年养猪行业正在发生革命性的变化,高端猪肉、安全猪肉、品牌猪肉等特色猪肉的出现,一方面保证了食物的质量,另一方面也提升了溢价能力。基于人工智能养的猪,从出生之日起就有自己的数字档案,里面记载了猪的品种、日龄、体重、进食情况、运动强度、频次、轨迹等信息;用视频图像分析检测猪的体态,分析猪的健康状况;结合声学特征和红外测温技术,还能对猪的咳嗽等行为判断是否患病,做出疫情预警,马云家的猪...

2018-06-01 00:35:21 8007 5

转载 数学建模四大模型

文章作者吴翔1优化模型1.1数学规划模型线性规划、整数线性规划、非线性规划、多目标规划、动态规划。1.2微分方程组模型阻滞增长模型、SARS传播模型。1.3图论与网络优化问题最短路径问题、网络最大流问题、最小费用最大流问题、最小生成树问题(MST)、旅行商问题(TSP)、图的着色问题。1.4概率模型决策模型、随机存储模型、...

2018-05-30 09:20:02 4553 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除