自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(57)
  • 资源 (2)
  • 收藏
  • 关注

原创 20180326 Quantitative Techniques - Outliers

2018-03-26 14:12:11 246

原创 20180326 Introduction of EDA

2018-03-26 14:10:59 178

原创 2017.07.13:无监督算法评估

无监督学习的评估方法1.Normalizedmutual information度量2个聚类结果的相近程度http://www.cnblogs.com/ziqiao/archive/2011/12/13/2286273.html2.以sqrt(n)或者更小的随机subsampling出的样本去聚类 m次,看看有哪些点分类不太一致改变聚类参数,达到比较结果3.把无监督学习的结

2017-07-13 10:57:21 833

原创 20170623:七周七数据分析,Excel篇

2017-06-23 11:44:08 356

转载 2017.06.22:LDA与困惑度代码

LDA代码:class LDAModel(object): def __init__(self, dpre): self.dpre = dpre # 获取预处理参数 # # 模型参数 # 聚类个数K,迭代次数iter_times,每个类特征词个数top_words_num,超参数α(alpha) β(beta) # self.K = K self.beta

2017-06-22 11:12:28 4482 9

原创 2017.06.22: note for LDA

2017-06-22 10:58:56 228

原创 20170621:python日志文件记录

python 日志文件记录# -*- coding:utf-8 -*- #import logginglog_format = '%(filename)s [%(asctime)s] [%(levelname)s] %(message)s'logging.basicConfig(format=log_format, datefmt='%Y-%m-%d %H:%M:%S %p', lev

2017-06-21 15:33:01 269

原创 20170612:TFIDF比对

2017-06-12 08:59:37 177

原创 2017.05.31:Mysql+Python 余弦相似度

1.mysql字段类型2.余弦相似度

2017-05-31 09:27:48 651

原创 2017.05.24:SQL查询

2017-05-24 08:42:19 219

原创 2017.05.23:SVM、TFIDF、word2vect

2017-05-23 10:18:33 535

原创 2017.05.19:MySQL问题

1. “MySQL has Gone Away”mysql出现ERROR: (2006, 'MySQL server has gone away') 的问题意思就是指client和MySQLserver之间的链接断开了。造成这样的原因一般是sql操作的时间过长,或者是传送的数据太大(例如使用insert... values的语句过长 原因一. MySQL 服务宕了判断是否属于这

2017-05-19 16:52:25 339

原创 2017.05.16:利用python进行数据分析03

2. pandas :Sereies最重要的一个功能是,在算术运算中会自动对齐不同索引的数据。3.不想每查一次数据库就重写一次,pandas有一个简化该过程的read_frame函数:import pandas.io.sql as sql srl.read_frame('select * from test', con)

2017-05-16 10:19:03 395

原创 2017.05.10:工作笔记01

1.   (Note:sum() vs count();把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。)2.   (Note:into outfile.txt)3.   (Note:二进制文件读取方式,遍历文件夹权限问题!!!python2.7编码方式)

2017-05-10 16:55:39 212

原创 2017.04.19:今日头天数据分析笔试02

10.数据库练习bt.user_visit_logvisit_time(访问时间)user_id(账号ID)page_url(访问页量)2017-03-16 00:59:4323564/ad/test12017-03-16 01:01:0394535

2017-04-19 18:09:53 1433

原创 2017.04.19:今日头条数据分析笔试01

1.如何识别山寨APP 2.有监督学习vs无监督学习是否有监督(supervised),就看输入数据是否有标签(label)。输入数据有标签,则为有监督学习,没标签则为无监督学习。最简单也最普遍的一类机器学习算法就是分类(classification)。对于分类,输入的训练数据有特征(feature),有标签(label)。所谓的学习,其本质就是找到特征和标签间的关系(mapping)

2017-04-19 15:49:36 9090

原创 2017.04.18:网易2017校招数据分析开放题

1.异常值检测原因:(1)数据来源于不同的类:某个数据对象可能不同于其他数据对象(即异常),因为它术语一个不同的类型或类。Hawkins的离群点定义:离群点是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。(2)自然变异:许多数据集可以用一个统计分布建模,如正态(高斯)分布建模,其中数据对象的概率随对象到分布中心距离的增加而急剧减少。换言之,大部分数据对象靠

2017-04-18 09:43:28 4045

原创 2017.04.17:Hadoop大数据分析与挖掘01

2017-04-17 15:09:05 317

原创 2017.04.14:python数据可视化02

2017-04-14 14:24:07 266

原创 2017.04.10:python数据可视化01

def is_outlier(points, threshold=3.5): """ Returns a boolean array with True if points are outliers and False otherwise. Data points with a modified z-score greater than this

2017-04-10 19:35:44 285

原创 2017.04.09:Mysql编程

2017-04-09 09:45:20 143

原创 2017.04.03:数据仓库与数据挖掘03

DBSAN优点1.与K-means方法相比,DBSCAN不需要事先知道要形成的簇类的数量。2.与K-means方法相比,DBSCAN可以发现任意形状的簇类。3.同时,DBSCAN能够识别出噪声点。4.DBSCAN对于数据库中样本的顺序不敏感,即Pattern的输入顺序对结果的影响不大。但是,对于处于簇类之间边界样本,可能会根据哪个簇类优先被探测到而其归属有所摆动。缺点:1.

2017-04-04 13:46:25 414

原创 2017.04.03:数据仓库与数据分析02

2017-04-03 18:39:19 176

原创 2017.03.31:数据仓库与数据分析01

2017-03-31 15:09:11 221

原创 2017.03.22:数据库SQL语句

Student(SId,Sname,Sage,Ssex)           学生表(学号、姓名、年龄、性别)Course(CId,Cname,TId)                课程表(课程编号、课程名字、教师编号)SC(SId,CId,score)                     成绩表(学号、课程编号、成绩)Teacher(TId,Tname)            

2017-03-22 16:06:02 243

转载 2017.03.07:数据库

1.视图的作用,视图可以更改么?视图是虚拟的表,与包含数据的表不一样,视图只包含使用时动态检索数据的查询;不包含任何列或数据。使用视图可以简化复杂的sql操作,隐藏具体的细节,保护数据;视图创建后,可以使用与表相同的方式利用它们。视图不能被索引,也不能有关联的触发器或默认值,如果视图本身内有order by则对视图再次order by将被覆盖。创建视图:create view XX

2017-03-07 13:21:25 217

原创 2017.03.03:机器学习

logistic回归是一种广义线性回归(generalized linear model),因此与多重线性回归分析有很多相同之处。它们的模型形式基本上相同,都具有 w‘x+b,其中w和b是待求参数,其区别在于他们的因变量不同,多重线性回归直接将w‘x+b作为因变量,即y=w‘x+b,而logistic回归则通过函数L将w‘x+b对应一个隐状态p,p=L(w‘x+b),然后根据p与1-p的大

2017-03-03 13:34:09 647

原创 2017.02.27:关系型数据库

1. 时间复杂度用来检验某个算法处理一定量的数据要花多长时间。为了描述这个复杂度,计算机科学家使用数学上的『简明解释算法中的大O符号』。这个表示法用一个函数来描述算法处理给定的数据需要多少次运算。重要的不是数据量,而是当数据量增加时运算如何增加。时间复杂度不会给出确切的运算次数,但是给出的是一种理念。2.数据库的sort()函数——合并排序:与很多有用的算法类似,合并排序基于这样一

2017-02-27 14:37:22 252

原创 2017.02.25:算法(最短路径)

#includeint main(){ int e[10][10],k,i,j,n,m,t1,t2,t3; int inf=999999; scanf("%d %d", &n,&m); for(i=1;i<=n;i++) for(j=1;j<=m;j++) if(i==j) e[i][j]=0; else e[i][j]=inf; for(i=

2017-02-25 12:58:33 213

原创 2017.02.25:算法02(广搜)

题目见上篇#includestruct note{ int x; int y; int f; int s;};int main(){ struxt note que[2051]; int a[51][51]={0}, book[51][51]={0}; int next[4][2]={{0,1},{1,0},{0,-1},{-1,0}}; int head,tai

2017-02-25 12:29:13 224

原创 2017.02.24:算法01(深搜)

深搜的代码形式:/*void dfs(int step){ 判断边界 尝试每一种可能 for(i=1;i<=m;i++){ 继续下一步 dfs(step+1); } 返回}*/例题如下: #include int n,m,p,q,min=999999; int a[51][51],book[51][51]; void dfs(int x, int y

2017-02-24 14:43:11 218

原创 2017.02.22:数据库面试01

1. WHERE关键字在使用集合函数时不能使用,所以在集合函数中加上了HAVING来起到测试查询结果是否符合条件的作用.2. 当同时含有where子句、group by 子句 、having子句及聚集函数时,执行顺序如下:--执行where子句查找符合条件的数据;--使用group by子句对数据进行分组;对group by子句形成的组运行聚集函数计算每一组的值;最后用having子句

2017-02-22 18:15:58 272

原创 2017.02.22:利用python进行数据分析

1.pandas中的频率是由一个基础频率和一个乘数组成。基础频率通常以一个字符别名表示。2.移动(超前和超后)数据。移动指的是沿着时间轴将数据前移或后移。3.重采样:指的是将时间序列从一个频率转换到另一个频率的处理过程,pandas对象都带有一个response方法。它是各种频率转换工作的主力函数。4.在移动窗口(可以带有指数衰减权数)上计算的各种统计函数也是一类常见于时间序列的数组变

2017-02-22 15:41:18 477

原创 2017.02.18:利用python进行数据分析02

1.pandas数据结构:Series和DataFrame。1.1.Series是一种类似于一位数组的对象,它由一组数据以及一组与之相关的数据的标签组成。1.2.NaN:Not aNumber,非数字,表示缺失或是NA值。1.3.pandas中的index,将轴标签表示为一个由python对象组成的Numpy数组。Index对象不可修改。1.4.对于一个DataFrame,每条轴都

2017-02-18 16:24:14 417

原创 2017.02.16:利用Python进行数据分析01

1.IPython:一种交互式的pythonshell。IPython提供了一个特殊的dreload函数,解决模块的“深度”(递归)重加载。2.Numpy:NumericalPython2.1.ndarray:具有矢量算数运算和复杂广播能力的快速且节省空间的多维数组。2.2.用于对整组数据进行快速运算的标准数学函数(无需编写循环)。2.3.用于读写的磁盘数据的工具以及用于操作内存映

2017-02-16 17:51:08 310

转载 2017.02.01:Premiere和MediaEncoder

解决“Premiere和MediaEncoder不能关联”和“不能读取源文件”之类的问题。如果能解决你的问题,就顶一下,也不枉我研究到5点......1.找到Adobe Premiere Pro.exe,创建快捷方式2.将快捷方式改名为Premiere3.将快捷方式复制到C:\Program Files\Common Files\Adobe\dynamiclink4

2017-02-01 23:42:37 1582

转载 2017.01.12:LDA

2017-01-12 18:26:04 240

转载 2017.01.10:计算机基础知识

1. OSI简介:OSI采用了分层的结构化技术,共分七层,物理层、数据链路层、网络层、传输层、会话层、表示层、应用层。物理层:提供为建立、维护和拆除物理链路所需要的机械的、电气的、功能的和规程的特性;有关的物理链路上传输非结构的位流以及故障检测指示。数据链路层:在网络层实体间提供数据发送和接收的功能和过程;提供数据链路的流控。网络层:控制分组传送系统的操作、路由选择、拥护控制、网络互连

2017-01-10 12:40:14 224

原创 2017.01.09:排序与搜索

排序和搜索1.所谓的内排序是指所有的数据已经读入内存。在内存中进行排序的算法;同时,内排序也一般假定所有用到的辅助空间可以直接存在于内存中。与之对应,另一类排序称为外排序,即内存中无法保存全部数据,需要进行磁盘访问,每次读入部分数据到内存进行排序。 合并排序:利用分而治之的思想,对两部分非别进行排序,排序完成后,在将各自排序好的两个部分合并还原成一个有序结构;算法的时间复杂度为O(nl

2017-01-09 18:58:26 188

原创 2017.01.07:面向对象设计、递归和动态规划

面向对象设计1.继承,通过继承方式,子类能够改写父类方法,同时保留部分父类方法。继承在静态编译时就定义了,所以无法在运行时刻改写父类方法。如果子类没有改写父类方法,就相当于依赖了父类这个方法的实现细节,会认为破坏封装性。如果父类接口定义需要更改时,子类也需要更改响应接口。2.组合。对象组合通过获得其他对象引用而在运行时刻动态定义。对象只能通过接口来访问,所以不会破坏封装性。使用组合方式,我

2017-01-07 16:08:18 427

算法导论中文版

程序=算法+语言 算法导论(中文版)很好的介绍了数据结构中应用到的一些算法,或者简单或者高效。

2012-04-01

C语言库函数大全

C语言的库函数参考手册:囊括了所有的库函数,并且给出了详细的使用例子,对编程而言,是份不错的资料

2012-03-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除