傻瓜菜的傻瓜菜地-CSDN博客

原创 20180326 Quantitative Techniques - Outliers

2018-03-26 14:12:11 246

原创 20180326 Introduction of EDA

2018-03-26 14:10:59 178

原创 2017.07.13：无监督算法评估

无监督学习的评估方法1.Normalizedmutual information度量2个聚类结果的相近程度http://www.cnblogs.com/ziqiao/archive/2011/12/13/2286273.html2.以sqrt(n)或者更小的随机subsampling出的样本去聚类 m次，看看有哪些点分类不太一致改变聚类参数，达到比较结果3.把无监督学习的结

2017-07-13 10:57:21 833

原创 20170623：七周七数据分析，Excel篇

2017-06-23 11:44:08 356

转载 2017.06.22：LDA与困惑度代码

LDA代码：class LDAModel(object): def __init__(self, dpre): self.dpre = dpre # 获取预处理参数 # # 模型参数 # 聚类个数K，迭代次数iter_times,每个类特征词个数top_words_num,超参数α（alpha） β(beta) # self.K = K self.beta

2017-06-22 11:12:28 4482 9

原创 2017.06.22: note for LDA

2017-06-22 10:58:56 228

原创 20170621：python日志文件记录

python 日志文件记录# -*- coding:utf-8 -*- #import logginglog_format = '%(filename)s [%(asctime)s] [%(levelname)s] %(message)s'logging.basicConfig(format=log_format, datefmt='%Y-%m-%d %H:%M:%S %p', lev

2017-06-21 15:33:01 269

原创 20170612：TFIDF比对

2017-06-12 08:59:37 177

原创 2017.05.31:Mysql+Python 余弦相似度

1.mysql字段类型2.余弦相似度

2017-05-31 09:27:48 651

原创 2017.05.24:SQL查询

2017-05-24 08:42:19 219

原创 2017.05.23：SVM、TFIDF、word2vect

2017-05-23 10:18:33 535

原创 2017.05.19:MySQL问题

1. “MySQL has Gone Away”mysql出现ERROR: (2006, 'MySQL server has gone away') 的问题意思就是指client和MySQLserver之间的链接断开了。造成这样的原因一般是sql操作的时间过长，或者是传送的数据太大(例如使用insert... values的语句过长原因一. MySQL 服务宕了判断是否属于这

2017-05-19 16:52:25 339

原创 2017.05.16:利用python进行数据分析03

2. pandas ：Sereies最重要的一个功能是，在算术运算中会自动对齐不同索引的数据。3.不想每查一次数据库就重写一次，pandas有一个简化该过程的read_frame函数：import pandas.io.sql as sql srl.read_frame('select * from test', con)

2017-05-16 10:19:03 395

原创 2017.05.10：工作笔记01

1. （Note：sum() vs count()；把所有数值由小到大排列并分成四等份，处于三个分割点位置的数值就是四分位数。）2. （Note：into outfile.txt）3. （Note：二进制文件读取方式，遍历文件夹权限问题！！！python2.7编码方式）

2017-05-10 16:55:39 212

原创 2017.04.19:今日头天数据分析笔试02

10.数据库练习bt.user_visit_logvisit_time（访问时间）user_id（账号ID）page_url（访问页量）2017-03-16 00:59:4323564/ad/test12017-03-16 01:01:0394535

2017-04-19 18:09:53 1433

原创 2017.04.19：今日头条数据分析笔试01

1.如何识别山寨APP 2.有监督学习vs无监督学习是否有监督（supervised），就看输入数据是否有标签（label）。输入数据有标签，则为有监督学习，没标签则为无监督学习。最简单也最普遍的一类机器学习算法就是分类（classification）。对于分类，输入的训练数据有特征（feature），有标签（label）。所谓的学习，其本质就是找到特征和标签间的关系（mapping）

2017-04-19 15:49:36 9090

原创 2017.04.18：网易2017校招数据分析开放题

1.异常值检测原因：(1)数据来源于不同的类：某个数据对象可能不同于其他数据对象(即异常)，因为它术语一个不同的类型或类。Hawkins的离群点定义：离群点是一个观测值，它与其他观测值的差别如此之大，以至于怀疑它是由不同的机制产生的。(2)自然变异：许多数据集可以用一个统计分布建模，如正态(高斯)分布建模，其中数据对象的概率随对象到分布中心距离的增加而急剧减少。换言之，大部分数据对象靠

2017-04-18 09:43:28 4045

原创 2017.04.17:Hadoop大数据分析与挖掘01

2017-04-17 15:09:05 317

原创 2017.04.14：python数据可视化02

2017-04-14 14:24:07 266

原创 2017.04.10：python数据可视化01

def is_outlier(points, threshold=3.5): """ Returns a boolean array with True if points are outliers and False otherwise. Data points with a modified z-score greater than this

2017-04-10 19:35:44 285

原创 2017.04.09:Mysql编程

2017-04-09 09:45:20 143

原创 2017.04.03：数据仓库与数据挖掘03

DBSAN优点1.与K-means方法相比，DBSCAN不需要事先知道要形成的簇类的数量。2.与K-means方法相比，DBSCAN可以发现任意形状的簇类。3.同时，DBSCAN能够识别出噪声点。4.DBSCAN对于数据库中样本的顺序不敏感，即Pattern的输入顺序对结果的影响不大。但是，对于处于簇类之间边界样本，可能会根据哪个簇类优先被探测到而其归属有所摆动。缺点：1.

2017-04-04 13:46:25 414

原创 2017.04.03:数据仓库与数据分析02

2017-04-03 18:39:19 176

原创 2017.03.31:数据仓库与数据分析01

2017-03-31 15:09:11 221

原创 2017.03.22:数据库SQL语句

Student(SId,Sname,Sage,Ssex) 学生表(学号、姓名、年龄、性别)Course(CId,Cname,TId) 课程表（课程编号、课程名字、教师编号）SC(SId,CId,score) 成绩表（学号、课程编号、成绩）Teacher(TId,Tname)

2017-03-22 16:06:02 243

转载 2017.03.07：数据库

1.视图的作用，视图可以更改么？视图是虚拟的表，与包含数据的表不一样，视图只包含使用时动态检索数据的查询；不包含任何列或数据。使用视图可以简化复杂的sql操作，隐藏具体的细节，保护数据；视图创建后，可以使用与表相同的方式利用它们。视图不能被索引，也不能有关联的触发器或默认值，如果视图本身内有order by则对视图再次order by将被覆盖。创建视图：create view XX

2017-03-07 13:21:25 217

原创 2017.03.03：机器学习

logistic回归是一种广义线性回归（generalized linear model），因此与多重线性回归分析有很多相同之处。它们的模型形式基本上相同，都具有 w‘x+b，其中w和b是待求参数，其区别在于他们的因变量不同，多重线性回归直接将w‘x+b作为因变量，即y=w‘x+b，而logistic回归则通过函数L将w‘x+b对应一个隐状态p，p=L(w‘x+b),然后根据p与1-p的大

2017-03-03 13:34:09 647

原创 2017.02.27：关系型数据库

1. 时间复杂度用来检验某个算法处理一定量的数据要花多长时间。为了描述这个复杂度，计算机科学家使用数学上的『简明解释算法中的大O符号』。这个表示法用一个函数来描述算法处理给定的数据需要多少次运算。重要的不是数据量，而是当数据量增加时运算如何增加。时间复杂度不会给出确切的运算次数，但是给出的是一种理念。2.数据库的sort()函数——合并排序：与很多有用的算法类似，合并排序基于这样一

2017-02-27 14:37:22 252

原创 2017.02.25：算法（最短路径）

#includeint main(){ int e[10][10],k,i,j,n,m,t1,t2,t3; int inf=999999; scanf("%d %d", &n,&m); for(i=1;i<=n;i++) for(j=1;j<=m;j++) if(i==j) e[i][j]=0; else e[i][j]=inf; for(i=

2017-02-25 12:58:33 213

原创 2017.02.25：算法02（广搜）

题目见上篇#includestruct note{ int x; int y; int f; int s;};int main(){ struxt note que[2051]; int a[51][51]={0}, book[51][51]={0}; int next[4][2]={{0,1},{1,0},{0,-1},{-1,0}}; int head,tai

2017-02-25 12:29:13 224

原创 2017.02.24：算法01（深搜）

深搜的代码形式：/*void dfs(int step){ 判断边界尝试每一种可能 for(i=1;i<=m;i++){ 继续下一步 dfs(step+1); } 返回}*/例题如下： #include int n,m,p,q,min=999999; int a[51][51],book[51][51]; void dfs(int x, int y

2017-02-24 14:43:11 218

原创 2017.02.22：数据库面试01

1. WHERE关键字在使用集合函数时不能使用，所以在集合函数中加上了HAVING来起到测试查询结果是否符合条件的作用.2. 当同时含有where子句、group by 子句、having子句及聚集函数时，执行顺序如下：--执行where子句查找符合条件的数据；--使用group by子句对数据进行分组；对group by子句形成的组运行聚集函数计算每一组的值；最后用having子句

2017-02-22 18:15:58 272

原创 2017.02.22：利用python进行数据分析

1.pandas中的频率是由一个基础频率和一个乘数组成。基础频率通常以一个字符别名表示。2.移动（超前和超后）数据。移动指的是沿着时间轴将数据前移或后移。3.重采样：指的是将时间序列从一个频率转换到另一个频率的处理过程，pandas对象都带有一个response方法。它是各种频率转换工作的主力函数。4.在移动窗口（可以带有指数衰减权数）上计算的各种统计函数也是一类常见于时间序列的数组变

2017-02-22 15:41:18 477

原创 2017.02.18：利用python进行数据分析02

1.pandas数据结构：Series和DataFrame。1.1.Series是一种类似于一位数组的对象，它由一组数据以及一组与之相关的数据的标签组成。1.2.NaN：Not aNumber，非数字，表示缺失或是NA值。1.3.pandas中的index，将轴标签表示为一个由python对象组成的Numpy数组。Index对象不可修改。1.4.对于一个DataFrame，每条轴都

2017-02-18 16:24:14 417

原创 2017.02.16：利用Python进行数据分析01

1.IPython：一种交互式的pythonshell。IPython提供了一个特殊的dreload函数，解决模块的“深度”（递归）重加载。2.Numpy：NumericalPython2.1.ndarray：具有矢量算数运算和复杂广播能力的快速且节省空间的多维数组。2.2.用于对整组数据进行快速运算的标准数学函数（无需编写循环）。2.3.用于读写的磁盘数据的工具以及用于操作内存映

2017-02-16 17:51:08 310

转载 2017.02.01：Premiere和MediaEncoder

解决“Premiere和MediaEncoder不能关联”和“不能读取源文件”之类的问题。如果能解决你的问题，就顶一下，也不枉我研究到5点......1.找到Adobe Premiere Pro.exe，创建快捷方式2.将快捷方式改名为Premiere3.将快捷方式复制到C:\Program Files\Common Files\Adobe\dynamiclink4

2017-02-01 23:42:37 1582

转载 2017.01.12：LDA

2017-01-12 18:26:04 240

转载 2017.01.10：计算机基础知识

1. OSI简介：OSI采用了分层的结构化技术，共分七层，物理层、数据链路层、网络层、传输层、会话层、表示层、应用层。物理层：提供为建立、维护和拆除物理链路所需要的机械的、电气的、功能的和规程的特性；有关的物理链路上传输非结构的位流以及故障检测指示。数据链路层：在网络层实体间提供数据发送和接收的功能和过程；提供数据链路的流控。网络层：控制分组传送系统的操作、路由选择、拥护控制、网络互连

2017-01-10 12:40:14 224

原创 2017.01.09：排序与搜索

排序和搜索1.所谓的内排序是指所有的数据已经读入内存。在内存中进行排序的算法；同时，内排序也一般假定所有用到的辅助空间可以直接存在于内存中。与之对应，另一类排序称为外排序，即内存中无法保存全部数据，需要进行磁盘访问，每次读入部分数据到内存进行排序。合并排序：利用分而治之的思想，对两部分非别进行排序，排序完成后，在将各自排序好的两个部分合并还原成一个有序结构；算法的时间复杂度为O(nl

2017-01-09 18:58:26 188

原创 2017.01.07：面向对象设计、递归和动态规划

面向对象设计1.继承，通过继承方式，子类能够改写父类方法，同时保留部分父类方法。继承在静态编译时就定义了，所以无法在运行时刻改写父类方法。如果子类没有改写父类方法，就相当于依赖了父类这个方法的实现细节，会认为破坏封装性。如果父类接口定义需要更改时，子类也需要更改响应接口。2.组合。对象组合通过获得其他对象引用而在运行时刻动态定义。对象只能通过接口来访问，所以不会破坏封装性。使用组合方式，我

2017-01-07 16:08:18 427

算法导论中文版

C语言库函数大全

空空如也