自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(53)
  • 资源 (1)
  • 收藏
  • 关注

原创 Python中的数据类型

原文链接:http://www.datastudy.cc/to/86 Python中总共有六种数据类型,分别如下:  数字(Numbers) 字符串(String) 列表(List) 元组(Tuple) 集合(Sets) 字典(Dictionaries)  数字的种类:  整数型(int) 浮点型(float) 布尔型(bool)...

2016-11-04 09:48:46 199

原创 MySQL 使用 MRG_MyISAM 存储引擎来实现分表

原文链接:http://www.datastudy.cc/to/83 MRG_MyISAM存储引擎为MySQL的其中一个存储引擎,使用下面语句察看MYSQL数据库是否支持该存储引擎。   MERGE存储引擎,也被认识为MRG_MyISAM引擎,是一个相同的可以被当作一个来用的MyISAM表的集合。“相同”意味着所有表同样的列和索引信息。你不能合并列被以不同顺序列于其中的表,没...

2016-11-03 09:53:29 226

原创 MySQL中的数值函数

原文链接:http://www.datastudy.cc/to/78   本文我们来介绍MySQL中常用的数值符号和函数。  +  加号:  mysql> SELECT 3+5; -> 8  -  减号:  mysql> SELECT 3-5; -> -2  -  一元减号。更换参数符号。...

2016-11-02 09:14:30 217

原创 Python如何将百分号的字符转成数字

         原文链接:http://www.datastudy.cc/to/65 很多时候,我们拿到的报表数据,里面的小数都是带百分号的字符串,不能进行直接的计算,需要对其进行转换,然后再输出。 解决方法: from pandas import DataFrame; df = DataFrame({'p_str': ['10.33%','23....

2016-10-31 12:14:24 2365

原创 一张图让你详细理解Group By的分组聚合过程

原文链接:http://www.datastudy.cc/to/59  Group By分组聚合是我们在使用过程中使用最多的SQL之一(另外一个使用最多的估计就是JOIN了吧),为了让大家详细了解Group By的计算执行过程,我们下面使用一张图来详细讲解一下。   我们的数据就是左表,有name和score两列,我们要求每个name下,score的最大值,技术术语是:...

2016-10-29 12:07:21 1805

原创 如何高效地学习数据结构——Python篇

 原文链接:http://www.datastudy.cc/to/44        我们来看看如何高效地学习一门语言的数据结构,今天我们先看Python篇。         所谓数据结构,是指相互之间存在一种或多种特定关系的数据类型的集合。           Python在数据分析领域中,最常用的数据结构,莫过于DataFrame了,今天我们就介绍...

2016-10-27 10:24:51 157

原创 开机时间排名——一个正态分布的应用的案例

   原文链接:http://www.datastudy.cc/to/39觉得很有用,但是用不上。    这个肯定是很多人对《统计学》这一门课程的直观感觉,如果这货一点用处都没有,那是不可能的,大学的老师又不傻,没用的课程不会做为基础课程开设。但是你说它有用在哪里,又没有办法举例出来,所以就用不上了。     坦白来讲,我不想开设一门所谓的《傻瓜都能学懂统计学》的类似课程,因为...

2016-10-26 10:25:43 255

原创 开机时间排名——一个正态分布的应用的案例

原文链接:http://www.datastudy.cc/to/37    觉得很有用,但是用不上。    这个肯定是很多人对《统计学》这一门课程的直观感觉,如果这货一点用处都没有,那是不可能的,大学的老师又不傻,没用的课程不会做为基础课程开设。但是你说它有用在哪里,又没有办法举例出来,所以就用不上了。    坦白来讲,我不想开设一门所谓的《傻瓜

2016-10-26 10:20:43 13481

原创 Python pandas 数据框的str列内置的方法详解

 原文链接:http://www.datastudy.cc/to/33        在使用pandas框架的DataFrame的过程中,如果需要处理一些字符串的特性,例如判断某列是否包含一些关键字,某列的字符长度是否小于3等等这种需求,如果掌握str列内置的方法,处理起来会方便很多。         下面我们来详细了解一下,Series类的str自带的方法有哪些。 1...

2016-10-25 10:37:24 1172

原创 如何对数据按某列进行分层处理

 原文链接:http://www.datastudy.cc/to/19 很多时候,我们拿到的数据,都是汇总的一份数据,例如我们示例中的数据,已经把所有仓库的数据都汇总起来了。  但是我们在统计建模的时候,如果想要把他们拆分开来进行处理,那么如何进行分层处理呢?其实非常简单,我们使用split函数即可。  split(x, f, drop = FALSE, ...)...

2016-10-24 11:46:59 365

原创 陈老师撕B志玲姐姐的热门微博数据分析

昨晚陈老师不知因何事忽然在微博上骂女神志玲姐姐,引起来网友们的热闹围观,导致前几天风风火火的汪峰的前妻吸毒的事件,顿时落下帷幕,汪峰老师好不容易上了一次头条,就这么被硬生生的扯下来了。

2016-07-29 19:20:26 1337

原创 在R中,如何计算Row Number呢?或者说是partition rank呢?

有的同学在处理自己的业务逻辑的时候,需要用到Row Number的方法,那么,什么是Row Number呢? 例如我们有下面的数据,第一列是用户的ID,第二列是用户的购买日期,现在如果我们需要判断用户是否重复购买,并且,每一次的购买,下一次的购买时间间隔是多少呢?

2016-07-18 10:40:22 2557

原创 在MySQL中,如何实现Row Number OVER Partiton或者是Rank OVER Partiton呢?

有的同学在处理自己的业务逻辑的时候,需要用到Row Number OVER Partition的方法,那么,什么是Row Number OVER Partition呢? 例如我们有下面的数据,第一列是用户的ID,第二列是用户的购买日期,现在如果我们需要判断用户是否重复购买,并且,每一次的购买,下一次的购买时间间隔是多少呢?

2016-07-18 10:29:34 1136

原创 在Pandas中,如何根据Group By 结果计算 Row Number

例如我们有下面的数据,第一列是用户的ID,第二列是用户的购买日期,现在如果我们需要判断用户是否重复购买,并且,每一次的购买,下一次的购买时间间隔是多少呢?

2016-07-11 15:35:23 10250 2

转载 用Python读红楼梦之——二、词云美化

咱们书接上回,讲到我们使用Python把红楼梦中的核心词汇给绘画出来了,但是,红楼梦这么唯美的书,给我们乌漆麻黑的搞了一张词云,宝宝们肯定接受不了。

2016-07-08 13:23:37 1464

转载 用Python读红楼梦之——一、词云绘制

Python在数据分析中越来越受欢迎,已经达到了统计学家对R的喜爱程度,Python的拥护者们当然不会落后于R,开发了一个个好玩的数据分析工具,下面我们来看看如何使用Python,来读红楼梦,本文是《用Python读红楼梦》系列文章的第一篇,绘制小说中的词云。

2016-07-08 13:22:06 2511

转载 Shell比较两个日期的大小

在Shell中我们可以利用date命令比较两个日期的大小,方法是先把日期转换成时间戳格式,再进行比较。date 的+%s可以将日期转换成时间戳格式,看下面的例子:#!/bin/bash date1="2008-4-09 12:00:00"date2="2008-4-10 15:00:00" t1=`date -d "$date1" +%s`t2=`date

2013-06-07 11:00:44 19206

转载 [Java]读取文件方法大全

1、按字节读取文件内容2、按字符读取文件内容3、按行读取文件内容4、随机读取文件内容 public class ReadFromFile {    /**     * 以字节为单位读取文件,常用于读二进制文件,如图片、声音、影像等文件。     */    public static void readFileByBytes(String fileN

2013-05-23 09:19:23 652

原创 wget 使用技巧

wget 是一个命令行的下载工具。对于我们这些 Linux 用户来说,几乎每天都在使用它。下面为大家介绍几个有用的 wget 小技巧,可以让你更加高效而灵活的使用 wget。$ wget -r -np -nd http://example.com/packages/这条命令可以下载 http://example.com 网站上 packages 目录中的所有文件。其中,-np 的作

2013-05-13 19:51:39 861

原创 linux压缩和解压缩命令大全

.tar  解包:tar zxvf FileName.tar  打包:tar czvf FileName.tar DirName  ---------------------------------------------  .gz  解压1:gunzip FileName.gz  解压2:gzip -d FileName.gz  压缩:gzip FileName

2013-05-13 15:59:02 681

原创 shell脚本获取一个固定日期的前n天,后n天,前n个月,后n个月的语法

stat_date_YYYY_MM_DD=$(date +%Y-%m-%d -d "1 days ago")stat_date_week_ago=$(date +%Y-%m-%d -d " ${stat_date_YYYY_MM_DD} 7 days ago")stat_date_month_ago=$(date +%Y-%m-%d -d " ${stat_date_YYYY_MM_DD}

2013-04-19 08:41:23 4961

原创 MySQL中间变量的用法

SET @countries=(SELECT GROUP_CONCAT(DISTINCT countrys) FROM gui_web_region_info);INSERT INTO gui_web_action_info SELECT '2013-04-16', package_name, country, 'gui_i000', using_count FROM gui_web_tota

2013-04-18 11:00:26 1857

原创 通过Mysql语句得到mysql安装路径

通过Mysql语句得到mysql安装路径:select @@basedir as basePath from dual

2013-02-26 13:56:58 1577

转载 如何解决:Android中 Error generating final archive: Debug Certificate expired on 10/09/18 16:30 的错误

问题概述:在导入一个app后提示如下错误:“Error generating final archive: Debug Certificate expired on 10/09/18 16:30” 原因分析:android要求所有的程序必须有签名,否则就不会安装该程序。在我们开发过程中,adt使用debug keystore,在 preference->an

2013-02-23 22:59:08 799

原创 表结构设计之拉链表

一、概念       拉链表是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。       在历史表中对客户的一生的记录可能就这样几条记录,避免了按每一天记录客户状态造成的海量存储的问题:(NAME)人名  (START-DATE)开始日期  (END-DT)结束日期  (STAT)状态client

2013-02-06 15:50:49 16186 2

原创 MySQL游标循环示例

如果用in语句,感觉很慢,跑了好久都没有结果,用存储过程删除可以把握进度,这个是MySQL游标循环的示例代码,避免以后经常找,记录上来。CREATE DEFINER=`root`@`%` PROCEDURE `bi`.`clean_data`()    READS SQL DATABEGIN  declare v_imei varchar(128);    declare

2012-12-04 16:08:57 1535 1

原创 k均值聚类(K-means)

1、摘要      在前面的文章中,介绍了三种常见的分类算法。分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算法的要求,则代价非常大,这时候可以考虑使用聚类算法。聚类属于无监督学习,相比于分类,聚类不依赖预定义的类和类标号的训练实例。本文首先介

2012-11-28 14:21:17 5240

原创 Shell脚本循环和运算的Demo

在数据分析的过程中,经常用到shell脚本去获取数据,而循环和运算都是代码常用的工具,记录一下,免得每次都Google一下,加上Google经常被限制访问,实在不习惯用百度,所以在博客里面记录一下。#!/bin/shb=1;s=5000000;bb=${b}for i in $(seq 50)do        let bb=b+s*i;        echo $

2012-11-26 12:01:16 1741

原创 Hadoop单机安装配置过程

Hadoop单机安装配置过程:  1、首先安装JDK,必须是sun公司的jdk,最好1.6版本以上。最后java–version查看成功与否。注意配置/etc/profile文件,在其后面加上下面几句:exportJAVA_HOME=/usr/local/jdk1.6.0_17exportPATH=$JAVA_HOME/bin:$JAVA_HOME/jre:$PAT

2012-11-24 14:51:44 1385

原创 在Java中使用CRC32

之前在MySQL数据库中,可以使用CRC32直接对字符串进行编码,生成一个long长整形的唯一性ID(虽然科学证明不绝对唯一,但是还是可用的),所以每次都通过数据库调用数据库的crc32函数进行字符串编码。现在发现Java中也有现成的函数可以调用,详细代码如下:CRC32 crc32 = new CRC32();crc32.update("abc".getBytes());System.o

2012-11-22 10:08:44 41411 1

原创 数据挖掘的标准流程

CRISP-DM (cross-industry standard process for data mining), 即为"跨行业数据挖掘过程标准". 此KDD过程模型于1999年欧盟机构联合起草. 通过近几年的发展,CRISP-DM 模型在各种KDD过程模型中占据领先位置,采用量达到近60%.(数据引自Cios and Kurgan于2005年合著的论文trands in data minin

2012-11-15 11:19:23 16061 4

原创 LINUX下SCP命令

设有两机,均为局域网,两机可相互通信无问题,中间无防火墙。两机IP分别为:A:192.168.1.1 B:192.168.1.2假设A,B机的SSH都允许root登录设要把 A上的 /root/abc.zip 传到 B机并放到/abc目录,可以在A机上用命令:scp /root/abc.zip [email protected]:/abc/提示输入B机的root密码,输入

2012-11-14 16:16:42 775

原创 Mahout中相似度计算方法介绍

在现实中广泛使用的推荐系统一般都是基于协同过滤算法的,这类算法通常都需要计算用户与用户或者项目与项目之间的相似度,对于数据量以及数据类型不同的数据源,需要不同的相似度计算方法来提高推荐性能,在mahout提供了大量用于计算相似度的组件,这些组件分别实现了不同的相似度计算方法。下图用于实现相似度计算的组件之间的关系:图1、项目相似度计算组件图2、用户相似度计算组件

2012-11-14 10:24:35 989

原创 MySQL统计函数记录——数值函数

可使用常见的算术操作符。注意就 -、 +和 *而言, 若两个参数均为正数,则其计算结果的精确度为 BIGINT (64比特),若其中一个参数为无符号整数, 而其它参数也是整数, 则结果为无符号整数。请参见12.8节,“Cast函数和操作符”。+加号:mysql> SELECT 3+5;        -> 8-减号:mysql> SELECT 3-5;

2012-11-13 10:59:59 7280

原创 MySQL统计函数记录——Join连接详解

MySQL JOIN语法概述SQL(MySQL)JOIN用于根据两个或多个表中的字段之间的关系,从这些表中得到数据。JOIN通常与ON关键字搭配使用,基本语法如下:... FROM table1 INNER|LEFT|RIGHT JOIN table2 ON conditionatable1通常称为左表,table2称为右表。ON关键字用于设定匹配条件,用于限定在结果集合中想要

2012-11-12 12:21:47 4068

原创 MySQL统计函数记录——按条件计数

问题描述为使讨论简单易懂,我将问题稍作简化,去掉诸多的背景。从前有一个皇帝,他有50个妃子,这些妃子很没有天理的给他生了100,000个儿子,于是,皇帝很苦恼,海量的儿子很难管理,而且,他想知道每个妃子给他生了多少个儿子,从而论功行赏,这很难办。于是,皇帝请了一个程序员帮他编了一个程序,用数据库来存储所有的儿子的信息,这样就可以用程序来统计和管理啦。数据库的结构如下:id

2012-11-12 10:32:10 3518

原创 MySQL统计函数记录——GROUP_CONCAT()函数

语法: GROUP_CONCAT([DISTINCT] expr [,expr ...][ORDER BY {unsigned_integer | col_name | expr}[ASC | DESC] [,col_name ...]][SEPARATOR str_val]) 下面演示一下这个函数,先建立一个学生选课表student_courses,并填充一些测试数据。SQL

2012-11-12 10:19:41 5118

原创 MySQL统计函数记录——时间段统计

按年汇总,统计:select sum(mymoney) as totalmoney, count(*) as sheets from mytable group by date_format(col, '%Y');按月汇总,统计: select sum(mymoney) as totalmoney, count(*) as sheets from mytable group by da

2012-11-12 10:10:05 19667

原创 R入门25招

第一招:下载和安装R问题:要把R安装到自己的电脑上。解决方案:Windows和OS X用户可以从CRAN(Comprehensive R Archive Network)上下载R。Linux和Unix用户则可以用各自的包管理工具安装R软件包。Windows在浏览器中打开http://www.r-project.org/。点击“CRAN”。然后会看到按国家排序的镜像站

2012-10-20 17:30:26 8213 1

原创 Linux环境下安装R

在Ubuntu中,是用apt-get下载和安装R。需要用sudo命令获得必要的权限:代码 $ sudo apt-get install r-base在Red Hat和Fedora则是用yum:代码 $ sudo yum install R.i386Windows系统还提供了更加方便的图形化包管理器。除了基础包,

2012-10-17 21:35:32 4646

手工遗传算法例子

一步步教你如何手工对遗传算法进行操作,非常好的一份教程,共享给大家。

2013-02-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除