自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 资源 (2)
  • 收藏
  • 关注

原创 根据股票涨跌用KMeans进行分类

今早刚得到一份2890支股票2013年9月30日至今的交易数据,数据量还行,共有170m左右。趁着热乎劲,想做一些分析。分析思路很简单,就是通过股票的涨跌情况,进行聚类分析。看看哪些股票种类是相似的,对于一些异常的股票,可以进一步挖掘分析。这里用到的算法是KMeans。KMeans的原理很简单,这里就不详述了,不清楚的同学请使劲戳这里KMeans主要的参数主要有这几个:k(中心点的个数),iter(

2016-09-28 15:25:52 4033 1

原创 FTP数据入库Hive

哦哦哦,我本是对数据挖掘有着无限的兴趣,现在却从事大数据处理的工作,但是上班是上班,平时依然奋发向上,自学机器学习的东西。但是作为一名非常合格的员工(哈哈,很有不要脸的气质,这很Sunnyin),不能总是在自己博文中记录其他的学识吧,万一哪天被老大看到,岂不得让我雨露均沾,受得万般恩宠。。。。好了,今天的废话又是说的如此到位,下面进入正题。也就是我现在的这个loooooooooooow项目的数据处理

2016-09-10 20:13:22 3281

原创 通过多项式来拟合股票收盘价的趋势图

最近在研究Numpy,其功能非常强大,通过线性代数运算避开了很多的循环,从而使计算效率得到了明显的提高。 接下来,我就简单讲解一下,如果通过numpy构造多项式来拟合股票收盘价的趋势图。(如果有哪位朋友对这篇博文有兴趣,希望能够留下您的宝贵建议,我们一起交流学习。)手上有一份数据,是创业环保(股票代码:600874)在8月份的交易行情数据: 其中第4个字段为每天的收盘价。 通过numpy中

2016-09-10 19:18:39 7123 1

原创 python爬虫——构建代理ip池

今年6月份开始的自己的数据分析项目,到现在已经快3个月的时间了。因为中间停歇了两个月的时间,导致现在依然滞留在数据采集那一部分,还好这两天又有了时间来折腾折腾。 我看到有网友说利用python Scrapy框架可以很方便,并且可以伪造ip,以来防止网站的反爬虫,但是我想把python的爬虫工具都过一遍,所以在开始阶段代码有些冗余、粗糙。 还需不断的改进,嗯,github是个很好的工具。数据采集这

2016-08-29 19:34:08 2803 2

原创 python:网络爬虫入门经验总结大大大大全

已经有一个多月没有看书了,最近想入手几本可口的书,可是鉴于本人有着强烈的选择恐惧症,所以就想到了豆瓣读书 但是豆瓣读书不能根据评分来筛选书籍,所以就想通过爬虫来把豆瓣读书中某一类别的书籍只要评分大于9.0的都筛选出来,并且为了能够准确找出,还实现了下载封面。 好,需求出来了。以下是初步的流程图: 通过查看豆瓣读书的的源代码可以很容易发现其链接规则: 对于每个链接的处理,有三种方法:

2016-05-28 22:19:51 2483

原创 hadoop集群搭建——轻松版

#首先编写 ssh 脚本,然后去每台机器上执行 1.sh 2.sh#注意:在每台机器上执行完相同脚本号的脚本之后才可以执行下一个脚本。#相同脚本好的脚本可以同时运行。

2015-10-26 01:22:55 364

Learn Python The Hard Way (3rd Edition)

非常牛的python学习法宝

2016-04-29

hadoop_API集合

HADOOP api,可以更好的编写java脚本,制胜法宝!

2015-10-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除