happen_chen-CSDN博客

原创 PyHusky处理属性图数据生成——由XML文件到完整图形为例

目前为止，网络上能找到的关于large attributed graph的数据集还非常少。更多的是单纯的关系图，这样就缺少了必要的属性数据。所以我们需要在获得原始数据后，再经过一系列数据计算处理得到我们所要的图数据。下面我将提供已经处理好了的三组完整属性图数据的下载链接，同时利用前面讲过的PyHuksy来介绍其中的一组数据的生成过程。Tencent_GraphDBLP_Journal_Graph

2017-04-03 21:04:56 30190 1

原创 Husky数据分析——全球航班信息的研究

在莱特兄弟制造了第一架可控飞机100年后的今天，坐飞机已然成为了大众化的出行方式。可是我们大多数人对航空领域的相关情况了解得还并不多，例如历史上各国航空器制造公司的兴衰、全球各个机场的繁忙程度，和每家航空公司的准点率，还有每家公司的机龄分布和飞机利用率等等问题。为了揭开这一切，几个月前连续跟踪来自https://www.flightradar24.com的全球航空飞行记录。由于飞行记录

2017-01-13 12:04:31 27169 4

原创 Husky数据分析——关于最近房子在强力限购下的趋势分析

在去库存的大背景下，2016年一二线城市的房价经历了一场逆势疯狂上涨的大戏，使得许多城市从10月份开始不得不相继出台了号称史上最严的限购措施。与此同时，美联储加息消息不断使得美元强势，人民币对美元的汇率加速贬值，直逼7.0关口。加上股市经历两次断崖式暴跌至今元气大伤，在外围市场总体向好的情况下中国股市还未能走出低迷状态，使得大量资金流向海外。严格的限购和资金的大量外流是否会遏制房价过快上涨的趋势，

2017-01-12 01:55:49 30825 4

原创 Husky数据分析——招聘信息背后的潜规则揭秘

每天新闻中都可以看到各种各样的排行，和数不尽的好玩的结论。可是有很多时候我们看到某些数据结论时，总会激发我们质疑精神，有时是对于数据取样的片面性的怀疑，有时也有不满足于数据的小众化的遗憾。恰好目前我们实验室正在开发下一代的更高效的husky分布式计算平台，一来出入对数据全面性和真实性的追求以及隐藏在数据背后各种结论关系的好奇，二来也为了验证husky强大的高效快速的数据分能力。工具在手天下我有

2016-12-13 16:43:13 39250 13

原创 Husky分布式系统使用向导

本向导是为了更加方便的使用文档，加强对Husky的总体了解，达到快速熟悉并利用其来进行各类分布式计算的目的。初衷Husky项目旨在建立一个更具有表达能力和更高效的分布式数据分析系统，为世界提供一个更方便高效的大规模运算模式。高效: 同等硬件资源下具有更优秀的性能Husky设计并实现了一个高度优化的执行引擎，以求在有限计算资源之上取得更好的性能。Husky的计

2017-06-07 13:30:20 1280

翻译 Husky中文文档-C++ Husky 例子

Husky团队已经使用Husky's C++ API开发了许多分布式的大数据应用，包括基本的MapReduce应用，分布式机器学习和图计算。未来Husky团队将会推出更多应用。下面给出了Husky目前可用的应用列表，它们放在examples/目录下:als.cppbasic-pca.cppbm25.cppdbscan.cppk-bfs.cppkmeans.cpplinear_regres

2017-05-31 20:04:59 5240

翻译 Husky中文文档-C++ Husky Broadcast 和 Request 指南

Husky提供了broadcast/get_response APIs，用于广播变量给集群中所有的worker。在某些情况下，广播变量比使用send_message更加高效。Husky 还提供了request/list_reply/get_response APIs来向特定的对象发送获取某些变量值的请求。broadcast/get_response以下例子使用broadcast A

2017-05-31 20:03:57 4002

翻译 Husky中文文档-C++ Husky Combiner 指南

CombinerCombiner 基础Husky中的combiner在消息发送出去之前进行聚合，从而降低消息量。当使用combiner时，来自同一台机器的拥有相同的key的所有信息将被聚合成一条消息。不使用combiner的情况下发消息：Husky::send_message(1, w, w_list); // (Msg, Key, Obj_List)

2017-05-31 20:02:42 4279

翻译 Husky中文文档-C++ Husky 基础

纲要一个c++ husky程序的框架如下：void job() { // work ...}int main(int argc, char ** argv) { Husky::run_job(job, argv[1]); return 0;}我们在job函数中实现程序逻辑。首先，我们需要在程序的开头创建一个husky worker.

2017-05-31 20:01:36 5614

翻译 Husky中文文档-C++ Husky Aggregator 指南

Aggregator在list_executes过程中聚合数值。一个aggregator就像是整个集群中的一个全局变量。使用介绍头文件: #include "lib/dcaggregator.hpp"创建一个aggregator: Husky::Aggregator agg(InitValue, [](ValueType & old, const Val

2017-05-31 19:59:35 5179 1

原创量化交易——传统技术分析布林通道BollingerBands的原理及实现

布林通道布林通道线是根据统计学的标准差来计算的，其具体可由上中下三条曲线展示。其中上下两线分别代表上升压力线和下降支撑线，故而可以根据K线图是否突破布林曲线来判断较好的买卖节点。三条曲线计算方法如下：中轨线(MID)=收盘价的M日移动平均线; 上轨线(UPER)=中轨线+N倍的标准差; 下轨线(LOWER)=中轨线-N倍的标准差.、实现某些分析过程可以参考前面的博文，量化交易——传统技术分析相对

2017-05-15 19:36:28 12740

原创量化交易——传统技术分析顺势指标CCI的原理及实现

顺势指标CCI唐纳德·蓝伯特于上世纪80年代提出比较新颖的顺势指标CCI，其引进了价格与固定期间的股价平均区间的偏离程度的概念，强调股价平均绝对偏差在股市技术分析中的重要性。CCI有两个与大多数常见的分析指标不一样的特点，第一个是其并非只利用股票的单一数据特征，第二个是指标波动于正无穷与负无穷之间而0并不代表它的中轴线。计算方法： CCI（N日）=（TP－MA）÷MD÷0.015 其中， TP

2017-05-15 19:08:28 16652

原创港中大教授James招收机器学习理论方向全奖博士生

[我们团队招聘博士博士后，碩士，实习生或研究助理，专攻分布式系统与算法，欢迎各位同学咨询和转发]香港中文大学计算机学院教授James Cheng招收2018年入学机器学习理论方向全奖博士生。欢迎热爱机器学习，数学基础扎实，具有一定编程实现能力的同学加入。http://www.cse.cuhk.edu.hk/~jcheng/了解团队详情，邮箱[email protected]，或加微信yanxiao662

2017-05-11 12:01:51 12464

原创量化交易——传统技术分析随机震荡指标STO的原理及实现

随机震荡指标STO(KD)与MACD类似的是，STO同样地使用了两条曲线来表示，不同的是STO的曲线范围限制在0到100之间。在设计的过程当中，其不仅要研究其收市价，同时还要包括近期所出现过的最高价及最低价等。这样的设计可以综合了动量观念和RSI及移动平均线的各个优点。作为一款动量技术分析方法，其主要的目的是判断是否进入了超买或超买的状态，从而帮助投资者预知价格逆转的时机。实现分析过程可以参考前面的

2017-05-08 22:12:46 15016 1

原创量化交易——传统技术分析平滑异同移动平均线MACD的原理及实现

指数平滑异同移动平均线MACDMACD是股票交易中常见的一个技术分析工具，同时也是一个我认为分析可执行度高并且效果优秀的一种手段。其是于1970年代由Gerald Appel提出，它主要是利用了双指数移动平均线，即是求得一条快速的指数移动平均线EMA12和一条慢的指数移动平均线EMA26，再进行相减得到差离值DIF。进而将得到的DIF取9日加权移动平均DEA，最后得到MACD。MACD指标由一组曲线

2017-05-08 13:28:31 13461

原创量化交易——传统技术分析能量潮指标OBV的原理及实现

能量潮指标OBV股市分析中有四个要素，分别是价、量、时、空。其中OBV便是从成交量作为分析的突破口。它反映的是在股市起伏波动时相关的市场人气变化，可以用来判断股市是否处于有较强的想上冲的牛市中还是即将要踏空。成交量越大，反映的是市场判断不一致程度越强，而这会如何影响股价走势则是研究的重点。实现分析过程可以参考前面的博文，量化交易——传统技术分析相对强弱指数RSI的原理及实现。相关代码如下：imp

2017-05-08 03:16:16 15557 4

原创量化交易——传统技术分析相对强弱指数RSI的原理及实现

量化交易本质上是一种基于统计与概率的计算机运算策略。通过对历史大量的数据进行不同组合的量化策略运算，寻找投资方向和确定买卖时机。随着大环境的改变，策略必然需要变动调整，但我们不变的目标便是执着地寻找出适合当下获利概率最大所对应的投资策略。技术分析相对强弱指数(Relative Strength Index,RSI)1. 原理RSI从本质上来讲，是根据一段时间内的价格涨跌情况来反映市场的多空程度。其通

2017-05-07 03:54:35 17474 2

原创遥想宇宙

昨晚看到人民的名义中说到连城胸怀宇宙，大彻大悟。哈，就想把中学时期胸怀宇宙的文章原文贴了出来：某人很小很小的时候,曾幻想着能够飞向天空,到那神秘的美丽的可爱的天堂摘下自己渴望的那颗星星。很多时候，包括在梦里，都想童话故事般天真地想象自己拥有那么一颗星星，能够永远作为最亮的夜明珠放在自己地床头。但年龄似乎粉碎了这些幼稚的想法，冷冰冰的“真实”的宇宙观却乗虚而入。也许还是年龄在搞鬼，处在幼稚和

2017-04-12 00:44:35 12348

原创分布式网络爬虫实例——获取静态数据和动态数据

前言刚刚介绍完基于PyHusky的分布式爬虫原理及实现，让我们具备了设计分布式网络爬虫方便地调动计算资源来实现高效率的数据获取能力。可以说，有了前面的基础，已经能够解决互联网上的绝大部分网站的数据获取问题。下面我将以正常模式爬取某地产网站上相关的新房、二手房和租房信息；然后使用selenium来抓取动态数据来分别介绍两种类型网站的分布式网络爬虫的实现：实例由于前面已经设计好了实现分布式爬虫的框架，它

2017-04-11 14:51:10 17083 2

原创机器学习：KNN归类算法实现验证码识别

算法简介KNN（K Nearest Neighbor）是机器学习中非常经典的，同时也容易理解的算法。与K-Means算法用于聚类不同的是，KNN是为事物的归类而生的。简单地说，就是知道一批事物的数据特征及各自所属的分类，来根据一个新事物的数据特征来判断其最大可能归属于其中的哪一类的过程。这个判断依据即是计算欧式距离，得到新数据特征向量与原有数据特征向量距离最小的前K个事物所属的分类，得到的这些分类中

2017-04-10 20:38:45 28280 8

原创基于PyHusky的分布式爬虫原理及实现

原理爬虫是我们获取互联网数据的一个非常有效的方法，而分布式爬虫则是利用许多台机器协调工作来加快抓取数据效率的不二途径。分布式爬虫是由访问某些原始网址开始，在获取这些网址的内容后，根据某些规则从中提取出下一轮的爬虫网址。依此类推，直到将全部链接访问完毕或达到我们设置的某些限定方可结束。这里我们需要选定一个运算效率较高的机器作为master, 和一群正常的workers来协助。这个master要负

2017-04-06 17:14:01 31965 3

原创获取全球各大证券交易所的全部股票交易信息

幻想过这样的两种能力，一是回到过去，二是预见未来。时间逆转回到过去，这更多的是在文艺作品中能够出现的情节。而预见未来，我们正在努力，希望可以更准确地预见更长时间内更多的细节。例如在瞬息万变的股票交易市场中，我们可能会利用NLP来判断股市舆情，或者借助机器学习的方法来预测股市行情大势，又或者可以通过大数据找出不同股票间的隐性关联，从而获取正确的投资策略。而实现这一切，都需要大量数据来支撑我们的试验，在

2017-03-28 20:43:42 29789 7

原创 Python分布式爬虫前菜(2):关于提取网页源码中特定信息的技巧

前面介绍了不同方法来获取静态和动态各类网页源码，可是我们知道网页源码是夹杂着文字和代码的让人非常眼花缭乱的信息。如何从中提取出有用的信息是一次有意义的爬虫过程中不可避免的问题。这里我们需要快速简洁的工具帮我们完成，其中就有re，BeautifulSoup和XPath等优秀代表。闲话不说，直接进入主题：（一）re(regular expression operations)，即我们常说的正则表达

2017-03-06 16:07:34 15535 3

原创 Python分布式爬虫前菜(1):关于静态动态网页内容获取的N种方法

爬虫是快速获取我们需要的数据的一个有效途径，而第一步便是要请求远方服务器为我们返回对应的网页信息。我们知道，正常情况下在浏览器上我们只要输入正确的统一资源定位器url，即网页地址便可轻松打开我们想要看到页面。同理，在设计python爬虫程序时，我们也可以调用对应的库通过参数设置来连接网络处理http协议。

2017-03-02 23:47:57 18475 3

原创 PyHusky接口功能及实例介绍

这里假设已经在集群上成功部署了Husky并且已为PyHusky编译成功所需的后端运用程序Master和Daemon。假如情况不是这样，可以参考PyHusky快速开始。#首先启动Master：./Master conf/myhusky.conf #在另一个窗口，if配置文件myhusky.conf指向单机环境，则如下启动单机Daemon：./Daemon conf/myhusky.conf

2017-02-23 11:56:20 22879 3

原创 Husky简介及如何利用PyHusky进行数据分析计划

介绍Husky项目旨在建立一个更具有表达能力和更高效的分布式数据分析系统。高效: 同等硬件资源下具有更优秀的性能Husky设计并实现了一个高度优化的执行引擎，以求在有限计算资源之上取得更好的性能。Husky的计算模型支持快速并高效地实现各类算法。通用: 可于统一的平台上开发各类应用Husky支持广泛的应用，其中包括MapReduce的ETL，

2017-02-23 09:40:54 15411

翻译 Husky中文文档-PyHusky 架构

PyHusky Architecture本节介绍husky的架构，其中包括前端和后端。PyHusky 前端在PyHusky前端，几乎所有的运算符如map，flat_map和reduce 等都属于DAG的节点，定义了对PyHuskyList中objects的转换。例如， b = a.map(func) 将从PyHuskyList a 返回一个新的PyHuskyList b

2017-02-22 13:29:50 17364 2

翻译 Husky中文文档-PyHusky 运算符

Pyhusky OperatorsPyHusky支持三种运算符： Load, Transformation, 和 Action.通畅情况下，一个PyHusky程序首先使用Load运算符.PyHusky 采用lazy evaluation技术, 所有 Loads 和 Transformations 的运算将会被推迟，以避免不必要的计算和提高性能。 Action 操作才会真正触

2017-02-22 13:16:24 15357

翻译 Husky中文文档-部署

部署依赖Husky依赖以下软件包：CMakeZeroMQ (libzmq and cppzmq)Boost一种C++编译器(clang/gcc/icc/MSVC)TCMallocPSSH部分可选择的依赖：Hadooplibhdfs3HBaseKafkaMongoDBHusky已经实现了与HDFS，MongoDB，HBase，Kafka的对接，并在添加

2017-02-22 13:04:02 17566 1

翻译 PyHusky快速开始

快速开始构建本节假设Husky已经被成功部署。若Husky还未被部署于集群之上，请参照Husky中文文档-部署.编译Daemon后端应用程序.PyHusky需要编译Maser和Daemon。在构建目录，使用 make Master 编译Master 和 make Daemon 编译Daemon。需确保构建目录已经被cmake正确创建。启动

2017-02-22 12:26:27 16602 3

陈海鹏的博客