henry860916-CSDN博客

原创知识导航

顶会论文ACL: https://acl2017.wordpress.com/2017/04/05/accepted-papers-and-demonstrations/NIPS：https://nips.cc/Conferences/2017/Schedule?type=PosterICML：https://icml.cc/Conferences/2017/Schedule?type...

2018-03-09 10:51:32 1456 1

原创 eclipse + pydev + spark + hadoop

1. java 安装http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.htmljdk我选择linux x86版本gz注意安装好后，需要更新/usr/bin/java 软连接为解压后的javajava -version要显示下载后的版本号2. eclipse 安装htt

2017-05-24 16:01:30 1153

原创 git 常见问题

1. 正常做项目：git clone http://.....git checkout your-dev-branchscp -p -P 29418 userid@ipaddress:hooks/commit-msg .git/hooks/export EDITOR=vimedit source codegit add . / git rm filepathgit co

2017-05-20 16:59:16 422

前一篇文章主要介绍了dbus调用的流程，及简单的单工通信，这里记录下双工通信的流程，供后续参考。定义dbus名称，路径，接口，方法等。#define TEST_DBUS_A "methodA"#define TEST_DBUS_B "methodB"#define TEST_DBUS_INTERFACE "com.test.hello"#define TEST_DBUS_OBJPATH "/com/test/hello"#define TEST_DBUS_NAME "com.test.hell

2017-05-06 18:50:03 1580

原创 c++ 准则

1. 没有面向对象也可以使用c++，因为c++=c+OO+template+stl，高效编程取决于使用c++的哪一部分特性 2. 尽量少用#definea）const替换常量：const double ration = 2.3;const char* const name="jack";const std::string name("jack");class A{

2017-02-06 16:54:22 366

原创算法考试小结

考试步骤：1. 花15分钟阅读题目，题目信息量大的时候需要注意给定的condition2. 花15分钟解析题目，从简单的case开始分析，分析出处理问题的步骤3. 根据解决问题的步骤尝试套用已有算法： @ 是否是单源最短路径题目：djstra @ 是否是多源最短路径： floyd @ 是否含有负权：bellman ford @ 是否是最小生

2016-07-26 21:15:50 642

原创 DFS 小结

DFS从实现角度看有两种方法：1. 迭代写法：自己实现一个stack，类似bfs的写法，只不过将queue改成stack而已2. 递归写法：基本框架dfs(){ 1. 退出点，例如到达目的点 2. 剪枝点，优化点，当前耗费已经大于之前得到的Answer 3. 循环体，决策项，例如上下左右等} DFS从题型上划分，有两种类型：

2016-07-26 21:02:23 750

原创 Spark PairRDD 行动与数据分区

package edu.berkeley.simple_project;import java.util.ArrayList;import java.util.Arrays;import java.util.List;import java.util.Map;import java.util.Map.Entry;import org.apache.spark.HashPartiti

2016-02-03 19:55:00 1374

原创 Spark RDD 行动

测试过程中会出现大量INFO，影响调试修改conf下log配置文件log4j.rootCategory=WARN, console

2016-01-31 11:42:59 538

原创 Spark RDD 转化

package com.fei.simple_project;import java.util.Arrays;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.

2016-01-30 21:16:22 1666

原创 Spark RDD 转化与行动基础

package com.fei.simple_project;import org.apache.spark.api.java.function.Function;public class ContainsSomething implements Function { private String query; public ContainsSomething(String mquer

2016-01-30 17:22:07 632

原创 spark 命令行环境 python

1. 安装python，安装好后查看python版本$ python --versionPython 2.7.6从下面的pyspark.sh中可以看出，默认是支持2.7的python（spark版本是spark-1.6.0-bin-hadoop2.6）if hash python2.7 2>/dev/null; then # Attempt to use Python 2.7,

2016-01-24 10:09:35 7658

原创基于eclipse maven 开发 spark 集群计算

1. 根据前面的文章，搭建好spark on yarn的集群，即hadoop和spark均搭建成功/usr/local/hadoop/sbin/start-all.sh启动hadoo yarn6661 NameNode7163 ResourceManager7300 NodeManager7012 SecondaryNameNode3119 7512 Jps6795 Dat

2016-01-23 21:51:14 544

原创 Spark on Hadoop Yarn 部署

前提：haoop yarn已经部署完毕，关于hadoop yarn的部署已经在前面文章中说明1. 安装scala下载scala-2.11.7.tgzsudo ln -s /home/tizen/share/software/scala-2.11.7 scalaexport SCALA_HOME=/usr/local/scalaexport PATH=$PATH:$SCA

2016-01-19 19:38:39 539

原创 32 位的hadoop 编译hadoop 2.7.1

1. 安装jdk，直接apt get openjdk-7-jdk2. 安装openssl ，直接apt get openssl3. 安装maven，直接apt get maven4. 安装protobuftar -zxf protobuf-2.5.0.tar.gzcd protobuf-2.5.0 ./configure --prefix=/u

2016-01-17 21:28:03 542

原创 Hadoop Yarn connection refused 警告

$ start-dfs.sh 16/01/17 16:17:04 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicableStarting namenodes on [OpenJDK Cli

2016-01-17 16:18:48 1274

原创 Hadoop Yarn 集群从节点的data node没有启动成功

jps发现主节点的datanode启动成功，但是次节点的datanode没有启动成功发现log如下：the: ssh: connect to host the port 22: Connection timed outOpenJDK: ssh: connect to host openjdk port 22: Connection timed outtizen@datanode's

2016-01-17 15:50:03 1696

原创 Hadoop Yarn集群主节点的 data node没有启动成功

在启动hadoop集群的时候，jps发现主节点的data node没有启动。首先查看loggedit /usr/local/hadoop/logs/hadoop-tizen-datanode-samsung.log如下：capacity-scheduler/*.jarSTARTUP_MSG: build = https://git-wip-us.apache.org/r

2016-01-17 14:47:59 2813

原创 hadoop Yarn 搭建集群时错误主节点 NameNode 没有启动成功

执行start-dfs.sh发现namenode没有启动成功，查看日志后发现如下错误2016-01-17 14:32:11,562 INFO org.apache.hadoop.util.GSet: Computing capacity for map NameNodeRetryCache2016-01-17 14:32:11,562 INFO org.apache.hadoop.

2016-01-17 14:06:57 2577

原创 Hadoop Yarn 集群搭建

1. 服务器部署192.168.0.101 主名字节点192.168.0.101 备名字节点192.168.0.101 数据节点1192.168.0.102 数据节点22. /etc/hosts 设置192.168.0.101 namenode192.168.0.102 datanode3. ssh 免密码登录$ ssh-keygen -t

2016-01-17 14:04:36 577

原创 jersey 基于tomcat web service 开发 restful service

1. 安装好jdk2. 根据前面的文章介绍，创建好tomcat运行时环境3. 这里对tomcat的配置重点提出来，以避免本人在实验的时候遇到的众多诡异问题tomcat解压后有RUNNING.txt。根据里面的guide，大家需要配置好以下内容CATALINA_HOME的环境变量为E:\apache-tomcat-8.0.30CATALINA_BASE不需要设置JAVA_

2016-01-07 20:44:35 643

原创 python 的打包及安装 distutils

命令如下：python setup.py --help-commands python setup.py sdist 创建一个源码包发布 python setup.py bdist 创建一个二进制包发布以什么样的格式打包zip，tar，rpm 可以通过以下命令查看：python setup.py sdist --help-formatspython setup.p

2015-12-31 21:14:28 1789

原创 CMake 创建静态库及动态库供函数调用

CMake 创建静态库及动态库供函数调用，下面是项目的树状图.├── cmake_fei│ ├── build│ ├── CMakeLists.txt│ ├── doc│ │ ├── readme.txt│ │ └── CMakeLists.txt│ ├── libhello│ │ ├── CMakeLists.txt│ │ ├

2015-12-31 20:21:38 5688 1

原创 rpmbuild spec CMake 创建项目的rpm 包

rpmbuild spec CMake 创建项目的rpm 包，下面是项目的树状图.├── cmake_fei│ ├── build│ ├── CMakeLists.txt│ ├── doc│ │ ├── readme.txt│ │ └── CMakeLists.txt│ ├── libhello│ │ ├── CMakeLists.txt

2015-12-31 20:10:29 1938

原创 DBus 实现IPC的配置及流程及代码实现

com.test.hello.service,安装到dbus系统目录下[D-BUS Service]Name=com.test.helloExec=/bin/falseSystemdService=hello.servicehello.service,安装到systemd下[Unit]Description=hello[Service]Type=dbusBusNam

2015-12-31 20:06:03 2139 1

原创 Linux 多线程网络编程管道 socket等相关心得

1. IPC信号量：ftok,semget/semctl/semop信号:signal截取信号，可以自定义管道:pipe,fd0,fd1,read/write，一边关闭读，一边关闭写，半双工消息队列:ftok,msgget/msgctl共享内存:ftok,shmget/shmat/shmdt，最快套接字：socketDBUS：消息总线，重量级2. 睡眠Sleep

2015-12-31 09:04:45 663

原创利用后缀数组前缀 LCP最长公共前缀求第K大的子串

下面借助一道题目和大家一起讨论：后缀树及后缀数组的问题题目：food所有的组成情况如下：d ffofoofoodoodooood按照字母顺序排列如上所示，先要求第k大的子串，例如第8大子串为oo思路：蛮力就不说了，高级别考试肯定超时。这种题目是典型的利用后缀树和后缀数组解决的。1. 将所有后缀列出来（prefix set）

2015-12-30 14:28:41 1101

原创 CMake 包含了头文件找到了so动态库链接时仍然出现undefined reference to 错误

今天遇到一个CMake 链接问题，这里提出来和大家分享：问题：自己用C语言写了一个动态:libword-counter.so，公开头文件word-counter.h, 其中有函数如：wc_get_word_freq()自己用C++语言写了一个测试工程，在main函数中调用上述库函数wc_get_word_freq。结果出现undefined reference to 的错误分析

2015-12-30 13:59:03 25612 5

原创 Python---http

import urllib.request as urimport http.client as hcimport httplib2import urllib.parse as updef http1(): print('==========http1================================') url='http://www.njzz.gov.cn/Pad/

2015-12-28 20:12:18 317

原创 Socket---基于IO复用实现异步非阻塞通信 Python群聊工具

服务器端程序：import socketimport signalimport selectMAX_LISTEN_N = 100MAX_BUFFER_N = 1024mconnections = {}addresses = {}datalist = {}IP_ADDR = '192.168.1.2'PORT = 4547def remove_fd_data(fd):

2015-12-28 19:48:48 765

原创子集subset问题

子集subset问题字集即组合的集合例如求ABCD的字集，即求ABCD中任取0个的情况+ABCD中任取1个的情况+ABCD中任取2个的情况+ABCD中任取3个的情况+ABCD中任取4个的情况。遇到字集问题，首先想到暴力求法，即所有元素均有两种情况：取或不取。因此暴力求法可以使用四层for循环解决上述问题。然而是否有更简单的方法？答案显然是肯定的，即利用前面

2015-12-23 20:48:54 506

原创位操作在算法中的运用

1. 与操作&100 & 111 = 100 2. 或操作|100 | 000 = 100 3. 异或^100 ^ 000 = 100 4. 取反~~100 = 011 5. 向左移位1即2的2次方，等于4 6. 向右移位>>16>>2 = 00100即16的2的-2次方，等于4 note1：移位和与操作结合，用来

2015-12-23 19:46:31 409

原创拷贝anaconda环境，替换绝对地址

find . -type f -exec sed -i 's/\/home\/tizen\/anaconda3/\/data\/aif\/common\/conda-share/g' {} \;find . -type f -exec sed -i 's/common36/py36/g' {} \;find . -type f -exec sed -i 's/\/home\/tizen...

2019-08-26 20:07:32 579

原创 test

https://www.jianshu.com/p/97cb3b6db573

2019-02-23 20:55:27 149

原创 Kaggle solution 1: Mercari Price Suggestion Challenge

import pandas as pdimport numpy as npimport scipyimport mathimport timefrom sklearn.linear_model import Ridge, LogisticRegressionfrom sklearn.model_selection import train_test_split, cross_val_

2018-02-07 10:07:11 841

原创 kaggle---titanic

import numpy as npimport scipy as spimport matplotlib.pyplot as pltimport pandas as pdfrom pandas import *from test import *from pandas import DataFramefrom sklearn.ensemble import RandomFore

2018-02-06 10:58:34 304

原创 AI

Good resources I used to use ^^机器学习coursea课程：AndrewNg https://www.coursera.org/learn/machine-learning#syllabus 机器学习实战（Peter）:https://book.douban.com/subject/24703171/ 机器学习（周志华）：https://book.douban

2018-02-05 21:05:17 402

原创 kaggle base line: Mercari Price Suggestion Challenge

import mathimport numpy as npimport scipy as spimport matplotlib.pyplot as pltimport pandas as pdfrom pandas import *import sklearnfrom sklearn.preprocessing import *from sklearn.feature_sel

2018-02-05 20:31:39 556

转载 flask rest

转载于：https://www.cnblogs.com/knarfeh/p/5616515.html环境简介Ubuntu我使用的 Ubuntu 系统版本是 14.04，用过几个 Linux 发行版，现在挑选系统的第一选择基本就是 Ubuntu 了，因为 Ubuntu 有商业公司Canonical 做开发维护；使用的人多，有庞大的社区支持；遇到问题容易解决。我折腾过很长时间的

2017-11-16 11:34:40 618

转载 rest/flask/nginx/uwsgi/supervisor

感谢原文作者http://www.cnblogs.com/Ray-liang/p/4173923.html?utm_source=tuicool&utm_medium=referral我采用的部署方案是：Web 服务器采用 uwsgi host Flask用 Supervisor 引用 uwsgi 作常规启动服务基于 Nginx 作反向代理首先, 阿里云服务器可以通过 SSH 指令在本机的终端进

2017-11-16 11:23:07 463 7

c c++ chm api手册

空空如也