自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 资源 (1)
  • 收藏
  • 关注

转载 python的json.dumps中文问题

python的json.dumps方法默认会输出成这种格式"\u535a\u5ba2\u56ed",。要输出中文需要指定ensure_ascii参数为False,如下代码片段:json.dumps({'text':"中文"},ensure_ascii=False,indent=2)

2016-06-22 10:08:58 792

转载 开源复杂网络分析软件中社团发现算法总结

开源复杂网络分析软件中社团发现算法总结2014-03-15 11:19 2299人阅读 评论(0) 收藏 举报 分类: NetworkX学习笔记(5) 原文:http://blog.csdn.net/qysh123/article/details/21278403?utm_source=tuicool&utm_medium=referral

2016-05-31 10:03:41 2684

转载 spark job运行参数优化

spark job运行参数优化一、问题      使用spark join两张表(5000w*500w)总是出错,报的异常显示是在shuffle阶段。14/11/27 12:05:49 ERROR storage.DiskBlockObjectWriter: Uncaught exception while reverting partial writes to file

2016-05-27 15:39:55 750 1

转载 spark实现Map-side Join和Reduce-side Join

在大数据处理场景中,多表Join是非常常见的一类运算。为了便于求解,通常会将多表join问题转为多个两表连接问题。两表Join的实现算法非常多,一般我们会根据两表的数据特点选取不同的join算法,其中,最常用的两个算法是map-side join和reduce-side join。本文将介绍如何在apache spark中实现这两种算法。(1)Map-side Join

2016-05-27 15:34:40 734

转载 mysql下如何执行sql脚本

首要步骤(一般可省略):开启mysql服务(默认是开机时就自动运行了):控制面板-->管理工具-->服务,在里面找到名称为mysql的项,双击就可看它的服务状态是启动还是停止,把它设为启动连接mysql:在命令行下输入 mysql -h localhost -u root -p回车,然后输入密码即可;或直接运行mysql自带的连接工具,然后输入密码即可.1.编写sql脚

2016-05-27 15:04:30 322

转载 在spark中操作mysql数据 ---- spark学习之七

在spark中操作mysql数据 ---- spark学习之七使用spark的 DataFrame 来操作mysql数据。DataFrame是比RDD更高一个级别的抽象,可以应用SQL语句进行操作,详细参考:https://spark.apache.org/docs/latest/sql-programming-guide.html 这里暂时使用spark-shell进行操

2016-05-27 10:34:53 307

转载 浅谈对于RDD的认识 RDD(Resilient Distributed Datasets)弹性分布式数据集,是在集群应用中分享数据的一种高效,通用,容错的抽象,是Spark提供的最重要的抽象的概念

浅谈对于RDD的认识RDD(Resilient Distributed Datasets)弹性分布式数据集,是在集群应用中分享数据的一种高效,通用,容错的抽象,是Spark提供的最重要的抽象的概念,它是一种有容错机制的特殊集合,可以分布在集群的节点上,以函数式编操作集合的方式,进行各种并行操作。RDD是只读的,不可变的数据集。RDD也是容错的,假如其中一个RDD坏掉,RDD中有记录

2016-05-15 22:25:03 875

转载 小括号与花括号小括号与花括号

scala雾中风景(2): 小括号与花括号2条回复下面的问题,表面上看是小括号与花括号的问题。// map方法这样写不能编译通过scala> List(2).map( case 2 => "OK" )// 换做花括号就可以了scala> List(2).map{ case 2 => "OK" }不了解原因的话,觉得很诡异。分析一下,首先,map方法接受一个

2016-05-05 17:22:29 1547

转载 java.net.NoRouteToHostException: No route to host

另外两个从结点也没有问题,此处略去。经过对比验证,都没有问题。其实,我已经想到可能是防火墙的问题,经过查证,终于找到了有人曾经遇到过该问题,可见文章http://samwalt.iteye.com/blog/1099348,需要关闭防火墙,在集群中每台机器上都执行如下命令:[plain] view plain copy

2016-05-02 20:23:53 1572

转载 spark单机部署问题

spark单机部署问题 (2015-02-27 15:39:33)转载▼标签: spark 单机部署 nettytransport分类: spark1.端口不能绑定15/02/27 16:14:36 INFO Remoting: Starting remoting15/02/27 16:

2016-04-07 21:38:15 583

转载 linux公钥

注意:需要关闭selinux,以及文件权限在两台linux主机上由于环境的需要,经常要配置两台主机之间免密码登录,这就要用到key认证,也就是所谓的公私钥认证。便于理解,我这里指定两台主机为 A 和 B 。如果A主机想免密码登录到B主机上,则A主机上存放私钥,B 主机上存放公钥。通过ssh-keygen 命令生成的两个文件为:公钥文件 ~/.ssh/id_rsa

2016-01-16 22:15:07 949

转载 gdb 安装

linux gdb安装步骤如下:1. 首先可以使用命令“ rpm -qa |grep gdb"查询系统中是否安装了gdb软件包,如果安装了,应该显示如下:[root@localhost ~]# rpm -qa |grep gdbgdbm-1.8.0-26.2.1gdb-6.8-37.el5gdbm-devel-1.8.0-26.2.12. 如果系统没有安装gdb软件包

2015-11-05 14:54:10 615

原创 activemq-cpp 例子编译

编译:在linux编译直接使用命令编译例子程序。g++ -o main -pthread -I ../main main.cpp -I /usr/local/apr/include/apr-1/ /usr/local/lib/libactivemq-cpp.a /usr/local/apr/lib/libapr-1.a转载官网Dependencies

2015-10-29 10:42:41 1001

转载 python的类属性和实例属性

python的类属性和实例属性今天一同事说踩了python的坑, 这确实是个“坑”但是我觉得python之所以这样设计,就是明确要求写代码的人知道自己在写什么^ ^ python的实例属性必须在__init__(self) 方法中定义,直接跟在类名后边定义的属性都默认是类属性(类似于c++的static变量)。而python实例又可以灵活的随便增加属性,便出现了图片中看

2015-10-22 14:42:14 346

转载 python 传值与引用问题

和其他语言不一样,传递参数的时候,python不允许程序员选择采用传值还是传引用。Python参数传递采用的肯定是“传对象引用”的方式。实际上,这种方式相当于传值和传引用的一种综合。如果函数收到的是一个可变对象(比如字典或者列表)的引用,就能修改对象的原始值--相当于通过“传引用”来传递对象。如果函数收到的是一个不可变对象(比如数字、字符或者元组)的引用,就不能直接修改原始对象--相当于通过“传值

2015-10-21 15:51:32 548

转载 python 模块概念

Python类、模块、包Python在处理功能复用和功能颗粒度划分时采用了类、模块、包的结构。这种处理跟C++中的类和名字空间类似,但更接近于Java所采用的概念。类类的概念在许多语言中出现,很容易理解。它将数据和操作进行封装,以便将来的复用。模块模块,在Python可理解为对应于一个文件。在创建了一个脚本文件后,定义了某些函数和变量。你在其他需要这些功能的

2015-10-09 10:38:50 386

转载 ZooKeeper基本原理

ZooKeeper是Hadoop Ecosystem中非常重要的组件,它的主要功能是为分布式系统提供一致性协调(Coordination)服务,与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper,第一部分介绍ZooKeeper的基本原理,第二部分介绍ZooKeeper提供的Client API的使用,第三部分介绍一些ZooKeeper典型的应用场景。

2015-09-18 17:33:45 390

转载 kafka介绍

Kafka独特设计在什么地方?2.Kafka如何搭建及创建topic、发送消息、消费消息?3.如何书写Kafka程序?4.数据传输的事务定义有哪三种?5.Kafka判断一个节点是否活着有哪两个条件?6.producer是否直接将数据发送到broker的leader(主节点)?7.Kafa consumer是否可以消费指定分区消息?8.Kafka消息是采用Pull模式,还

2015-09-11 16:19:46 568

转载 ActiveMQ的queue以及topic两种消息处理机制分析

Q来作为jms总线,并且给大家介绍了activeMQ的集群和高可用部署方案,本期给大家再介绍下,如何根据自己的项目需求,更好地使用activeMQ的两种消息处理模式。       1    queue与topic的技术特点对比 TopicQueue概要Publish Subscribe messaging 发布订阅消息

2015-09-10 11:13:48 4426 1

转载 Linux下安装maven

1.首先到Maven官网下载安装文件,目前最新版本为3.0.3,下载文件为apache-maven-3.0.3-bin.tar.gz,下载可以使用wget命令;2.进入下载文件夹,找到下载的文件,运行如下命令解压tar -xvf  apache-maven-2.2.1-bin.tar.gz解压后的文件夹名为apache-maven-3.0.33.使用mv命令将apa

2015-09-08 17:24:53 342

转载 CentOS 6.3 手动rpm包安装gcc、g++

CentOS 6.3 手动rpm包安装gcc、g++首先到http://vault.centos.org/6.3/os/x86_64/Packages/下载用到的rpm包,包括:ppl-0.10.2-11.el6.x86_64.rpm 、cloog-ppl-0.15.7-1.2.el6.x86_64.rpm 、mpfr-2.4.1-6.el6.x86_64.rpm 、cpp-4

2015-09-08 17:17:03 754

转载 rz: command not found

前一段时间,安装了centos5.2版本的linux。不知道是没有安装完全,还是版本的问题。安装完centos5.2,在使用SecureCRT软件连到linux的文字界面下,从windows向linux传资料时,提示错误信息,“rz: command not found”      下面就介绍一下rz的安装。     在linux下安装rz很方便,使用yum install lrzsz  

2015-09-06 15:34:04 1602

转载 RedHat 6 yum 使用网易源

刚装好了 RedHat 6 系统,但是使用 yum 的时候总是提示 nothing to do,并且什么都做不了。后来经过一番搜索才知道,红帽的 yum 在线更新是收费的,而且必须注册系统之后才能使用。之前使用 Ubuntu 的时候由于国外的 apt-get 源过慢是可以更新国内的源的,LZ经常用的就是网易的源或者是某些高校的源。于是乎LZ便想到了更换 yum 的源来解决这个问题。

2015-09-06 15:30:30 384

转载 关于免费解决RedHat6.5的:This system is not registered to Red Hat Subscription Managemen

redhat默认自带的yum源需要注册,才能更新,报错:This system is not registered to Red Hat Subscription Management. You can use subscription-manager to register.可替换为centos对应的源。 操作如下:1.检查是否安装yum包。查看RHEL是否安装了yum,若是

2015-09-06 15:19:26 12641

IKAnalyzer2012_u6

IKAnalyzer2012_u6

2016-06-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除