自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 资源 (7)
  • 收藏
  • 关注

原创 WIN10 mscomm32注册,亲测可用

WIN10 mscomm32注册,亲测可用下载控件注册控件下载控件链接:百度云分享提取码:e0i7注册控件Copy MSCOMM32.OCX to C:\WINDOWS\SysWOW64(If you using 32bit Windows to C:\WINDOWS\SysWOW32)Run CMD(as Administrator)regsvr32 /u C:\WINDOWS\SysWOW64\MSCOMM32.OCXregsvr32 /i C:\WINDOWS\SysWOW64\MSC

2021-04-09 00:17:38 2412

原创 spark rdd存储开销分析

背景很多使用spark的朋友很想知道rdd里的元素是怎么存储的,它们占用多少存储空间?本次我们将以实验的方式进行测试,展示rdd存储开销性能。 关于rdd的元素怎么存储,spark里面实现了好几种不同类型的rdd,如最常见的MapPartitionsRDD,它处理map,filter,mapPartition等不引起shuffle的算子;再如ShuffledRDD它由shuffle操作生成的;像G

2016-04-03 16:56:25 3720

原创 rdd算子中能使用rdd的引用吗?

rdd算子中调用的客户函数坚决不能出现任何形式的rdd引用,否则会报很严重的错误: java.lang.ClassCastException: org.apache.spark.MapOutputTrackerWorker cannot be cast to org.apache.spark.MapOutputTrackerMaster这是因为客户函数将以闭包的形式发送至各个worker。若客户

2016-03-21 11:38:50 3513

转载 读完这100篇论文 就能成大数据高手

今天在网上闲逛,无意间发现了这一篇好文,原文作者是PayPal高级工程总监Anil Madan,文章对当前大数据领域用到的一些技术、框架等都做了一遍梳理。本文由CSDN翻译。通过阅读本文,可以对当前大数据领域有一个很好的认识,如果需要深入了解某项技术,可以阅读文章中所给的文章或论文的相关链接,都是不可多得的好资源。开源(Open Source)用之于大数据技术,其作用有二:一方面,在大数据

2016-03-14 15:03:24 4358 1

转载 深入浅出之Spark任务调度

概述Spark Application在遇到action算子时,SparkContext会生成Job,并将构成DAG图将给DAG Scheduler解析成Stage。Stage有两种: ShuffleMapStage 这种Stage是以Shuffle为输出边界 其输入边界可以是从外部获取数据,也可以是另一个ShuffleMapStage的输出 其输出可以是另一个Stage的开始 Shuf

2016-03-11 11:19:02 1412

原创 Spark MLlib LDA 基于GraphX实现原理及源码分析

LDA背景LDA(隐含狄利克雷分布)是一个主题聚类模型,是当前主题聚类领域最火的、最有力的模型之一,它能通过多轮迭代的方式把特征向量集合按主题分类。目前,广泛运用在文本主题聚类中。 LDA的开源实现有很多。目前广泛使用的、能够多机器并行处理大规模语料库的有实现有微软的LightLDA,谷歌plda、plda+,sparkLDA等等。下面介绍这3种LDA实现的特点: LightLDA的实现依赖于微

2016-02-25 22:20:01 7219 5

原创 Spark GraphX原理介绍

背景现实应用中,数据内部可能存在较高的关联度,如图模型应用。在对这样的数据进行处理时,并行计算框架就会面临较大的挑战,会引入大量的数据连接(join)和聚合(aggregation)操作,带来大量的计算和数据迁移,严重消耗集群资源,因此对此类算法的优化就显得极为重要。 互联网上网页权值计算的PageRank算法是一个典型的图模型问题,它依据网页之间的链接指向关系来判断网页的重要性,指向一个网页的链

2016-02-25 20:29:37 14217 3

原创 google PLDA + 实现原理及源码分析

LDA背景LDA(隐含狄利克雷分布)是一个主题聚类模型,它能通过学习的方法把一组特征向量按主题分类,广泛运用在文本主题聚类中。 LDA的开源实现有很多,目前广泛使用的、能够多机器分布式并行的实现有微软的LightLDA,谷歌plda、plda+,spark MLlib LDA等等 LightLDA的实现依赖于它们自己实现的multiverso参数服务器,底层使用mpi或zeromq进行消息发送

2016-01-20 16:10:33 11852 4

原创 java/scala下的最好用的数据绘图工具breeze-viz

背景介绍一些多轮迭代的程序,像机器学习程序等等,它会在运行时会打出很多状态信息,我们通过分析打印出来的log,判断程序的性能指标。然而,由于log数据太多,信息太大,靠眼睛看往往很难掌握系统的状态变化情况,如每轮迭代的输出是如何随迭代次数变化的,各轮迭代的时间变化等等。 要是能把这些状态信息打印出来,用图形显示,这会大大的减少痛苦!!breeze-viz就是用来干这件事的。 您可能会问,为什么不

2016-01-18 17:13:16 10354

原创 intellij idea直接编译spark源码及问题解决

spark源码最容易的编译方式莫过于使用intel idea将源码文件夹直接当做工程打开。下载完所需的依赖包好,build -> Make Project即可!!!

2016-01-16 22:46:56 11867 1

原创 sbt如何建立intellij ieda工程

intellij安装scala plugin在file -> setting -> plugin里面可以安装安装sbt尽管scala plugin里面包含了sbt工具,我们还是要安装一个系统全局可以的sbt工具 安装方法详见:http://blog.csdn.net/tanglizhe1105/article/details/50528801安装sbt plugin: gen-idea该plugi

2016-01-16 17:02:03 4930

原创 sbt的安装配置

sbt很多人都抱怨,下载jar包经常出差。修改配置,使用oschina国内源,情况会改善很多。

2016-01-16 16:58:08 11904

转载 IntelliJ IDEA 15激活

最近发布的IntelliJ IDEA 15带来了很多的新特性,想必大家都非常想使用这个版本。但是遗憾的是,该版本的注册方式和之前版本不一样,只能通过联网激活。本文将提供的方法可以完美地破解idea 15的联网注册问题。本博客提供了两种用于激活IntelliJ IDEA 15的方法: 第一种需要下载相关的程序对Ideal加入相关的补丁,然后输入本博客生成的验证码即可破解; 第二种只需要输入本博客

2016-01-11 16:20:41 1157

原创 java date最常用的时间格式化

// 声明一个日期类型的变量Date time = new Date();// 声明日期格式化类变量DateFormat df = new SimpleDateFormat(“yyyy-MM-dd HH:mm:ss”);// 日期格式转化为字符串格式String time_str = df.format(time.getTime());// 字符串格式转化为日期格式Date new_t

2016-01-07 20:50:26 1005

原创 java/scala优先队列(PriorityQueue)元素改变后如何实现有序

java PriorityQueue能够对加入的元素按元素(必须是可比较的Comparable)大小排序,从而出队时总是“最小”元素优先出对。然而,现实应用中存在队列从元素发生改变的情况,PriorityQueue其实并不能时刻保证元素是有序。PriorityQueue在add addAll后会进行元素重排序,其余操作不会触发元素重排序。class AB{ AB(int a int

2016-01-07 20:42:39 6071 2

原创 linux软件源码安装管理

接触linux往往觉得linux得软件安装后非常混乱,都不知道他安装在哪里,自己也曾非常彷徨,现在我把自己的经验写出来,为大家提供借鉴。linux c/c++语言开源软件常使用Makefile管理,它需要configure、make、make install 3步曲来安装软件。对xxx.tar.gz源码包解压后便可以在文件夹里进行这3步曲。./configure --prefix=/path-to-

2016-01-07 17:07:32 495

原创 ubuntu定时任务管理crontab

crontab是linux下的定时任务管理工具,系统自带。 crontab为每个用户设定了配置文件,root用户的配置文件在/etc/crontab里面,普通用户的配置文件我们可以在配置文件里/var/…。我们可以直接修改配置文件来添加添加任务,但往往不推荐这么做。因为crontab提供了更安全的方式。下面命令可以完成任务的管理: crontab -e #编辑任务 crontab -r #移

2015-11-23 22:27:38 1423

原创 Spark RDD算子源码解读

结合spark1.5.0的RDD源码API及自己一年以来的开发经验,介绍Spark RDD算子的功能、原理及调用方式。

2015-11-02 09:34:52 3418 3

原创 Spark GraphX的边构造过程详解——从 RDD[Edge[ED]] 到 EdgeRDD[ED, VD]

本文介绍Spark GraphX内部对边存储的机理,详解边分区内部的索引构建过程。在最初,边是这样的 RDD[(srcId, dstId, attr)],它是(srcId, dstId, attr)这个三元组的集合。这种结构并不能提供有效的图计算,如快速找出(srcId, dstId)的属性值attr,找出以srcId为源顶点的所有边等操作若按遍历方式处理,效率将非常低。

2015-11-02 09:29:37 5259 1

360加速球独立版

360加速球9.62版,内存垃圾清理,流量监控,下载上传限速,浏览器网速保护,功能齐全。支持window xp、win7、win8.1、win10.

2016-02-27

VA_X_Setup1862

VS的超强助手,它会让你敲代码的速度加倍,错误减半。永久使用哦。

2012-03-28

超强版锐捷代替程序

大小才1M,稳定高效率,能掉线后自动重连,支持多网上,界面友好

2012-03-28

connectify3.3 官方原版

为最新的官方原版,在win7上使用完美,可以为你手机提供无线了哦

2012-03-28

win7 桌面磁盘小工具

在桌面显示磁盘小工具,进入各个盘不必要进我的电脑了。 具有透明色,美观实用。

2012-03-14

华为C8800 root提权

经过我测试,果真行。可以全部删除电信软件。亲,赶快吧

2012-01-02

c8800_recovery4.0.1.5.zip

中文版的,功能强大完完善。手机先进入FASTBOOT模式,即按住音量—键和开机键。手机进入华为LOGO时不再前进,打开程序连接电脑按提示就行了。祝你成功哦!

2011-12-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除