自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

邓佑权的博客

大数据——Spark、hadoop、zookeeper、flume、sqoop

  • 博客(30)
  • 资源 (3)
  • 收藏
  • 关注

原创 人工智能类型的创业公司大多失败的原因

导读:张钹院士:大数据驱动的人工智能有大量毛病,没有自知之明暴风冯鑫:人工智能是要“养”出来的5月6日,一则新闻AI公司,开始破产了,将全球知名的AI芯片企业——WaveComputing公司破产的消息,推到了人工智能创业领域的所有人面前,世人哗然。Wave Computing被誉为全球最有前途的AI公司之一,曾被认为有和英特尔、英伟达等巨头一较高下的潜力。2018年底,Wav...

2020-05-07 16:40:56 683

原创 创业箴言:马云说的最优价值的10句话,深刻领悟了你就能成就大事!

马云说的最优价值的10句话,深刻领悟了你就能成就大事!先放图片,然后我一条条打出来,方便大家放到手机里、电脑里、桌面上,时时刻刻看创业箴言:1、从中国黄页里学到的,最大的改变就是,不控制董事会。以后做任何事情,只要觉得你有道理,我就听你的。我现在就是这么做企业,我不希望控制别人,也不要别人像我恨中国电信那样恨我;2、中国企业现在喜欢硅谷模式,我不太喜欢,我喜欢西雅图的模...

2020-04-29 11:14:09 516

转载 鲸准苏州工业园创业经验分享投资人投资逻辑

2020-03-16 10:45:16 337

原创 深度学习Pytorch实现的CenterNet目标检测图像处理要点

深度学习Pytorch实现的CenterNet目标检测图像处理要点图片调整大小:resized_image = cv2.resize(image, (new_width, new_height))图片归一化:inp_image = ((inp_image / 255. - self.mean) / self.std).astype(np.float32)images ...

2020-03-07 17:59:24 885

原创 深度学习中数据管理的经验总结

深度学习项目主要是模型+数据两家马车,从现阶段中国的应用来说,模型只是选择,不能自我创造或者改造,那么最有利的办法就是提高数据了,那么数据采集、数据预处理、数据标注、模型训练中,应该怎么样做好数据管理呢?笔者自己总结的数据管理的经验,希望大家不吝赐教:1、数据质量远比数据数量重要;2、要尽早摸清摸透自己产品应用场景的数据特殊性或者复杂性,并做好计划;3、要严格制定数据采集、数据预处...

2020-02-28 17:29:32 1158

转载 Eclipse编写springMVC程序遇到的

ApplicationContext.xml文件:xmlns="http://www.springframework.org/schema/beans"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xmlns:p="http://www.springframework.org/schema/p"xmlns:cont

2016-12-07 16:48:33 954

原创 eclipse安装配置使用笔记

eclipse安装配置使用笔记1、安装带有install的eclipse,这样就是neon1的3.4.6版本。2、进入help->marketplace,搜索sts,安装,可以安装一些非常有用的xml等末班3、类名自动补全该功能极力推荐,减少不必要的记忆,现在不局限于某个对象后输入“.”才提示,而是输入任意字符就能提示类文

2016-12-06 22:17:45 661

转载 简练又清楚的linux的定时任务crontab从入门到精通

简练又清楚的linux的定时任务crontab从入门到精通************************************************************************************cron是一个linux下的定时执行工具,可以在无需人工干预的情况下运行作业。由于Cron 是Linux的内置服务,但它不自动起来,可以用以下的方

2016-11-30 16:47:58 656

转载 linux系统Give root password for maintenance解决办法

今天要跟朋友分享的是linux 系统Give root password for maintenance问题的解决方法 ,希望能帮上朋友们!问题原因应该是/usr /home /boot分区磁盘检测出了问题。Give root password for maintenance(or type Control-D to continue):输入密码后 出现了:(R

2016-11-24 14:31:13 40847

原创 java的hashtable、scala的hashtable都是线程安全的吗?

java的hashtable、scala的hashtable都是线程安全的吗?HashTable.java的源代码描述如下: * Java Collections Framework. Unlike the new collection * implementations, {@code Hashtable} is synchronized. If a * thread-s

2016-11-24 12:12:57 1696

原创 vmware虚拟机磁盘扩容全纪录

vmware虚拟机磁盘扩容全纪录虚拟机可以选择在原有磁盘上扩容,第二种是新增额一个磁盘,然后在Linux中挂载,本文先试验了第一种,发现无法成功,第二种成功了!如下为新增加一个SCSI硬盘,分区为扩展分区,然后格式化为ext3,挂载到/home/dyq/extend,增加到/etc/fstab系统启动时自动挂:1、在虚拟机管理软件中新增一个硬盘2、启动后进入linux,发

2016-11-23 21:24:03 3278

原创 IPV6导致的hadoop集群WEBUI不能启动故障解决

50070和8042端口和网页都能显示,但就是8088不能,用命令寻找问题所在。dyq@ubuntu:/opt/hadoop$ netstat -an | grep 8088tcp6       0      0 127.0.0.1:8088          :::*                    LISTEN     dyq@ubuntu:/opt/hadoop

2016-11-23 16:11:10 1630

原创 Hive2.1安装后运行mapreduce出错,换成hadoop2.6.4全程记录!

Hive2.1安装后运行mapreduce出错,换成hadoop2.6.4全程记录!解压hadoop2.6.4到/opt目录后。修改hadoop-env.sh# The java implementation to use.export JAVA_HOME=/usr/java/jdk修改~/.bashrc#HADOOP VARIABLES STARTex

2016-11-23 13:44:59 1757

原创 大数据学习第一弹你懂的之Hive升级到2.1安装配置全过程

一、安装Hive1、下载Hive安装包可以从 Apache 其中一个镜像站点中下载最新稳定版的 Hive, apache-hive-2.1.0-bin.tar.gz。解压安装Hive使用以下命令安装 Hive:sudo mv apache-hive-2.1.0-bin.tar.gz /optcd /optsudo tar -xzvf apache-hiv

2016-11-23 10:22:31 1315

转载 大数据工程师、数据分析师利器:hive2.1.0新特性介绍及升级实战!

大数据工程师、数据分析师利器:hive2.1.0新特性介绍及升级实战!一、缘起        hive官网(http://hive.apache.org/)在6月20日,,发布了Hive2.1.0版本,并宣称它是新时代大数据工程师、数据分析师的利器,Apache Hive 2.1新引入了6大性能,包括:(1)LLAP。ApacheHive 2.0引入了LLAP(

2016-11-22 21:23:12 2328

转载 怎么理解spark机器学习中的推荐算法ALS?

ALS号称是spark机器学习中的大杀器,能做推荐系统。但是亲们,我在网上找了一堆,要不是spark的源码,要不是纯数学公司。。。。苦闷,还有有万能的知乎ALS交替最小二乘法的协同过滤算法,其原理是什么,算法的思想是怎样的?找了好久的资料都是一大堆专业名词和公式看着比较费力,有没有大大能用比较通俗的语言描述一下ALS算法整理一下自己的理解。对

2016-11-21 21:01:57 1187

原创 scala读取xml的原始坑!“ columnNumber: 1; 前言中不允许有内容。”

scala读取xml的原始坑!“ columnNumber: 1; 前言中不允许有内容。”用spark搞机器学习,需要从XML中读取训练数据,代码是这样的val fileName = "data\\Posts.small1.xml" val textFile = sc.textFile(fileName) //移除xml的页眉和页脚 val postsXm

2016-11-21 20:51:06 6198 1

原创 Spark机器学习之第一弹你懂的踩坑记录!

Spark机器学习之踩第一个坑!A signature in package.class refers to type compileTimeOnly in package scala.annotation which is not available.错误解决/** * Created by danger on 2016/11/19. * 使用SGD算法逻辑回归的垃圾邮件

2016-11-19 23:08:38 2014

转载 知乎上一位朋友总结的特别好的spark的文章,很不错以转载!

Spark是基于内存的分布式计算引擎,以处理的高效和稳定著称。然而在实际的应用开发过程中,开发者还是会遇到种种问题,其中一大类就是和性能相关。在本文中,笔者将结合自身实践,谈谈如何尽可能地提高应用程序性能。分布式计算引擎在调优方面有四个主要关注方向,分别是CPU、内存、网络开销和I/O,其具体调优目标如下:提高CPU利用率。避免OOM。降低网络开销。减少I/O操作。第1章 数据

2016-11-19 21:45:55 5799

转载 Pregel的计算模型

Pregel的计算模型        Pregel操作是一个约束到图拓扑的批量同步(bulk-synchronous)并行消息抽象。Pregel操作者执行一系列的超级步骤(super steps),在这些步骤中,顶点从 之前的超级步骤中接收进入(inbound)消息的总和,为顶点属性计算一个新的值,然后在以后的超级步骤中发送消息到邻居顶点。不像Pregel而更像GraphLab,消息作

2016-11-19 19:13:40 1440

转载 Spark调优、编码之奇技淫巧!

1.正确使用转换操作,明确何时应该减少shuffle,何时应该增加shuffle。2.恰当的资源配置,资源配置不当会严重影响作业性能,哪怕你代码上无懈可击。以上是粗略的小结,具体请看Cloudera的两篇关于Spark调优的博客,How-to: Tune Your Apache Spark Jobs (Part 1)———————————————————————————

2016-11-19 16:57:24 906

原创 Spark大牛博客和网站地址一箩筐!

Spark大牛博客和网站地址一箩筐!自己整理的,方便自己使用吧。Intel @邵赛赛 的博客 http://jerryshao.me/ 他是早期Spark contributor之一盛利:Spark SQL 源码分析系列文章许鹏:徽沪一郎 - 博客园 博主的新书《Spark源码剖析》快出了吧 :-)[1]fxjwind - 博客园[2]张包峰

2016-11-19 16:29:35 1239

原创 大数据项目之智慧城市之智能交通系统框架设计

项目假设背景:在智慧城市总体框架下,实现智能交通系统,实时展示交通网络情况,预测交通拥堵点,辅助进行调度决策等等。可以进一步实现APP,为个人提供公交到站查询、道路通勤情况等微服务。数据来源:安装了GPS的出租车、公交车,地铁等,以及智能交通APP个人等,每10秒发送一次位置信息。一个中等城市GPS车辆规模为9万辆,个人假设1万人,数据规模每分钟约6*10*0.5k%6=5K,早7:30到8:

2016-11-19 15:36:18 6164 2

原创 Spark机器学习有哪些算法?

Spark机器学习有哪些算法?Algorithms                                                                        算法:MLlib contains many algorithms and utilities, including:

2016-11-19 12:29:53 5026

原创 Spark Graph的outerJoinVertices操作实战!

Spark Graph的outerJoinVertices操作实战!一、outerJoinVertices是什么?图的vertices进行join操作,就要用到outerJoinVertices。 /** * Joins the vertices with entries in the `table` RDD and merges the results using `

2016-11-18 09:46:03 4684

原创 Spark的RDD操作之Join大全!

Spark的RDD操作之Join大全!一、RDD的Join操作有哪些?(一)Join:Join类似于SQL的inner join操作,返回结果是前面和后面集合中配对成功的,过滤掉关联不上的。源代码如下: /** * Return an RDD containing all pairs of elements with matching keys in `this`

2016-11-18 08:42:03 54190

原创 Spark Graphx图计算之二跳邻算法实战!

Spark Graphx图计算之二跳邻算法实战! def sendMsgFunc(edge:EdgeTriplet[Int, Int]) = { if(edge.srcAttr <= 0){ if(edge.dstAttr <= 0){ // 如果双方都小于0,则不发送信息 Iterator.empty

2016-11-17 22:10:19 3389

原创 Spark Graphx图计算之aggregateUsingIndex实操!

Spark Graphx图计算之aggregateUsingIndex实操!aggregateUsingIndex:根据相同的verticesId,进行reduceFun操作。比如(1,1.0)(1,2.0),操作后成为(1,3.0)//屏蔽日志 Logger.getLogger("org.apache.spark").setLevel(Level.WARN) Lo

2016-11-17 21:54:40 1470

原创 10分钟精通shell编程!

10分钟精通shell编程!一、输入输出重定向标准输入 /dev/stdin  0 键盘标准输出 /dev/stdout 1 显示器标准错误输出 /dev/stderr 2 显示器#设备文件名 #文件描述符 #默认设备1)输出重定向把应该输出到屏幕的输出,重定向到文件。> 覆盖                  >> 

2016-11-15 16:57:16 820

原创 邓佑权读源码之Spark源码解密:spark shell本质!

Spark的源码解密:spark shell本质!spark-shell脚本在bin目录下:#!/usr/bin/env bash## Licensed to the Apache Software Foundation (ASF) under one or more# contributor license agreements. See the NOTICE file

2016-11-15 14:28:23 693

《视觉工程师必须知道的工业相机61问_51Camera》.rar

整理发布的机器视觉工程师必学,工业相机61问,帮你快速掌握工业相机相关知识,进行工业相机选型,回避工业相机的坑,帮助你快速建立机器视觉应用。

2020-04-02

Fashion-Mnist数据集.zip

fashion-mnist。这个数据比较小,没有GPU的电脑也能轻松跑起来,数据格式和mnist一模一样。需要的童鞋们拿走。(收集的衣服鞋帽10类别)

2019-08-27

大规模SOA系统中的分布事务处事_程立

2008年2月支付宝程立在中国软件大会上,作的关于分布式事务的经典PPT,分布式开发者必读只经典。

2019-01-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除