自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

sp_ur的博客

大数据还未入门者

  • 博客(41)
  • 资源 (2)
  • 收藏
  • 关注

原创 Python time模块

2019-03-19 10:57:20 155

原创 Pandas数据读写

1. I/O API工具读取函数写入函数read_csvto_csvread_excelto_excelread_hdfto_hdfread_sqlto_sqlread_jsonto_jsonread_htmlto_htmlread_statato_stataread_clipboardto_clipboardr...

2019-01-22 15:24:11 507

原创 Python 数据分析包:pandas 基础

pandas 是基于 Numpy 构建的含有更高级数据结构和工具的数据分析包类似于 Numpy 的核心是 ndarray,pandas 也是围绕着 Series 和 DataFrame 两个核心数据结构展开的 。Series 和 DataFrame 分别对应于一维的序列和二维的表结构。pandas 约定俗成的导入方法如下:from pandas import Series,DataFrame...

2019-01-22 14:46:42 769

原创 BP神经网络算法

一. 正向传播第一层节点输入=输出:第二层节点输出:向量形式:第三层输出:向量形式:二. 反向传播令实际结果为b,则输出端误差表示为:隐层表示:输入层表示:所以:三. 更新参数...

2019-01-08 18:39:31 411

原创 Spark

Spark 有着 DAG(有向无环图)执行引擎,支持离散数据流和内存计算spark 组件:1. Spark core :所有功能在其上进行构建2. SQL:在 core 之上引入的一个新的数据集抽象(SchemaRDD),支持结构和半结构化数据。RDD:弹性可复原的分布式数据       集3. Spark Streaming:平衡 spark 内核的快速调度功能执行流分析。...

2018-10-27 16:26:50 329

原创 scala 集合

Scala 集合1.Scala List(列表)Scala 列表类似于数组,它们所有元素的类型都相同,但是它们也有所不同:列表是不可变的,值一旦被定义了就不能改变,其次列表 具有递归的结构(也就是链接表结构)而数组不是。列表的元素类型 T 可以写成 List[T]。例如,以下列出了多种类型的列表://字符串列表val site: List[String] = List("Ali...

2018-09-28 09:44:17 240

原创 scala 基础随手记

scala 中和java不同的数据类型: Unit 表示无值,和其他语言中void等同。用作不返回任何结果的方法的结果类型。Unit只有一个实例值,写成()。 Null null 或空引用 Nothing Nothing类型在Scala的类层级的最低端;它是任何其他类型的子类型。 Any Any是所有其他类的超类 AnyRef AnyRef类是Sc...

2018-09-19 20:11:27 296

原创 maven 的配置及安装

maven 是 Apache 的一个项目管理软件,解决项目的依赖关系 pom.xml下载地址:http://mirrors.hust.edu.cn/apache/maven/maven-3/3.3.9/binaries/一、maven 安装1.解压后移动到 /soft 目录下:tar -xzvf xxx.gz2.创建符号链接3.配置环境变量:$ sudo nano ...

2018-09-16 11:43:39 166

原创 IntelliJ IDEA 创建 spark 项目

1.创建新项目:2.选择 Maven ——》选择SDK ——》Next3.起好名字4.右键在 Main 文件夹下的 java 源码包(蓝色为源码包,灰色为普通文件夹)右键 java ——》new 发现没有 scala class 选项。5.点击此选项,导入 scala SDK6.然后右键在 Main 文件夹下的 java 源码包,发现可以新建...

2018-09-13 10:11:08 7358 1

原创 通过 distcp 并行复制

Hadoop 权威指南 P76

2018-09-12 09:52:31 231

原创 HDFS一致模型

文件系统的一致模型描述了文件读/写的数据可见性,新建一个文件之后,它能在文件系统的命名空间中立即可见。package hadoopDemo;import hadoopDemo.pathFilter.RegexExcludePathFilter;import java.io.FileInputStream;import java.io.FileOutputStream;import...

2018-09-11 18:19:35 370

原创 HDFS HA搭建

1.HA   high availability   高可用性,持续服务的能力,多台主机之间进行集群配置。2.failover  容灾3.namenode , 2nn      2nn解决的是可靠性问题4.single point of failure (SPOF),单点故障5.NFS(Network File System) + QJMHA 架构两台主机,一台 activ...

2018-09-09 19:26:34 153

原创 通过API访问HDFS

一、通过 java.net.URL1.在ubuntu下打开eclipse2.创建项目3.导入hadoop所有jar包 Build Path --->Configure  Build Path ---> Add External JARs --->FileSystem --->mnt ---> hgfs --->share for linux --...

2018-09-04 10:17:36 4181

原创 最大公因数

最大公因数的欧几里得算法,当时,循环的第一次迭代将它们互换package programme;public class GratestCommonFactor { public static void main(String[] args) { System.out.println(gcf(1590,1989)); } public static long gcf(long...

2018-08-21 12:00:04 1004 1

原创 幂运算

 通过迭代来计算,若n为偶数,则,如果n是奇数,则package programme;import java.util.Scanner;public class PowerDemo { public static void main(String[] args) { Scanner s = new Scanner(System.in); out(s.nextLine())...

2018-08-21 11:41:43 1148

原创 最大子序列求和问题

最大子序列求和问题最优算法package programme;public class SumOfSubArr { public static void main(String[] args) { System.out.println(maxSubSum(new int[] { 4, -3, 5, -2, -1, 2, 6, -2 })); } public static...

2018-08-20 09:32:58 209

转载 大数据java篇——URL

java URL处理URL(Uniform Resource Locator)中文名为统一资源定位符,有时也被俗称为网页地址。表示为互联网上的资源,如网页或者FTP地址。protocol://host:port/path?query#fragmentprotocol(协议)可以是 HTTP、HTTPS、FTP 和 File,port 为端口号,path为文件路径及文件名。HTTP...

2018-08-08 09:48:18 278

原创 ubuntu下eclipse的自动补全功能不能用

在ubuntu系统下,运行eclipse后发现已经用的相当顺手的自动补全功能的快捷键不能用了。因为最近要一直在ubuntu下进行开发, 所以就去寻找解决方案,最后整理出来。解决方法:在eclipse 中选择Windows ---Preferences---General---Keys,把在搜索框中搜索Word Completion,然后拖动右侧的滚动条,往下拉,然后点击Unbind Comm...

2018-08-07 10:02:24 532

原创 java对输入数字排序

要求:输入一行数字,中间用空格分割输出:对输入的数字排序package scannerDemo;import java.util.Scanner;public class ScannerDemo { public static void main(String[] args) { Scanner s = new Scanner(System.in); String s...

2018-08-04 08:34:25 9752

原创 java转义字符

2018-08-03 19:29:44 1643

原创 大数据java篇——Socket编程

Socket:一个Socket由一个IP地址和一个端口号唯一确定 ServerSocket:服务器端套接字,接收请求TCP:传输控制协议,是可靠协议,必须先建立连接UDP:用户数据报协议Socketjava在包java.net中提供了两个类 Socket和ServerSocket,分别用来表示双向连接的客户端和服务端,其构造函数:Socket(String host,int...

2018-08-02 08:18:47 1033

原创 大数据java篇——UI

UI ——user interface(用户接口)GUI——graphical user interface (图形用户接口)java为GUI提供的对象都在java.Awt和java.Swing两个包中 Label 标签,用来显示文本,不可编辑 Toolbar 工具栏 deactive 钝化的 Button 按钮 Statusbar ...

2018-07-31 16:03:30 303

原创 大数据java篇——复制

 1.文件夹复制package Copy;import java.io.File;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.FileOutputStream;public class DirCopyDemo { public static String ...

2018-07-27 19:35:46 330

原创 大数据java篇——IO流

IO流常用基类IO流按操作数据分为:字节流+字符流字节流的抽象基类:InputStream,OutputStream 字符流的抽象基类:Reader,Writer 由这四个类派生出来的子类名称都是以其父类名作为子类名的后缀。如:InputStream的子类FileInputStream,Reader的子类FileReader。 写的时候用输出流,读的时候用输入流。FileWri...

2018-07-26 08:05:41 541

原创 大数据java篇——集合类

为什么出现集合类:    面向对象语言对事物的体现都是以对象的形式,所以为了方便对多个对象的操作,就对对象进行存储,集合就是存储对象最常用的一种方式(java的集合都在 java.util包下 )数组和集合类都是容器,有何不同:    数组虽然也可以存储对象,但长度是固定的;集合长度可变。数组中可以存储基本数据类型,但集合只能存储对象。集合类特点:集合只用于存储对象,集合长度可...

2018-07-17 09:47:24 1012

原创 大数据java篇——包装类

包装类将基本数据类型封装成对象,好处在于可以在对象中定义更多的功能方法操作该数据。 基本数据类型 封装类 byte Byte short Short int        int i = 2 Integer        Integer i = new Integer(2)  long Long float Float dou...

2018-06-18 15:55:40 210

原创 大数据java篇——String类

String 类的方法1. equals() 是判断两个对象的内容    == 判断内存地址,看是否是同一对象2. charAt(int index) 返回指定位置的char值(0~length-1)3. toCharArray() 将此字符串转换为一个新的字符数组。4. indexOf(String str)  返回指定子字符串在此字符串中第一次出现处的索引。5. sta...

2018-06-18 15:26:02 502

原创 大数据java篇——多线程

线程:程序执行过程中并发执行的代码段,属于同一个进程,内存共享进程:进程之间的内存是隔离的,不同进程通信通过socket套接字 线程创建方式一:继承Thread类1.子类覆盖父类中的run方法,将线程运行的代码存放在run中2.建立子类对象的同时线程也被创建3.通过调用start方法开启线程线程类Thread包含的方法:1.start():通知CPU可以开始执行...

2018-06-13 19:44:18 1317

原创 大数据java篇——包

包(package)1.对文件进行分类管理2.给类提供多层命名空间3.写在程序文件的第一行4.类的全名是    包名.类名5.包也是一种封装形式 四种权限   public protected default private 同一类中 √ √ √ √ 同一包中 √ √ √   子类 ...

2018-06-06 17:00:40 888

原创 大数据java篇——类的继承

static关键字static变量也称作静态变量,静态变量和非静态变量的区别是:静态变量被所有的对象所共享,在内存中只有一个副本,它当且仅当在类初次加载时会被初始化。而非静态变量是对象所拥有的,在创建对象的时候被初始化,存在多个副本,各个对象拥有的副本互不影响。 java只支持单继承,但支持多层继承父类中的私有内容不能被继承在一个类中调用父类方法用 "super.",调用父类构...

2018-06-01 08:43:02 237

原创 大数据java篇——面向对象

一维数组格式一:元素类型[ ] 数组名 = new 元素类型 [元素个数或数组长度]如:int[ ] arr=new int [5]格式二:元素类型[ ] 数组名=new 元素类型 [ ] {元素,元素,......}如:int[ ] ar=new int[ ] {3,4,2,5}       int[ ] arr={3,5,2,7}冒泡法排序public c...

2018-05-31 14:45:27 362

原创 Hadoop 文件系统(HDFS)

块(默认128M)磁盘传输速率100M/s,寻址时间10ms,让寻址时间是传输时间的1%,所以块的大小为:(100*0.01s)*100M/s=100M ——>128M在 hdfs-default.xml 中搜索dfs.blocksize,可以修改大小文件上传$ hadoop fs -put a.txt /test文件下载$ hadoop fs -get ...

2018-05-21 16:49:28 547

原创 Linux图形界面

1.gedit ——进入图形化编辑界面---------------------------------------------2.克隆虚拟机关闭虚拟机,右键虚拟机——>管理——>克隆——>克隆自虚拟机的当前状态——>创建完整克隆——>完成完成后右键虚拟机——>设置——>硬件——>网络适配器——>高级——>查看MAC地...

2018-05-17 16:04:31 953

原创 hadoop源代码查看

1.下载并解压hadoop-2.9.0-tar.gz2.在解压后的文件夹下新建 _lib 类库文件夹,然后搜索jar,将全部jar包放到类库文件夹在_lib文件夹下把*sources文件,test文件以及test-sources文件分别放到_sources文件夹,_test-lib文件夹以及_test-sources文件夹下后续内容(具体步骤看hadoop视频第二天003)...

2018-05-12 10:34:13 2666

原创 编写远程复制/删除/查看脚本文件 xcp.sh xrm.sh xls.sh xcall.sh

由于远程复制scp只能一个一个复制,当节点很多时相当耗时,所以编写远程复制脚本文件实现文件或文件夹在所有节点的远程复制。如上图可知自己编写的脚本放在 /usr/local/bin或者 /usr/local/sbin 中就可以不用配置环境变量了xcp.sh的代码如下:#!/bin/bashif [ $# -lt 1 ] ;then echo no args exit;...

2018-05-08 16:08:19 408

原创 Hadoop安装

Hadoop模块1.hadoop common ——公共模块,支持其他模块        hadoop-common-xxx.jar        core-site.xml        core-default.xml2.HDFS ——分布式文件系统        HDFS:NameNode+DataNode+SecondaryNameNode        hdf...

2018-05-08 08:46:09 191

原创 Linux软件包操作

1.查询安装了哪些软件包    sudo dpkg -l    sudo dpkg -l | grep xxx如桌面软件的包2.卸载软件apt-get remove gedit ——卸载gedit软件(但不删除配置文件)apt-get purge gedit ——丢弃gedit的配置文件3.安装软件apt-get install gedit ——安装gedit(...

2018-04-19 18:07:31 197

原创 Linux 网络篇

NetChat服务端nc  -l port ——指定监听的端口号&代表后台运行客户端nc  ip port ——指定服务器的IP和监听端口号查看端口号:netstat  -lnuptnetstat -ano | more ——查看所有端口号如上图,查看端口号发现多了0.0.0.0:1234 ,为TCP协议,状态为listen(监听)在此基础上...

2018-04-19 15:39:17 283

原创 Linux下安装JDK

1.下载相应的jdk以及eclipse,放入宿主机和虚拟机共享的文件夹内2.在虚拟机下进入共享文件夹查看3.将jdk以及eclipse拷贝到 ~/Downloads4.将文件tar开5.移动到 /soft 下6.进入jdk文件夹下的bin目录,找到java文件,查看版本7.配置jdk环境变量系统级环境变量在 /etc 中的enviro...

2018-04-18 17:34:55 138

原创 Linux 基础命令

1.基础命令:clear——清屏             Windows下是clscd   ——进入        cd - ——后退        cd -n ——后退n步--------------------------------------------------------------------------/     ——根目录            ...

2018-04-16 17:03:17 1767

hadoop权威指南英文原版

hadoop权威指南英文电子原版,支持代码复制,包含了hadoop的搭建以及维护

2018-08-16

spark-2.3.0

大数据spark,大数据大数据大数据大数据大数据大数据大数据大数据大数据

2018-04-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除