cyclebozhou-CSDN博客

原创 Spark Streaming整合kafka(2)

KafkaUtils.createDstream方式（基于kafka高级Api—–偏移量由zk保存） import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.streaming.{Seconds, StreamingContext} import org.apache.spark.s...

2018-03-29 09:19:45 1492

原创 sqoop导入导出

导入语法:$ sqoop import (generic-args) (import-args)配置了环境变量可以直接使用sqoop否则需要找到对应目录 bin/sqoop导入mysql表数据到HDFSbin/sqoop import \ –connect jdbc:mysql://node-1:3306/userdb \ –username root \ –passwor...

2018-03-26 10:22:51 587

原创 spark中的数据倾斜的现象

spark中的数据倾斜的现象、原因、后果 (1)、数据倾斜的现象多数task执行速度较快,少数task执行时间非常长，或者等待很长时间后提示你内存不足，执行失败。 (2)、数据倾斜的原因数据问题 1、key本身分布不均衡（包括大量的key为空） 2、key的设置不合理 spark使用问题 1、shuffle时的并发度不够 2、计算方式有误 (3)、数据倾斜的后果 1、sp...

2018-03-26 10:22:04 922

原创 PyCharm3.0默认快捷键

PyCharm3.0默认快捷键PyCharm Default Keymap1、编辑（Editing）Ctrl + Space 基本的代码完成（类、方法、属性）Ctrl + Alt + Space 快速导入任意类Ctrl + Shift + Enter 语句完成Ctrl + P 参数信息（在方法中调用参数）Ctrl + Q 快速查看文档F1 外...

2018-03-25 19:15:09 197

原创 kafka

要点producer:生产者,push consumer:消费者,pull topic:主题,区分每一类消息 broker:kafka中存储节点 partition:分区,将topic分成多个分片,方便操作备份安装和部署 kafka的api: 消费者,生产者官网有案例Documentation kafka分区方式: 1.手动指定分区号 2.通过动态...

2018-03-16 10:13:52 620 1

原创 zookeeper运用

1.1. 统一命名服务类似于域名服务，和java的包名服务分布式应用中，通常需要有一套完整的命名规则，既能够产生唯一的名称又便于人识别和记住，通常情况下用树形的名称结构是一个理想的选择，树形的名称结构是一个有层次的目录结构，既对人友好又不会重复。 Name Service 是 Zookeeper 内置的功能，只要调用 Zookeeper 的 API 就能实现1.2. 配置...

2018-03-16 08:34:28 373

原创 zookeeper概要

对于集群注意时间要同步概述:实质是一个分布式小文件==存储系统==(目录树结构) 功能:统一命名系统特性:全局数据一致性(事务性全局统筹)主从:两种角色职责不同,从要受主的的管理 leader+follower两种架构:只能访问老大,重要的事情交给老大注备:解决单点故障,两种角色职责一样 ,同一时刻有且只有一个干活active,standby可靠性:一台接受全...

2018-03-16 08:29:36 190

原创跨部门数据管理

数据源(产生): 内部数据前端:埋点,日志后端:数据库业务系统数据外部数据:爬虫,搜索引擎数据存储(数据仓库): 文件服务管理规范增量全量重传序号 MD5校验文件(MD5值是否相同判断上传下

2018-03-14 21:04:07 1338

原创 Hive原理

Hive的数据存储结构: 元数据存储:通常存储在关系型数据库中比如mysql derby(hive自带的一般不用,路径不同记录不同)作用是用来将hdfs文件,目录和sql映射关系存储Hive 中所有的数据都存储在 HDFS 中，没有专门的数据存储格式在创建表时指定数据中的分隔符，Hive 就可以映射成功，解析数据。e Hive 中包含以下数据模型：db ：在 hdfs 中表现为 hiv

2018-03-14 21:02:50 1019

原创 Vmware 、Linux 基础操作

虚拟 DHCP 服务器主要有两个用途： 1. 给内部网络自动分配 IP 地址； 2. 作为对所有计算机作中央管理的手段虚拟机三种联网方式:桥接 VMnet0仅主机 VMnet1NET VMnet8VMware虚拟机克隆 VMware 支持两种类型的克隆：完整克隆链接克隆需要关闭虚拟机右键需要克隆虚拟机选择管理>克隆克隆后需要修改的地方：

2018-03-14 20:58:33 1136

原创机器学习数学基础-微积分(1)

极限1. 函数 f 在 x 0 处的极限为 L :limx→+x0f(x)\lim_{x\rightarrow+x0}{f(x)}= L 对于任意的正数 ϵ > 0, 存在正数 δ, 使得任何满足 |x − x 0 | < δ 的 x, 都有 |f(x) − L| < ϵ2. 无穷小阶数(Definition)3. 微分:4. 链式法则

2018-03-14 20:54:05 745

原创 SparkStreaming开窗函数reduceByKeyAndWindow原理

StreamingContext开窗函数

2018-03-14 19:58:51 1703

原创 hbase的shell命令行(2)

hbase的shell查询删除操作

2018-03-14 11:19:48 607

原创 Hbase的过滤器分类(3)

单元测试多种过滤器使用/** * 多种过滤条件的使用方法 * @throws Exception */ @Test public void testScan() throws Exception{ HTable table = new HTable(conf, "person_info".getBytes()); S...

2018-03-14 10:59:40 593

原创 Hbase的过滤器分类(2)

分页过滤器 PageFilter public static void main(String[] args) throws Exception { Configuration conf = HBaseConfiguration.create(); conf.set("hbase.zookeeper.quorum", "spark01:2181,spa...

2018-03-14 10:58:52 547

原创 Hbase的过滤器分类(1)

比较过滤器1.1 行键过滤器RowFilter Filter filter1 = new RowFilter(CompareOp.LESS_OR_EQUAL, new BinaryComparator(Bytes.toBytes(“row-22”))); scan.setFilter(filter1); 1.2 列族过滤器FamilyFilter Filter filter1 ...

2018-03-14 10:56:37 982

默认情况下，在创建HBase表的时候会自动创建一个region分区，当导入数据的时候，所有的HBase客户端都向这一个region写数据，直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions，这样当数据写入HBase时，会按照region分区情况，在集群内做数据的负载均衡。命令方式: create ‘t1’, ‘f1’, {NUMREGI...

2018-03-14 10:24:30 3564

原创 Hbase之建表高级应用(2)

alter 使用方法：如修改压缩算法 disable 'table' alter 'table',{NAME=>'info',COMPRESSION=>'snappy'} enable 'table' 但是需要执行major_compact 'table' 命令之后才会做实际的操作。TTL默认是 2147483647 即:Integ...

2018-03-14 10:23:43 587

原创 Hbase之建表高级应用(1)

1、BLOOMFILTER 默认是NONE 是否使用布隆过虑及使用何种方式布隆过滤可以每列族单独启用。使用 HColumnDescriptor.setBloomFilterType(NONE | ROW | ROWCOL) 对列族单独启用布隆。 Default = ROW 对行进行布隆过滤。对 ROW，行键的哈希在每次插入行时将被添加到布隆。对 ROWCOL，行键 + 列族 ...

2018-03-14 10:21:33 596

原创 habase之master工作机制

Master工作机制:master上线 master启动进行以下步骤: （1）从zookeeper上获取唯一一个代表active master的锁，用来阻止其它master成为活着的master。（2）扫描zookeeper上的server父节点，获得当前可用的region server列表。（3）和每个region server通信，获得当前已分配的region和region...

2018-03-14 09:27:52 702

原创 hbase之Region管理

region管理: (1) region分配任何时刻，一个region只能分配给一个region server。master记录了当前有哪些可用的region server。以及当前哪些region分配给了哪些region server，哪些region还没有分配。当需要分配的新的region，并且有一个region server上有可用空间时，master就给这个region server...

2018-03-14 09:26:45 815

原创 Hbase寻址(2)

读写过程读请求过程：（1）客户端通过zookeeper以及root表和meta表找到目标数据所在的regionserver （2）联系regionserver查询目标数据（3）regionserver定位到目标数据所在的region，发出查询请求（4）region先在memstore中查找，命中则返回（5）如果在memstore中找不到，则在storefile中扫描（可能会...

2018-03-14 09:25:34 800

原创 Hbase寻址(1)

现在假设我们要从Table2里面查询一条RowKey是RK10000的数据。那么我们应该遵循以下步骤： 1. 从.META.表里面查询哪个Region包含这条数据。 2. 获取管理这个Region的RegionServer地址。 3. 连接这个RegionServer, 查到这条数据。系统如何找到某个row key (或者某个 row key range)所在的region bigta...

2018-03-14 09:05:16 1003

原创 spark&yarn两种运行模式(2)

两种模式的原理:cluster模式： Spark Driver首先作为一个ApplicationMaster在YARN集群中启动，客户端提交给ResourceManager的每一个job都会在集群的NodeManager节点上分配一个唯一的ApplicationMaster，由该ApplicationMaster管理全生命周期的应用。具体过程：由client向ResourceMa...

2018-03-13 08:55:39 800

原创 spark&yarn两种运行模式(1)

spark在yarn上的运行模式（cluster模式和client模式）1.cluster模式官网案例计算PIspark-submit --class org.apache.spark.examples.SparkPi \--master yarn \--deploy-mode cluster \--driver-memory 1g \--executor-memory...

2018-03-13 08:52:28 2352

原创 spark on hive

spark on hive1、spark on hive介绍（1）就是通过sparksql，加载hive的配置文件，获取到hive的元数据信息（2）spark sql获取到hive的元数据信息之后就可以拿到hive的所有表的数据（3）接下来就可以通过spark sql来操作hive表中的数据2、spark on hive 配置（1）将hive安装目录下conf/hive-...

2018-03-11 21:13:35 1278

原创 Hive on Spark

Hive on Spark用的是Spark执行引擎，而不是MapReduce 处理hive元数据的不再是map和reduce工程而是通过spark的rdd就可以充分利用Spark的快速执行能力来缩短HiveQL的响应时间配置Hive on Spark 将编译后的spark下的lib下的 spark-assembly-*.jar 拷贝到hive的lib下 * 在hive-si...

2018-03-11 21:10:08 1018

原创 spark和flume整合

软件版本:spark2.02 开发环境:idea,maven maven依赖: <properties> <scala.version>2.11.8</scala.version> <hadoop.version>2.7.4</hadoop.version> <spark....

2018-03-11 20:29:23 1617

原创 spark之DataFrame、DataSet、RDD的区别

RDD(弹性分布式数据集)RDD是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合，RDD是Spark Core的底层核心，Spark则是这个抽象方法的实现DataFrame 上图直观地体现了DataFrame和RDD的区别。左侧的RDD[Person]虽然以Person为类型参数，但Spark框架本身不了解 Person类的内部结构。而右侧...

2018-03-11 16:32:46 2203 1

原创 spark之RDD(2)

RDD的依赖关系窄依赖父RDD中每一个partition最多只被子RDD的一个partition所使用总结：窄依赖我们形象的比喻为独生子女宽依赖子RDD的多个partition会依赖于父RDD同一个partition总结：宽依赖我们形象的比喻为超生Lineage(血统)记录下RDD的元数据信息和转换行为，如果当前一个RDD的某些分区数据丢失后，可以根据血统，重新计算...

2018-03-10 20:18:42 773 1

原创 spark之RDD(1)

Rdd概述:rdd是spark中弹性分布式数据集,不可变可分区其中元素可以并行计算的集合特性: 1. A list of partitions rdd最小划分在每个分区中一般hdfs中未指定以block数量作为分区数量 2. A function for computing each split Spark中RDD的计算是以分区为单位的，每个RDD都会实现compute函...

2018-03-10 20:17:15 840 2

原创 scala之数组

数组定长数组和变长数组（1）定长数组定义格式： val arr=new ArrayT （2）变长数组定义格式： val arr = ArrayBufferT 注意需要导包：t import scala.collection.mutable.ArrayBuffer 在cmd黑窗口操作import scala.collection.mutable.ArrayBuffer//初始...

2018-03-08 08:53:15 725 1

原创 scala基础语法之函数和方法

scala是面向函数和对象的编程基于Java的JDK和JVM是一个类的JAVA的语言调用方法和函数 Scala 中的+ - * / %等操作符的作用与 Java 一样，位操作符 & | ^ >> <<也一样。只是有一点特别的：这些操作符实际上是方法。例如： a + b 是如下方法调用的简写： a.+(b) a 方法 b 可以写成 a.方法(b) ...

2018-03-08 08:47:52 784 1

原创 sacla之akka

概述: akka是rpc轻量级框架 ,Scala 在 2.11.x 版本中将 Akka 加入其中，作为其默认的 Actor，而老版本使用的 Actor 已经废弃组成: master worker 两者之间使用akka中的rpc通信通信的业务逻辑: 1. 启动master和worker 2. wo...

2018-03-07 20:59:41 719 1

原创 hadoop HA 集群搭建(3)

启动步骤: 2.5启动zookeeper集群（分别在hadoop05、hadoop06、tcast07上启动zk） bin/zkServer.sh start #查看状态：一个leader，两个follower bin/zkServer.sh status2.6手动启动journalnode（分别在在hadoop05、hadoop06、ha...

2018-02-09 13:29:41 735 1

原创 hadoop HA集群搭建(2)

修改配置文件:2.2.2修改core-site.xml<configuration><property><name>fs.defaultFS</name><value>hdfs://cluster1</value>&

2018-02-09 13:26:53 720 1

原创 Hadoop HA 集群的搭建(1)

搭建准备:系统:centos6.x版本:hadoop2.7.4 jdk1.8 zookeeper-3.4.5集群部署节点角色的规划（7节点） server01 namenode zkfc server02 namenode zkfc server03 resourcemanager server04 r...

2018-02-09 13:22:42 733 1

人工智能标准化白皮书（2018最新版版）

目录 1 前言 ....................................................................1 1.1 研究背景 ............................................................1 1.2 研究目标及意义 ......................................................2 2 人工智能概述 ............................................................3 2.1 人工智能的历史及概念 ................................................3 2.1.1 人工智能的起源与历史 .............................................3 2.1.2 人工智能的概念 ...................................................5 2.2 人工智能的特征 ......................................................7 2.3 人工智能参考框架 ....................................................8 3 人工智能发展现状及趋势 .................................................11 3.1 人工智能关键技术 ...................................................11 3.1.1 机器学习 ........................................................11 3.1.2 知识图谱 ........................................................13 3.1.3 自然语言处理 ....................................................14 3.1.4 人机交互 ........................................................15 3.1.5 计算机视觉 ......................................................17 3.1.6 生物特征识别 ....................................................19 3.1.7 虚拟现实/增强现实 ...............................................21 3.1.8 人工智能技术发展趋势 ............................................21 3.2 人工智能产业现状及趋势 .............................................22 3.2.1 智能基础设施 ....................................................23 3.2.2 智能信息及数据 ..................................................24 3.2.3 智能技术服务 ....................................................25 3.2.4 智能产品 ........................................................25 3.2.5 人工智能行业应用 ................................................27 3.2.6 人工智能产业发展趋势 ............................................31 3.3 安全、伦理、隐私问题 ...............................................32 3.3.1 人工智能的安全问题 ..............................................32 3.3.2 人工智能的伦理问题 ..............................................33 3.3.3 人工智能的隐私问题 ..............................................34 3.4 人工智能标准化的重要作用 ...........................................35 4 人工智能标准化现状 .....................................................37 4.1 国际标准化现状 .....................................................37 4.1.1 ISO/IEC JTC 1 ..................................................37 4.1.2 ISO ............................................................40 4.1.3 IEC ............................................................40 II 4.1.4 ITU ............................................................41 4.2 国外标准化现状 .....................................................41 4.2.1 IEEE ...........................................................41 4.2.2 NIST ...........................................................41 4.2.3 其它 ...........................................................42 4.3 国内标准化现状 .....................................................42 4.3.1 全国信息技术标准化技术委员会 ....................................42 4.3.2 全国自动化系统与集成标准化技术委员会 ............................43 4.3.3 全国音频、视频和多媒体标准化技术委员会 ..........................43 4.3.4 全国信息安全标准化技术委员会 ....................................43 4.3.5 全国智能运输系统标准化技术委员会 ................................44 4.4 人工智能标准化面临的问题和挑战 .....................................44 4.5 人工智能标准需求分析 ...............................................45 4.6 人工智能标准化组织机制建设 .........................................46 5 人工智能标准体系 .......................................................48 5.1 人工智能标准体系结构 ...............................................48 5.2 标准体系框架 .......................................................49 5.2.1 基础标准 ........................................................51 5.2.2 平台/支撑标准 ...................................................51 5.2.3 关键技术标准 ....................................................51 5.2.4 产品及服务标准 ..................................................53 5.2.5 应用标准 ........................................................54 5.2.6 安全/伦理标准 ...................................................56 5.3 近期急需制定标准 ...................................................56 6 人工智能标准化工作重点建议 .............................................59 附件 1 人工智能标准明细表 ................................................61 附件 2 应用案例 ..........................................................71

2018-01-29

光速多功能可定时火车票抢票软件

无毒火车票抢票小程序可以选时间,区间,车次,坐席,可定时刷火车票

2018-01-11

鸟哥的linux私房菜第三版全

《鸟哥的Linux私房菜（基础学习篇第三版）》是颇具知名度的Linux入门书《鸟哥的Linux私房菜：基础学习篇》的全新版，全面而详细地介绍了Linux操作系统。全书分为5个部分：第一部分着重说明Linux的起源及功能，如何规划和安装Linux主机；第二部分介绍Linux的文件系统、文件、目录与磁盘的管理；第三部分介绍文字模式接口shell和管理系统的好帮手shell脚本，另外还介绍了文字编辑器vi和vim的使用方法；第四部分介绍了对于系统安全非常重要的Linux账号的管理，以及主机系统与程序的管理，如查看进程、任务分配和作业管理；第五部分介绍了系统管理员(root)的管理事项，如了解系统运行状况、系统服务，针对登录文件进行解析，对系统进行备份以及核心的管理等

2018-01-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人