自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小丑鱼1127的博客

大数据分析师

  • 博客(29)
  • 资源 (15)
  • 收藏
  • 关注

转载 python3解析库lxml

python3解析库lxml1、python库lxml的安装2、XPath常用规则(1)读取文本解析节点(2)读取HTML文件进行解析(3)获取所有节点(4)获取子节点(5)获取父节点(6)属性匹配(7)文本获取(8)属性获取(9)属性多值匹配(10)多属性匹配(11)XPath中的运算符(12)按序选择(13)节点轴选择(14)案例应用:抓取TIOBE指数前20...

2019-07-01 09:48:23 455

转载 Kafka 是否可以用做长期数据存储?

问题“把 Kafka 作为长期存储有问题吗?”这是一个非常常见的问题,我们知道,Kafka 是这样存储日志记录的答案是“可以”,只要把数据保留时间设置为“永久”,或者开启日志压缩,数据就会被一直保存把数据长期存储在 Kafka,这个做法并不疯狂,很多人已经在这么用,并且 Kafka 的设计中也涵盖了这种用法,下面是一些实际应用的场景应用场景(1)你有一个应用,使用了事件模...

2019-06-20 14:35:09 1210

原创 ElasticSearch常用语句

ElasticSearch常用语句ElasticSearch:6.4.x定义规则:PUT _template/template_1{ "index_patterns": ["es_index_*"], #es索引index规则 "settings": { "number_of_shards": 5, #设置分片数 "number_of_...

2019-06-05 15:26:45 928

原创 使用PySpark将kafka数据写入ElasticSearch

使用PySpark将kafka数据写入ElasticSearchElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。  ...

2019-05-27 18:00:41 1448

原创 hive分区表增加字段会导致新增字段为NULL

hive分区表增加字段会导致新增字段无法显示值的BUG问题:创建了hive表:create table default.temp (id int,name string) partitioned by (logdate string);插入数据:insert into table default.temp partition (logdate='2019-03-01') v...

2019-04-18 15:58:47 1512

转载 Spark Streaming与Kafka如何保证数据零丢失

1、At most once - 每条数据最多被处理一次(0次或1次),这种语义下会出现数据丢失的问题;2、At least once - 每条数据最少被处理一次 (1次或更多),这个不会出现数据丢失,但是会出现数据重复;3、Exactly once - 每条数据只会被处理一次,没有数据会丢失,并且没有数据会被多次处理,这种语义是大家最想要的,但是也是最难实现的。spark streami...

2019-03-13 10:49:12 571

转载 RabbitMQ 四种类型发送接收数据方式

1.基本用法生产者1 import pika2 import sys34 username = 'wt' #指定远程rabbitmq的用户名密码5 pwd = '111111'6 user_pwd = pika.PlainCredentials(username, pwd)7 s_conn = pika.BlockingConnection(pika.Co...

2019-03-07 10:17:08 3613

转载 正则表达式三种模式:贪婪模式、懒惰模式、独占模式

需求为Lazada卖家中心做一个自助注册的项目,其中的shop name校验规则较为复杂,要求1. 英文字母大小写2. 数字3. 越南文4. 一些特殊字符,如“&”,“-”,“_”等看到这个要求的时候,自然而然地想到了正则表达式。于是就有了下面的表达式(写的比较龊):^([A-Za-z0-9._()&'\- ]|[aAàÀảẢãÃáÁạẠăĂằẰẳẲẵẴắẮặẶ...

2019-03-05 17:16:34 515 1

转载 requests发送post请求的一些疑点

前言在Python爬虫中,使用requests发送请求,访问指定网站,是常见的做法。一般是发送GET请求或者POST请求,对于GET请求没有什么好说的,而发送POST请求,有很多朋友不是很清楚,主要是因为容易混淆POST提交的方式。在HTTP协议中,post提交的数据必须放在消息主体中,但是协议中并没有规定必须使用什么编码方式,从而导致了提交方式的不同。服务端根据请求头中的Content-...

2019-02-19 14:24:47 302

转载 正则化方法:L1和L2 regularization、数据集扩增、dropout

正则化方法:防止过拟合,提高泛化能力在训练数据不够多时,或者overtraining时,经常会导致overfitting(过拟合)。其直观的表现例如以下图所看到的。随着训练过程的进行,模型复杂度添加,在training data上的error渐渐减小。可是在验证集上的error却反而渐渐增大——由于训练出来的网络过拟合了训练集,对训练集外的数据却不work。 为了防止overfit...

2019-02-19 11:24:25 233

转载 搞懂朴素贝叶斯公式

一. 朴素贝叶斯      朴素贝叶斯中的朴素一词的来源就是假设各特征之间相互独立。这一假设使得朴素贝叶斯算法变得简单,但有时会牺牲一定的分类准确率。    首先给出贝叶斯公式:    换成分类任务的表达式:     我们最终求的p(类别|特征)即可!就相当于完成了我们的任务。     则,朴素贝特斯公式为:二. 实例解析首先,给出数据如下:现在给我们的问题是,如果...

2019-01-25 12:29:16 1800

原创 Structured Streaming使用staticDf和StreamingDf进行join

概观结构化流是一种基于Spark SQL引擎的可扩展且容错的流处理引擎。您可以像表达静态数据的批处理计算一样表达流式计算。Spark SQL引擎将负责逐步和连续地运行它,并在流数据继续到达时更新最终结果。您可以使用Scala,Java,Python或R中的数据集/数据框架API来表示流聚合,事件时间窗口,流到批处理连接等。计算在同一优化的Spark SQL引擎上执行。最后,系统通过检查点和预写...

2018-12-07 17:23:32 5310

原创 flink项目开发-flink的scala shell命令行交互模式开发

flink的 scala shell命令行交互模式开发版本Flink:1.6.2flink带有一个集成的scala shell命令行。它可以以本地方式启动来模拟集群集群。执行下面的命令就可以通过shell命令行和flink集群交互(这种方式方便于代码调试):bin/start-scala-shell.sh local如果想在集群上面运行scala shell,请查看本节后面的...

2018-12-05 17:24:35 5869

转载 Spark排错与优化

文章目录一. 运维1. Master挂掉,standby重启也失效2. worker挂掉或假死二. 运行错误1.shuffle FetchFailedException2.Executor&Task Lost3.倾斜4.OOM5.task not serializable6.driver.maxResultSize太小7.taskSet too large8. dr...

2018-12-04 09:05:44 6681

转载 Hive性能优化(全面)

 Hive性能优化(全面)原文地址:https://blog.csdn.net/qq_36421826/article/details/82112373#commentBox1.介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据量大不是问题,数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联...

2018-11-02 10:12:21 8032

原创 Kylin 认识及使用RESTful API进行cube的增量更新

  Kylin 认识及使用RESTful API进行cube的增量更新版本:spark 2.2.0kylin:2.5.0首次登入界面: 首先要创建project:如果想要查看当前有多少个project:点击Manage Project:创建完Project之后,就可以导入hive的数据(kylin是查询hive的数据,根据预计算将结果预写入H...

2018-11-01 09:06:23 9785

原创 HIVE分区以及分桶的简单概念

1、Hive 分区表在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。分区表指的是在创建表时指定的partition的分区空间。 Hive可以对数据按照某列或者某些列进行分区管理,所谓分区我们可以拿下面的例子进行解释。 当前互联网应用每天都要存储大量的日志文件,几G、几十G甚至更大...

2018-10-16 13:24:18 9741

原创 HIVE函数集合(全)

HIVE函数集合函数名 含义及实例 ABS abs(x) - 返回x的绝对值 示例:   > SELECT abs(0)FROM src LIMIT 1;   0   > SELECT abs(-5)FROM src LIMIT 1;   五 ACOS acos(x) - 如果-1 <= x <= 1则返回x的反余...

2018-09-29 13:05:39 25295 1

原创 FreeTDS在Linux操作sqlServer

FreeTDS在Linux操作sqlServer什么是FreeTDS   简单的说FreeTDS是一个程序库,可以实现在Linux系统下访问微软的SQL数据库! FreeTDS 是一个开源的程序库,是TDS(表列数据流 )协议的再次实现。它可以被用在Sybase的db-lib或者ct-lib库。它也包含一个ODBC的库。允许许多开源的应用软件比如Perl和PHP(或者你自己的c或C++程序)...

2018-09-06 10:51:57 19944 2

原创 Zeppelin结合Spark等各种Interpreter的使用

Zeppelin结合Spark等各种Interpreter的使用Apache Zeppelin是基于Web的笔记本,支持SQL、Scala等数据驱动的交互式数据分析和协作文档。技术方面主要有Spark、SQL、Python。在部署方面支持单个用户也支持多用户。Zeppelin Notebook可以满足数据摄取、数据发现、数据分析、数据可视化与协作。多语言后端Apace Zeppel...

2018-09-05 10:27:46 21486 5

原创 Linux窗口和Win命令窗口查看mysql bit类型的值

Linux窗口和Win命令窗口查看mysql bit类型的值在很多情况下(例如数据量大、磁盘空间有限活节约空间),我们需要压缩存储空间,mysql的数据也一样,当我们存储的数据为1和0时,就可以采用bit类型数据要减少存储空间,Bit称为位数据类型,其数据有两种取值:0和1,长度为1位。在输入0以外的其他值时,系统均把它们当1看待。在mysql工具当中(比如Navicat)可以查看mysq...

2018-09-04 09:59:26 12730

原创 SPSS数据分组

SPSS数据分组数据分组,根据分析目的将数值型数据进行等距或非等距分组,这个过程也称为数据离散化,一般用于查看分布,入消费分布、收入分布、年龄分布等在SPSS中主要使用可视分箱来对数据分组操作,首先打开数据,点击转换菜单栏下面的可视分箱:我们主要是对年龄进分组,将“年龄”变量移至“要分箱的变量”中,点击继续:可以为分组变量起名为:年龄段(分箱化变量),从直方图中我们可以看出...

2018-08-24 14:59:31 36029 1

原创 SPSS数据抽取

SPSS数据抽取数据抽取一般分为两类:字段拆分和随机抽样字段拆分数据抽取,也称为数据拆分,是只保留原数据表中的某些字段、记录的部分信息,形成一个新字段、新记录。在spss中导入我们需要的数据,变量主要包含如下:对于身份号码可以获取出生年、月、日点击转换菜单栏下面的计算变量:在函数组中选择字符串,在函数和特殊变量中选择Char.Substr(3),双击Char.S...

2018-08-24 14:30:42 21887

原创 SPSS数据清洗

SPSS数据清洗关于spss对数据的清洗,就是将多余重复的数据筛选清楚,将确实的数据补充完整,将错误的数据纠正活删除。下面主要内容是关于最常用的重复数据操作:首先在spss中导入需要去重的数据:选择数据菜单,选择【标识重复个案】因为我们是要将6个变量都相同的理解为重复个案,所以需要将6个变量全都放置“定义匹配个案的依据中”其他保持不变,然后点击确定,在数据窗口就...

2018-08-24 11:19:04 27344 2

原创 Windows安装mysql的ZIP包

Windows安装mysql的ZIP包MYSQL安装的时候可以有msi安装和zip解压缩两种安装方式(windows)。zip压缩包解压到目录,要使用它还需对它进行一定的配置。下面对Mysql压缩包版的安装方法进行详细的描述。一、下载mysql压缩包文件下载地址:https://dev.mysql.com/downloads/mysql/①选择相应的mysql版本:如图②根...

2018-08-24 10:07:55 22942 8

原创 kettle链接hive的环境配置

kettle链接hive1)首先将hive/lib目录的包导入到kettle目录D:\software\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\cdh510\lib下(找到你安装的目录)2)找到D:\software\data-integration\plugins\pentaho-b...

2018-08-24 09:40:14 14231

原创 phoenix创建hbase的映射表

phoenix创建hbase的映射表首先在hbase中创建表方法如下:往表里面添加数据:hbase查询数据: 在phoenix创建hbase的映射表:  注意:在phoenix创建hbase映射表时,如果hbase的表是小写,一定要在创建phoenix映射表时小写表名加上引号,phoenix映射表的字段不管hbase的字段是大小写都要加上引号,...

2018-08-23 11:53:47 18703 6

原创 GitHub详细使用步骤

将项目上传到github上详细步骤①首先注册github账号登录,创建新仓库 ,点击下三角+号,再点击new repository得到如下页面,填写仓库名,自己随便写一个名字,下面的描述可写可不写,点击Initialize this repository   with a README,然后创建:②下载git shell,https://git-scm.com/download...

2018-08-20 17:22:13 13559 1

转载 猫眼爬取专业评分的python技术

本人是比较喜欢爬虫技术,对于爬虫我更喜欢python的一些框架等,最好看见很不错的一篇文章,给大家转发看下转发链接:https://blog.csdn.net/qq_36421826/article/details/72621867...

2018-06-14 11:03:07 12365

信息系统项目管理师备考指导.rar

信息系统项目管理师备考指导

2022-01-05

【百度地图API】自行获取区域经纬度的工具.html

百度地图,下载可直接打开获取任意点击经纬度,开启状态可获取连线多经纬度

2022-01-05

全球经纬度边界JSON数据-(全).rar

全球各国的经纬度边界数据,数据为JSON格式的,比较全,不是shp格式的。注意下载

2022-01-05

世界各个国家边界范围 shp格式数据154.77MB

全球行政区划shapefile数据,包含全球行政区划数据

2022-01-05

Python爬虫框架Scrapy_200页操作过程

Python爬虫从入门到精通,这篇文档主要是针对学习python爬虫的课程,又基础的python爬虫框架scrapy开始,一步步学习到最后完整的爬虫完成,现在python爬虫应用的非常广泛,改篇详细介绍了scrapy爬虫和其他爬虫技术的对比,深入剖析python爬虫的每一步,主要内容如下: 1)pyhon爬虫基础 2)爬虫库 3)Scrapy框架 4)命令行工具 5)Items 6)Spiders 7)选择器 8)管道 9)中间件 10)爬虫小技巧

2018-08-21

R语言描述性统计分析_207页

R语言描述性统计分析,这篇文档主要是以R语言基础为引导到R语言描述性统计分析,会有分析方法和高级绘图方法,主要章节有: 第一章:数据分析概念与R编程 第二章:SQL数据库与统计分析 第三章:描述性统计分析推断 第四章:捅进推断与精益化管理 第五章:时长分析方法与模式识别 第六章:客户分析方法与分类模型 第七章:时间序列分析与综合案例

2018-08-21

Python基础及其数据分析库_279页

Python基础及其数据分析库,这篇文章主要 1)python语言介绍 2)Anaconda科学计算集成介绍 3)python编辑器、shell,编辑器介绍 4)python的第三方包的管理 5)python在数据分析领域的生态介绍 6)程序 7)变量,表达式和语句 8)函数 9)条件表达式 10)字符串 11)列表 12)序列 13)字典 14)文件 15)异常 16)类和对象 17)类和方法 18)操作符重定义 19)继承 20)numpy库 21)Pandas库 22)Pandas数据读写 23)深入pandas数据处理

2018-08-21

2018年手机号码归属地

2018年手机号码归属地,这篇文档主要是手机号码归属地详细内容

2018-08-21

SPSS Modeler数据挖掘方法及应用_网盘链接下载85.25M

SPSS Modeler数据挖掘方法及应用,本书主要特点: 1)以数据挖掘过程为线索介绍SPSS Modeler软件 2)数据挖掘方法,软件操作、案例分析的有机结合 3)数据挖掘方法讲解通俗,软件操作过程说明详实 主要内容如下: 1)数据挖掘和SPSS Modeler概述 2)SPSS Modeler数据的读入 3)SPSSModeler变量的管理 4)SPSS Modeler样本的管理 5)SPSS Modeler数据的基本分析 6)分类预测:SPSS Modeler的决策树 7)分类预测:SPSS Modeler的人工神经网络 8)分类预测:SPSS Modeler的统计方法 9)探索内部结构:SPSS Modeler 的关联分析 10)探索内部结构:SPSS Modeler的聚类分析

2018-08-20

基于SPSS Modeler的数据挖掘_数据分析_网盘链接下载108.40M

基于SPSS Modeler的数据挖掘_数据分析,主要结合了三个方面进行讲解,第一是软件操作层面,让使用者实际操作,尽快掌握软件的使用方法和处理步骤,第二是结果分析层面,让使用者通过案例演示,基本明白软件的输出结果,从而得出正确的分析结论,第三是方法论层面,让使用者通过对某个算法基本思路的了解,进一步提高方法应用和分析水平,升华对数据挖掘的认识。主要内容如下: 1)数据挖掘和Modeler使用概述 2)Modeler的数据读入和数据集成 3)Modeler的数据理解 4)Modeler的数据准备 5)Modeler的基本分析 6)Modeler的数据精简 7)分类预测:Modeler的决策树 8)分类预测:Modeler的人工神经网络 9)分类预测:Modeler的支持向量机 10)分类预测:Modeler的贝叶斯网络 11)探索内部结构:Modeler的聚类分析 12)探索内部结构:Modeler的关联分析

2018-08-20

SPSS从入门到精通_网盘链接下载37.93M

SPSS从入门到精通,主要是通过统计描述、统计推断和探索性分析,总结并提炼工作汇中经常用到并且非常实用的通过SPSS进行数据处理,数据分析实战方法和技巧。主要内容如下: 1)SPSS概况 2)数据处理 3)数据分析 4)相关分析 5)回归分析 6)自动线性建模 7)Logistic回归 8)时间序列分析 9)RFM分析 10)聚类分析 11)因子分析 12)对应分析

2018-08-20

Spark大数据分析技术_网盘链接下载15.69M

Spark大数据分析技术,是一本为Spark初学者准备的书,没有过多深入实现细节,而更多关注上层用户的具体用法。尝试把spark应用到实践中,去探寻数据海洋里的无尽瑰宝。主要内容如下: 1)Spark数据分析导论 2)Spark下载与入门 3)RDD编程 4)键值对操作 5)数据读取与保存 6)Spark编程进阶 7)在集群上运行的Spark 8)Spark调优与调试 9)SparkSQL 10)Spark Streaming 11)基于MLlib的机器学习

2018-08-20

数据分析师TABLEAU应用实战_网盘链接48.32M

《数据分析师TABLEAU应用实战》全篇以丰富的电力行业实际案列贯穿始终,对各类方法,技术进行详细说明,包括数据连接与管理,踧踖与高级可视化分析,地图分析,高级数据操作,统计分析,分析图表整合与分析成果共享等主要内容,方便大家快速掌握数据连接与标记、图形展示与编辑功能,阐述了如何与R同等工具进行集成,如何在服务器上进行发布管理等内容,主要部分如下: 1)Tableau入门 2)典型应用场景 3)数据连接与管理 4)初级可视化分析 5)地图分析 6)高级数据操作 7)高级可视化分析 8)统计分析 9)分析图表整合 10)分析成果共享 11)Tableau Server简介

2018-08-20

数据分析_企业完整高清版_熟练数据分析过程

《数据分析_企业完整高清版_熟练数据分析过程》结合了项目流程和项目应用让大家可以更深入理解Excel的应用,引项目之线,穿知识之珠,让你真正学会企业数据分析的使用过程,本书主要包括以下内容: 1)数据分析的价值与需求 2)数据分析的实战与应用 设计方案 数据采集 数据处理 数据分析

2018-08-20

[Excel数据处理与分析实战技巧精粹]

[Excel数据处理与分析实战技巧精粹]专业版是市场上最为强大便捷的Excel比较工具。它为工作中经常需要进行数据比较的用户提供了完美的解决方案。无论你的数据是存放在Excel文件,还是存放在文本文件,或者存放在Access、Microsoft SQL数据库,[Excel数据处理与分析实战技巧精粹]专业版都可以提供快速比较,大量节省您的时间和精力,将您从枯燥冗长的数据海洋中解放出来,从而让您的工作变得轻松愉快。 [Excel数据处理与分析实战技巧精粹]专业版不同于其它同类产品。其它同类产品在比较时候,要么是一个插件,要么需要显式地在前台运行Excel程序。而百分百比较Excel完全独立运行,与后台的Excel程序协同完成工作,不需要来回切换程序。 掌握SUM函数,if函数,vlookup函数,index函数,match函数。offset函数和text函数等,成为一个高级用户。

2018-08-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除