奔跑的乌班-CSDN博客

原创 AttributeError: 'DataFrame' object has no attribute 'map'

[root@master pyspark]# spark-submit spark_python_sql.py19/05/04 17:03:16 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicableUsi...

2019-05-04 17:12:34 5428

转载 spark-env.sh配置参数详解

Spark记录-spark-env.sh配置环境变量含义SPARK_MASTER_IPmaster实例绑定的IP地址，例如，绑定到一个公网IPSPARK_MASTER_PORTmater实例绑定的端口（默认7077）SPARK_MASTER_WEBUI_PORTmaster web UI的端口（默认8080）SPARK...

2019-04-06 15:26:10 6879

原创 spark重分区算子repartition和coalesce解析

在spark中，有时候我们觉得task并行度太小，就想着提高其并行度。首先，先说一下有多少种增加分区提高并行度的方法：1，textFile(path, numPartion=partitionNum)2，增加hdfs上的block数3，reduceByKey groupByKey shuffl...

2019-04-04 00:40:51 1985

转载 Spark常用算子概述

Spark的算子的分类　　　从大方向来说，Spark 算子大致可以分为以下两类: 1）Transformation 变换/转换算子：这种变换并不触发提交作业，完成作业中间过程处理。　　　　　Transformation 操作是延迟计算的，也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行，需要等到有 Ac...

2019-03-31 10:10:05 303

原创数据分析之绘制边界以及np.c_和np.r_用法

这里记录一下绘制分类边界的方法。记录一下meshgrid，pcolormesh的使用方法import numpy as np# 抓取数据iris = datasets.load_iris()x = iris.data[:, 1:3]y = iris.target[:]k = 15 # 设置KNN k=15，计算周围临近的15个点# 图片，x，y每一步的步长h = 0.02# ...

2019-03-30 23:54:39 644

转载 SVM核函数概述

特征空间的隐式映射：核函数咱们首先给出核函数的来头：在上文中，我们已经了解到了SVM处理线性可分的情况，而对于非线性的情况，SVM 的处理方法是选择一个核函数 κ(⋅,⋅) ，通过将数据映射到高维空间，来解决在原始空间中线性不可分的问题。此外，因为训练样例一般是不会独立出现的，它们总是以成对样例的内积形式...

2019-03-27 08:55:53 21831 1

原创机器学习之贝叶斯定理

贝叶斯定理贝叶斯定理是关于随机事件A和B的条件概率（或边缘概率）的一则定理。其中P(A|B)是在B发生的情况下A发生的可能性。贝叶斯定理也称贝叶斯推理，早在18世纪，英国学者贝叶斯(1702～1763)曾提出计算条件概率的公式用来解决如下一类问题：假设H[1],H[2]…,H[n]互斥且构成一个完全事件，已知它们的概率P(H[i]),i=1,2,…,n,现观察到某事件A与H[1],H[...

2019-03-21 15:59:27 1131

原创机器学习之决策树-随笔

决策树决策树的本质：对数据进行分类，降低不确定性。这里，我们来判断下面几个人中是否喜欢打篮球。构建的决策树如下：所谓决策树，树在前面，决策在后面。这里，我们有假设一个美女相亲进行决策的情况。呵呵重点在找根节点。熵熵可以用来表示的是物体内部的混乱程度，事实上，这个说法在化学中比较常用，可以回忆一下；在这里，我们可以认为是表示分类的数据纯与不纯的度量。 ...

2019-03-21 12:40:00 473

原创 One-Hot 编码

独热编码即 One-Hot 编码，又称一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候，其中只有一位有效。独热编码恰好是一种解决上述问题的好办法。不过数据也因此变得稀疏。[{‘city’: ‘北京’,‘location’:‘北方’,‘temperature’:100},{‘city’: ‘上海’,‘location’:‘南方’,‘tem...

2019-03-20 15:16:29 550

原创机器学习之线性回归

线性回归这里，我们将工资和年龄作为自变量，额度作为因变量来建立模型，预测不同情况下，银行根据客户的工资和年龄应该发放的贷款额度。建立特征值和预测值的映射关系公式：假设为对应特征值和参数θ的情况下的预测值与真实值的误差：正态分布，又称高斯分布。我们可以得到的高斯分布中的概率，如下：（1）公...

2019-03-19 12:19:28 217

原创推荐引擎模型架构和排序模型概述

排序模型推荐引擎模型架构解释对指定用户进行推荐，这里我们必须明确两个重要的id，即userid和itemid。 1，推荐引擎获得userid和itemid，从数据库进行召回，形成推荐item列表，假如说这里召回300个item：score。 2，对于召回的item，我们通过基于内容和协同过滤的方式同时召回，而且这里召回的过程中有排序的过程，在这个阶段称之为粗排；但是此时两种不同...

2019-03-18 19:56:30 599

原创数据分析-使用matplotlib可视化工具画图

区域填充以某种颜色填充两条曲线的闭合区域.mp.fill_between( x, # x值的区间 sin_x, # 与x组成一条曲线 cos_x, # 与x组成第二条曲线 sin_x &lt; cos_x, # 绘制填充的条件 color='', alpha=0.5)案例: 绘制 sin_x=sin(x) cos_x...

2019-03-18 11:03:02 568

原创数据分析之-matplotlib概述

matplotlib概述matplotlib是python的一个绘图库.使用它可以很方便的绘制出版质量级别的图形.matplotlib的基本功能基本绘图绘制折线, 设置线型/线宽/颜色等.设置坐标轴范围设置坐标刻度设置坐标轴位置/颜色图例特殊点备注高级图形操作子图操作刻度定位器/刻度网格线半对数坐标散点图图像填充条形图/饼状图等高线图/热成像图3D图...

2019-03-18 11:00:26 433

原创数据分析之-numpy概述

numpy概述Numerical Python(数值python). 补充了python欠缺的数值运算能力.Numpy是其他数据分析及机器学习的底层库.Numpy完全标准C语言实现, 运行效率高.开源免费.numpy的历史1995年, 发布Numeric python.2001年, Scipy 提供 Numarray. (提供了多维数组)2005年, Numeric + Nu...

2019-03-18 10:56:59 185

原创大数据技术生态体系组件概述

大数据架构如下图所示：图中涉及的技术名词解释如下：1）Sqoop：sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle 等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。2）Flume：Flume是Cloudera提供的一个高可用的，高可...

2019-03-12 15:04:33 1246

原创 sqoop操作方法和原理

一、sqoop顾名思义：sql-to-hadoop，从中我们可以看出sqoop名字的由来，即sq + oop。1.1、sqoop简介sqoop是一个用来将hadoop中hdfs和关系型数据库中的数据相互迁移的工具，可以将一个关系型数据库（mysql、oracle等）中的数据导入到hadoop的hdfs中，也可以将hdfs的数据导入到关系型数据库中。1.2、sqoop的特点：sqoop...

2019-03-09 11:33:00 718

转载 ROW_NUMBER() OVER()函数用法详解（分组排序例子多）

转载自：https://blog.csdn.net/qq_25221835/article/details/82762416，感谢作者的分享原 ROW_NUMBER() OVER()函数用法详解（分组排序例子多） 2018年09月18日 19:11:38 一彡十 ...

2019-03-08 19:45:28 1382

原创 flume学习笔记

1.flume概述1.1.flume概念1.1.1.flume概念flume是分布式的，可靠的，高可用的，用于对不同来源的大量的日志数据进行有效收集、聚集和移动，并以集中式的数据存储的系统。flume目前是apache的一个顶级项目。1.1.2.系统需求flume需要java运行环境，要求java1.6以上，推荐java1.7.1.2.下载安装flume1.2.1.下载flume：...

2019-03-08 15:29:23 315

转载逻辑回归从入门到深入（logistic regression)

转载地址：https://blog.csdn.net/ustbbsy/article/details/80423294。感谢作者分享 1 引言    最近做一个项目，准备用逻辑回归来把数据压缩到[-1,1]，但最后的预测却是和标签类似（或者一样）的预测。也就是说它的predict的结果不是连续的，而是类别，1,2,3,.....

2019-03-08 14:19:33 316

原创隐马尔可夫模型及Viterbi算法

这里分享一个链接，感谢作者的分享。https://mp.weixin.qq.com/s?__biz=MzAxMjUyNDQ5OA==&mid=2653558648&idx=1&sn=047b8846eb42fcdfcc09dae4d73f9cd8&chksm=806e39c5b719b0d30e21411de966c817dfe1083a4bc9460a67390...

2019-03-02 09:49:52 286

原创数据分析之正态分布检验及python实现

正态分布（Normal distribution），也称“常态分布”，又名高斯分布（Gaussian distribution），最早由A.棣莫弗在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。是一个在数学、物理及工程等领域都非常重要的概率分布，在统计学的许多方面有着重大的影响力。　　正态曲线呈钟型，两头低，中间高，左右对称因...

2019-02-22 10:30:54 57358 22

原创数据特征分析之帕累托分析以及python实现

帕累托分析（贡献度分析） → 帕累托法则：20/80定律“原因和结果、投入和产出、努力和报酬之间本来存在着无法解释的不平衡。一般来说，投入和努力可以分为两种不同的类型：多数，它们只能造成少许的影响；少数，它们造成主要的、重大的影响。”→ 一个公司，80%利润来自于20%的畅销产品，而其他80%的产品只产生了20%的利润例如：** 世界上大约80％的资源是由世界上15％的人口所耗尽的**...

2019-02-22 09:58:05 5534

原创在centOS中vim的配置文件存放在/etc/vim目录中，配置文件名为vimrc

在centOS中vim的配置文件存放在/etc/vim目录中，配置文件名为vimrc在终端输入以下命令来编辑vimrc配置文件：vim /etc/vimrc 或者 /etc/vimrc这里跟ubuntu稍微不一样1、显示行号在文件末端添加一新行，输入 set nu2、语法高亮在文件中找到 “syntax on 这一行，去掉前面的双引号”，双引号是注释的意思3、自动缩进在文...

2019-02-22 09:32:41 4937 2

转载 MySQL优化

当MySQL单表记录数过大时，增删改查性能都会急剧下降，可以参考以下步骤来优化：单表优化除非单表数据未来会一直不断上涨，否则不要一开始就考虑拆分，拆分会带来逻辑、部署、运维的各种复杂度，一般以整型值为主的表在千万级以下，字符串为主的表在五百万以下是没有太大问题的。而事实上很多时候MySQL单表的性能依然有不少优化空间，甚至能正常支撑千万级以上的数据量：字段1、尽量使用TINYINT、SMA...

2019-02-20 23:26:34 78

原创 Hadoop运行环境搭建

1环境搭建基本配置：centos6.5主机内存：16g虚拟机版本：12pro1.1 虚拟机网络模式设置为NAT最后，重新启动系统。[root@hadoop101 ~]# sync[root@hadoop101 ~]# reboot1.2 克隆虚拟机1）克隆虚拟机2）启动虚拟机1.3 修改为静态ip1）在终端命令窗口中输入[root@hadoop101 ...

2019-02-18 13:37:09 336

原创在centos7.5中解决bash: pip:command not find 问题

在使用python的时候，有时候会需要找到python包的安装位置，来找其他安装的第三方包。下面我们来看看，在不同平台上，怎么找到python的安装路径。对于linux平台来说，很多运行的系统软件都是建立在python的基础之上，如果python出错了，那么整个系统可能会有出现重大问题的风险。我们以CentOS 7为例，在CentOS7中，python基础版本是2.7，如下面图中所示。我们可...

2019-02-18 11:05:13 18889 8

原创 hadoop中使用Python语言实现wordcount功能

run.shHADOOP_CMD=&quot;/usr/local/src/hadoop-2.6.5/bin/hadoop&quot;STREAM_JAR_PATH=&quot;/usr/local/src/hadoop-2.6.5/share/hadoop/tools/lib/hadoop-streaming-2.6.5.jar&quot;INPUT_FILE_PATH_1=&quot;/The_Man_of_Prop

2019-02-18 09:05:38 1793

原创比较完整的hadoop集群组件的安装教程

操作系统：centos7.4内核：3.10.0-693.el7.x86_64前提：关闭seliunx和firewalld所有软件包统一上传到/usr/local/src下面集群环境192.168.217.136 master192.168.217.137 slave1192.168.217.138 slave2设置免密钥登录：master节点执行：ssh-keygen...

2019-02-17 16:03:09 2344 1

原创 hmaster进程自动关闭，报错:org.apache.hadoop.hbase.util.FileSystemVersionException

2019-02-17 11:19:42,040 FATAL [master:16000.activeMasterManager] master.HMaster: Failed to become active masterorg.apache.hadoop.hbase.util.FileSystemVersionException: HBase file layout needs to be u...

2019-02-17 12:07:14 1516 4

原创 Java中使用顺序表ArrayList和链表LinkedList方式实现栈Stack

首先我们应该知道栈：遵循后进先出/先进后出的原则。最先放入栈中的元素 — 栈底元素，最后放入栈中的元素 — 栈顶元素。将元素放入栈中 ---- 入栈/压栈，将元素从栈中取出 ---- 出栈/弹栈。 import java.util.Stack; public class StackDemo { public static void main(String[] ...

2019-01-30 18:09:05 713

原创 java字符串类型String-----存储过程详解

#Stringjava字符串部分特点（关于String类型的详细定义和描述请读者阅读API手册）：最终类。代表字符串的类，所有的字符串都市String的对对象。字符串是一个常量，定义好之后不可改变。因为字符串是一个常量，所以它是被共享的。字符串本质上是一个字符数组。public class StringDemo { public static void main(String[]...

2019-01-24 18:35:58 681 1

原创 Java匿名函数Lambda

匿名内部类由于没有名字，创建格式如下：父类名|接口名对象名 = new 父类构造器（参数列表）|实现接口（） { //匿名内部类的类体部分 }匿名内部类必须要继承一个父类或者实现一个接口，当然也仅能只继承一个父类或者实现一个接口。同时它也是没有class关键字，这是因为匿名内部类是直接使用new来生成一个对象的引用。当然这...

2019-01-24 10:47:07 12605

原创 pandas分组统计 - groupby功能

数据分组分组统计 - groupby功能① 根据某些条件将数据拆分成组② 对每个组独立应用函数③ 将结果合并到一个数据结构中Dataframe在行（axis=0）或列（axis=1）上进行分组，将一个函数应用到各个分组并产生一个新值，然后函数执行结果被合并到最终的结果对象中。df.groupby(by=None, axis=0, level=None, as_index=True, s...

2019-01-05 11:11:16 37802

原创 5种创建Dataframe方法

下面将简要介绍Dataframe的5种创建方法，由于输出结果比较冗余，这里将不会展示输出结果，读者可以自行赋值粘贴，最好使用jupyter运行，并查看结果。另外的，代码中有非常详细的注释。Dataframe创建方法一import numpy as npimport pandas as pddata1 = { &quot;a&quot;:[1,2,3], &quot;b&quot;:[4,5,6], &a

2019-01-03 15:17:02 85172

原创 pandas中Series数组创建方法

import numpy as npimport pandas as pdar = np.random.rand(5)# s = pd.Series(ar)s = pd.Series(ar, index = list("abcde"))print(s)print(type(s))print("-------------")print(s.index, type(s.index)...

2019-01-03 15:10:15 6209

原创 pandas学习笔记之Dataframe索引

# DataFra是一个表格，有行索引和列索引，可以被看做由Series组成的字典（共用一个索引） import numpy as np import pandas as pd df = pd.DataFrame(np.random.rand(12).reshape(3,4) * 100, index = ["one","two","three"], c..

2019-01-03 14:59:32 718

转载 numpy中的cumsum函数

Cumsum ：计算轴向元素累加和，返回由中间结果组成的数组重点就是返回值是“由中间结果组成的数组”以下代码在python3.6版本运行成功！下面看代码，定义一个223的数组，所以其shape是2，2，3，索引分别0，1，2shape 索引2 02 13 2代码：import numpy as nparr = np.array([[[1,2,3],[8,9,12]],[[1,...

2018-12-29 21:20:48 5490

原创 json和pickle两个序列化模块详解

用于序列化的两个模块json：用于字符串和Python数据类型间进行转换pickle: 用于python特有的类型和python的数据类型间进行转换json提供四个功能：dumps,dump,loads,loadpickle提供四个功能：dumps,dump,loads,loadpickle模块和json模块还是比较实用的，还有许多的信息可以去了解，想了解更多信息的话可以阅读下pyt...

2018-12-28 13:26:21 864

原创糗事百科爬虫实现

前两天写了一下关于糗百的爬虫，现在将代码分享给大家，有兴趣的同学可以了解一下1，下面是正常流程实现爬虫过程的源代码，如下：# coding=utf-8import requestsimport jsonfrom lxml import etreeclass QiubaiSpider: def __init__(self): self.part_url = 'h...

2018-12-28 11:00:03 152

原创 python中基于多任务的文件复制方法

网络编程中，使用多任务实现文件的复制是非常有必要的。下面将简要介绍两种基于多任务的文件复制实现方式。1.下面实现的是使用队列实现文件的多任务复制过程import multiprocessingimport osdef copied_old_folder(q, old_folder_name): '''文件复制放入队列中''' file_infos = [] fi...

2018-12-14 21:38:26 197

离散数学课后习题答案

空空如也