自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(41)
  • 资源 (1)
  • 收藏
  • 关注

原创 AttributeError: 'DataFrame' object has no attribute 'map'

[root@master pyspark]# spark-submit spark_python_sql.py19/05/04 17:03:16 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicableUsi...

2019-05-04 17:12:34 5428

转载 spark-env.sh配置参数详解

Spark记录-spark-env.sh配置 环境变量含义SPARK_MASTER_IPmaster实例绑定的IP地址,例如,绑定到一个公网IPSPARK_MASTER_PORTmater实例绑定的端口(默认7077)SPARK_MASTER_WEBUI_PORTmaster web UI的端口(默认8080)SPARK...

2019-04-06 15:26:10 6879

原创 spark重分区算子repartition和coalesce解析

    在spark中,有时候我们觉得task并行度太小,就想着提高其并行度。    首先,先说一下有多少种增加分区提高并行度的方法:1,textFile(path, numPartion=partitionNum)2,增加hdfs上的block数3,reduceByKey groupByKey shuffl...

2019-04-04 00:40:51 1985

转载 Spark常用算子概述

Spark的算子的分类   从大方向来说,Spark 算子大致可以分为以下两类:     1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。     Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Ac...

2019-03-31 10:10:05 303

原创 数据分析之绘制边界以及np.c_和np.r_用法

这里记录一下绘制分类边界的方法。记录一下meshgrid,pcolormesh的使用方法import numpy as np# 抓取数据iris = datasets.load_iris()x = iris.data[:, 1:3]y = iris.target[:]k = 15 # 设置KNN k=15,计算周围临近的15个点# 图片,x,y每一步的步长h = 0.02# ...

2019-03-30 23:54:39 644

转载 SVM核函数概述

特征空间的隐式映射:核函数    咱们首先给出核函数的来头:在上文中,我们已经了解到了SVM处理线性可分的情况,而对于非线性的情况,SVM 的处理方法是选择一个核函数 κ(⋅,⋅) ,通过将数据映射到高维空间,来解决在原始空间中线性不可分的问题。    此外,因为训练样例一般是不会独立出现的,它们总是以成对样例的内积形式...

2019-03-27 08:55:53 21831 1

原创 机器学习之贝叶斯定理

贝叶斯定理​ 贝叶斯定理是关于随机事件A和B的条件概率(或边缘概率)的一则定理。其中P(A|B)是在B发生的情况下A发生的可能性。​ 贝叶斯定理也称贝叶斯推理,早在18世纪,英国学者贝叶斯(1702~1763)曾提出计算条件概率的公式用来解决如下一类问题:假设H[1],H[2]…,H[n]互斥且构成一个完全事件,已知它们的概率P(H[i]),i=1,2,…,n,现观察到某事件A与H[1],H[...

2019-03-21 15:59:27 1131

原创 机器学习之决策树-随笔

决策树决策树的本质:​ 对数据进行分类,降低不确定性。​ 这里,我们来判断下面几个人中是否喜欢打篮球。构建的决策树如下:所谓决策树,树在前面,决策在后面。​ 这里,我们有假设一个美女相亲进行决策的情况。呵呵​ 重点在找根节点。熵​ 熵可以用来表示的是物体内部的混乱程度,事实上,这个说法在化学中比较常用,可以回忆一下;在这里,我们可以认为是表示分类的数据纯与不纯的度量。​ ...

2019-03-21 12:40:00 473

原创 One-Hot 编码

独热编码即 One-Hot 编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效。独热编码恰好是一种解决上述问题的好办法。不过数据也因此变得稀疏。[{‘city’: ‘北京’,‘location’:‘北方’,‘temperature’:100},{‘city’: ‘上海’,‘location’:‘南方’,‘tem...

2019-03-20 15:16:29 550

原创 机器学习之线性回归

线性回归这里,我们将工资和年龄作为自变量, 额度作为因变量来建立模型,预测不同情况下,银行根据客户的工资和年龄应该发放的贷款额度。建立特征值和预测值的映射关系公式:假设为对应特征值和参数θ的情况下的预测值与真实值的误差:​ 正态分布,又称高斯分布。我们可以得到的高斯分布中的概率,如下: (1)公...

2019-03-19 12:19:28 217

原创 推荐引擎模型架构和排序模型概述

排序模型推荐引擎模型架构解释​ 对指定用户进行推荐,这里我们必须明确两个重要的id,即userid和itemid。​ 1,推荐引擎获得userid和itemid,从数据库进行召回,形成推荐item列表,假如说这里召回300个item:score。​ 2,对于召回的item,我们通过基于内容和协同过滤的方式同时召回,而且这里召回的过程中有排序的过程,在这个阶段称之为粗排;但是此时两种不同...

2019-03-18 19:56:30 599

原创 数据分析-使用matplotlib可视化工具画图

区域填充以某种颜色填充两条曲线的闭合区域.mp.fill_between( x, # x值的区间 sin_x, # 与x组成一条曲线 cos_x, # 与x组成第二条曲线 sin_x < cos_x, # 绘制填充的条件 color='', alpha=0.5)案例: 绘制 sin_x=sin(x) cos_x...

2019-03-18 11:03:02 568

原创 数据分析之-matplotlib概述

matplotlib概述matplotlib是python的一个绘图库.使用它可以很方便的绘制出版质量级别的图形.matplotlib的基本功能基本绘图绘制折线, 设置线型/线宽/颜色等.设置坐标轴范围设置坐标刻度设置坐标轴位置/颜色图例特殊点备注高级图形操作子图操作刻度定位器/刻度网格线半对数坐标散点图图像填充条形图/饼状图等高线图/热成像图3D图...

2019-03-18 11:00:26 433

原创 数据分析之-numpy概述

numpy概述Numerical Python(数值python). 补充了python欠缺的数值运算能力.Numpy是其他数据分析及机器学习的底层库.Numpy完全标准C语言实现, 运行效率高.开源免费.numpy的历史1995年, 发布Numeric python.2001年, Scipy 提供 Numarray. (提供了多维数组)2005年, Numeric + Nu...

2019-03-18 10:56:59 185

原创 大数据技术生态体系组件概述

大数据架构如下图所示:图中涉及的技术名词解释如下:1)Sqoop:sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle 等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。2)Flume:Flume是Cloudera提供的一个高可用的,高可...

2019-03-12 15:04:33 1246

原创 sqoop操作方法和原理

一、sqoop顾名思义:sql-to-hadoop,从中我们可以看出sqoop名字的由来,即sq + oop。1.1、sqoop简介sqoop是一个用来将hadoop中hdfs和关系型数据库中的数据相互迁移的工具,可以将一个关系型数据库(mysql、oracle等)中的数据导入到hadoop的hdfs中,也可以将hdfs的数据导入到关系型数据库中。1.2、sqoop的特点:sqoop...

2019-03-09 11:33:00 718

转载 ROW_NUMBER() OVER()函数用法详解 (分组排序 例子多)

转载自:https://blog.csdn.net/qq_25221835/article/details/82762416,感谢作者的分享 原 ROW_NUMBER() OVER()函数用法详解 (分组排序 例子多) 2018年09月18日 19:11:38 一彡十 ...

2019-03-08 19:45:28 1382

原创 flume学习笔记

1.flume概述1.1.flume概念1.1.1.flume概念flume是分布式的,可靠的,高可用的,用于对不同来源的大量的日志数据进行有效收集、聚集和移动,并以集中式的数据存储的系统。flume目前是apache的一个顶级项目。1.1.2.系统需求flume需要java运行环境,要求java1.6以上,推荐java1.7.1.2.下载安装flume1.2.1.下载flume:...

2019-03-08 15:29:23 315

转载 逻辑回归从入门到深入(logistic regression)

转载地址:https://blog.csdn.net/ustbbsy/article/details/80423294。 感谢作者分享 1 引言    最近做一个项目,准备用逻辑回归来把数据压缩到[-1,1],但最后的预测却是和标签类似(或者一样)的预测。也就是说它的predict的结果不是连续的,而是类别,1,2,3,.....

2019-03-08 14:19:33 316

原创 隐马尔可夫模型及Viterbi算法

这里分享一个链接,感谢作者的分享。https://mp.weixin.qq.com/s?__biz=MzAxMjUyNDQ5OA==&mid=2653558648&idx=1&sn=047b8846eb42fcdfcc09dae4d73f9cd8&chksm=806e39c5b719b0d30e21411de966c817dfe1083a4bc9460a67390...

2019-03-02 09:49:52 286

原创 数据分析之正态分布检验及python实现

正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution),最早由A.棣莫弗在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。  正态曲线呈钟型,两头低,中间高,左右对称因...

2019-02-22 10:30:54 57358 22

原创 数据特征分析之帕累托分析以及python实现

帕累托分析(贡献度分析) → 帕累托法则:20/80定律“原因和结果、投入和产出、努力和报酬之间本来存在着无法解释的不平衡。一般来说,投入和努力可以分为两种不同的类型:多数,它们只能造成少许的影响;少数,它们造成主要的、重大的影响。”→ 一个公司,80%利润来自于20%的畅销产品,而其他80%的产品只产生了20%的利润例如:** 世界上大约80%的资源是由世界上15%的人口所耗尽的**...

2019-02-22 09:58:05 5534

原创 在centOS中vim的配置文件存放在/etc/vim目录中,配置文件名为vimrc

在centOS中vim的配置文件存放在/etc/vim目录中,配置文件名为vimrc在终端 输入以下命令来编辑vimrc配置文件:vim /etc/vimrc 或者 /etc/vimrc这里跟ubuntu稍微不一样1、显示行号在文件末端添加一新行,输入 set nu2、语法高亮在文件中找到 “syntax on 这一行,去掉前面的双引号”,双引号是注释的意思3、自动缩进在文...

2019-02-22 09:32:41 4937 2

转载 MySQL优化

当MySQL单表记录数过大时,增删改查性能都会急剧下降,可以参考以下步骤来优化:单表优化除非单表数据未来会一直不断上涨,否则不要一开始就考虑拆分,拆分会带来逻辑、部署、运维的各种复杂度,一般以整型值为主的表在千万级以下,字符串为主的表在五百万以下是没有太大问题的。而事实上很多时候MySQL单表的性能依然有不少优化空间,甚至能正常支撑千万级以上的数据量:字段1、尽量使用TINYINT、SMA...

2019-02-20 23:26:34 78

原创 Hadoop运行环境搭建

1环境搭建基本配置:centos6.5主机内存:16g虚拟机版本:12pro1.1 虚拟机网络模式设置为NAT最后,重新启动系统。[root@hadoop101 ~]# sync[root@hadoop101 ~]# reboot1.2 克隆虚拟机1)克隆虚拟机2)启动虚拟机1.3 修改为静态ip1)在终端命令窗口中输入[root@hadoop101 ...

2019-02-18 13:37:09 336

原创 在centos7.5中解决bash: pip:command not find 问题

在使用python的时候,有时候会需要找到python包的安装位置,来找其他安装的第三方包。下面我们来看看,在不同平台上,怎么找到python的安装路径。对于linux平台来说,很多运行的系统软件都是建立在python的基础之上,如果python出错了,那么整个系统可能会有出现重大问题的风险。我们以CentOS 7为例,在CentOS7中,python基础版本是2.7,如下面图中所示。我们可...

2019-02-18 11:05:13 18889 8

原创 hadoop中使用Python语言实现wordcount功能

run.shHADOOP_CMD="/usr/local/src/hadoop-2.6.5/bin/hadoop"STREAM_JAR_PATH="/usr/local/src/hadoop-2.6.5/share/hadoop/tools/lib/hadoop-streaming-2.6.5.jar"INPUT_FILE_PATH_1="/The_Man_of_Prop

2019-02-18 09:05:38 1793

原创 比较完整的hadoop集群组件的安装教程

操作系统:centos7.4内核:3.10.0-693.el7.x86_64前提:关闭seliunx和firewalld所有软件包统一上传到/usr/local/src下面集群环境192.168.217.136 master192.168.217.137 slave1192.168.217.138 slave2设置免密钥登录:master节点执行:ssh-keygen...

2019-02-17 16:03:09 2344 1

原创 hmaster进程自动关闭,报错:org.apache.hadoop.hbase.util.FileSystemVersionException

2019-02-17 11:19:42,040 FATAL [master:16000.activeMasterManager] master.HMaster: Failed to become active masterorg.apache.hadoop.hbase.util.FileSystemVersionException: HBase file layout needs to be u...

2019-02-17 12:07:14 1516 4

原创 Java中使用顺序表ArrayList和链表LinkedList方式实现栈Stack

首先我们应该知道栈:遵循后进先出/先进后出的原则。最先放入栈中的元素 — 栈底元素,最后放入栈中的元素 — 栈顶元素。将元素放入栈中 ---- 入栈/压栈,将元素从栈中取出 ---- 出栈/弹栈。 import java.util.Stack; public class StackDemo { public static void main(String[] ...

2019-01-30 18:09:05 713

原创 java字符串类型String-----存储过程详解

#Stringjava字符串部分特点(关于String类型的详细定义和描述请读者阅读API手册):最终类。代表字符串的类,所有的字符串都市String的对对象。字符串是一个常量,定义好之后不可改变。因为字符串是一个常量,所以它是被共享的。字符串本质上是一个字符数组。public class StringDemo { public static void main(String[]...

2019-01-24 18:35:58 681 1

原创 Java匿名函数Lambda

匿名内部类由于没有名字,创建格式如下: 父类名|接口名 对象名 = new 父类构造器(参数列表)|实现接口() { //匿名内部类的类体部分 }匿名内部类必须要继承一个父类或者实现一个接口,当然也仅能只继承一个父类或者实现一个接口。同时它也是没有class关键字,这是因为匿名内部类是直接使用new来生成一个对象的引用。当然这...

2019-01-24 10:47:07 12605

原创 pandas分组统计 - groupby功能

数据分组分组统计 - groupby功能① 根据某些条件将数据拆分成组② 对每个组独立应用函数③ 将结果合并到一个数据结构中Dataframe在行(axis=0)或列(axis=1)上进行分组,将一个函数应用到各个分组并产生一个新值,然后函数执行结果被合并到最终的结果对象中。df.groupby(by=None, axis=0, level=None, as_index=True, s...

2019-01-05 11:11:16 37802

原创 5种创建Dataframe方法

下面将简要介绍Dataframe的5种创建方法,由于输出结果比较冗余,这里将不会展示输出结果,读者可以自行赋值粘贴,最好使用jupyter运行,并查看结果。另外的,代码中有非常详细的注释。Dataframe创建方法一import numpy as npimport pandas as pddata1 = { "a":[1,2,3], "b":[4,5,6], &a

2019-01-03 15:17:02 85172

原创 pandas中Series数组创建方法

import numpy as npimport pandas as pdar = np.random.rand(5)# s = pd.Series(ar)s = pd.Series(ar, index = list("abcde"))print(s)print(type(s))print("-------------")print(s.index, type(s.index)...

2019-01-03 15:10:15 6209

原创 pandas学习笔记之Dataframe索引

# DataFra是一个表格, 有行索引和列索引,可以被看做由Series组成的字典(共用一个索引) import numpy as np import pandas as pd df = pd.DataFrame(np.random.rand(12).reshape(3,4) * 100, index = ["one","two","three"], c..

2019-01-03 14:59:32 718

转载 numpy中的cumsum函数

Cumsum :计算轴向元素累加和,返回由中间结果组成的数组重点就是返回值是“由中间结果组成的数组”以下代码在python3.6版本运行成功!下面看代码,定义一个223的数组,所以其shape是2,2,3,索引分别0,1,2shape 索引2 02 13 2代码:import numpy as nparr = np.array([[[1,2,3],[8,9,12]],[[1,...

2018-12-29 21:20:48 5490

原创 json和pickle两个序列化模块详解

用于序列化的两个模块json:用于字符串和Python数据类型间进行转换pickle: 用于python特有的类型和python的数据类型间进行转换json提供四个功能:dumps,dump,loads,loadpickle提供四个功能:dumps,dump,loads,loadpickle模块和json模块还是比较实用的,还有许多的信息可以去了解,想了解更多信息的话可以阅读下pyt...

2018-12-28 13:26:21 864

原创 糗事百科爬虫实现

前两天写了一下关于糗百的爬虫,现在将代码分享给大家,有兴趣的同学可以了解一下1,下面是正常流程实现爬虫过程的源代码,如下:# coding=utf-8import requestsimport jsonfrom lxml import etreeclass QiubaiSpider: def __init__(self): self.part_url = 'h...

2018-12-28 11:00:03 152

原创 python中基于多任务的文件复制方法

网络编程中,使用多任务实现文件的复制是非常有必要的。下面将简要介绍两种基于多任务的文件复制实现方式。1.下面实现的是使用队列实现文件的多任务复制过程import multiprocessingimport osdef copied_old_folder(q, old_folder_name): '''文件复制放入队列中''' file_infos = [] fi...

2018-12-14 21:38:26 197

离散数学课后习题答案

离散数学屈婉玲 课后习题答案 有需要的同学可以下下哈

2013-04-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除