自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 喜欢的语句记录——皮囊

我只想着做好一点点的事情,然后期待,这么一点事,或许哪天能积累成一个不错的景观。起码是自己喜欢的景观。每个人都已经过上不同的生活,不同的生活让许多人在这个时空里没法相处在共同的状态中,除非等彼此都老了,年迈再次抹去其他,构成我们每个人最重要的标志,或许那时候的聚会才能成真。不合时宜的东西,如果自己虚弱,终究会成为人们嘲笑的对象,但有力量了,或许坚持久了,或许反而能成为众人追捧的魅力和个性。这么努力追求所谓青春的人,意义在哪?巨大的脑袋装着一个个庞大的梦想,用和这个梦想不匹配的瘦小身躯扛着,到处奔走.

2020-07-12 20:35:13 258

原创 python、pyspark连接hive/oracle

前期准备(写在前面,以下配置信息均是linux服务器操作配置。)python连接时需要安装oracle客户端文件,pip安装cx_Oracle。pyspark需要配置jdbc信息。1.安装客户端以下两个安装命令,需要获取服务器的root权限或sudo权限rpm -ivh oracle-instantclient11.2-basic-11.2.0.4.0-1.x86_64.rpm (1)rpm -ivh oracle-instantclient11.2-devel-11.2.0.4.0-1

2020-06-22 18:48:44 1320

原创 linux配置jupyter连接大数据集群spark,并配置jupyter任务资源

最近一直在用pyspark开发大数据项目,但每次报错都要重新提交spark-submit执行任务,效率实低,在网上搜索发现能够配置jupyter实现spark交互,测试了一下,真是相见恨晚!现有环境:系统:linux;集群:多结点大数据集群;整个过程的操纵步骤:下载anaconda——配置jupyter——配置环境信息!done。因为spark集群中自带的python是python2,所以为了方便,建议用python2。(不然每个结点都需要配置python,麻烦都一批)因为已经存在大数据集群,

2020-06-01 14:50:20 1853 4

原创 街景字符识别

赛事介绍比赛连接:https://tianchi.aliyun.com/competition/entrance/531795/introduction一、赛题数据赛题来源自Google街景图像中的门牌号数据集(The Street View House Numbers Dataset, SVHN),该数据来自真实场景的门牌号。训练集数据包括3W张照片,验证集数据包括1W张照片,每张照片包括颜色图像和对应的编码类别和具体位置;为了保证比赛的公平性,测试集A包括4W张照片,测试集B包括4W张照片。所有的

2020-05-20 17:15:06 542 1

原创 pyspark windows函数中lag\lead用法

用于增加排名信息,rank需求一:根据用户id进行排序,增加排名列。from pyspark.sql import Window#新增列名称:rownumberdf3 = df2.withColumn("rownumber",F.row_number().over(Window.orderBy("id")))需求二:根据不同用户类型,结合用户id 进行排序,增加列排名。#选择desc,...

2020-05-12 14:05:38 3069

原创 pyspark 调用ml,构建kmeans模型

概述ML包有三个主要的抽象类:转换器、评估器、管道转换器:通过将一个新列附加到dataframe来转换数据。包含数据标准化、数据转换等内容,常用的有IndexToString,StringIndexer,VectorAssembler,Normalizer,OneHotEncoder,PCA等。评估器:评估器可以被视为需要评估的统计模型,对观测对象做分类或预测。主要包括分类、回归、聚类三种。...

2020-05-07 18:45:04 1132

原创 导入自定义模块报错ImportError: cannot import name xxx

现有两个文件main.py,B.py。操作:main.py文件要使用B文件的函数func_1,导入B.py文件中的函数。from B import func_s导入的时候报错“ImportError: cannot import name func_1”.开始时是以为缺少_init_.py文件,结果增加文件后仍然报错。最后发现错误的原因是:B.py文件中从main.py文件中导入了一个参...

2020-04-26 15:17:43 2569

原创 pyspark dataframe创建空表、数据关联、数据标记

创建空数据表;分组统计groupby;两dataframe关联合并;为数据增加排序列;数据条件标记。

2020-04-14 20:38:55 2291

原创 pyspark 报错AnalysisException: u'Detected implicit cartesian product for LEFT OUTER join between logic

代码:vol_union = vol_union.join(cons_data[['meter_id', 'cons_sort_code','tg_no','cons_id']],vol_union['ID'] == cons_data['meter_id'],how = 'left')报错:AnalysisException: u'Detected implicit cartesian p...

2020-04-03 15:59:03 5265

原创 plsql导入dmp文件

问题:现有huanbiao.dmp文件,需要导入导数据库中。创建表空间根据dmp文件中表空间名称,创建表空间。如,文件huanbiao.dmp中表空间名为“LLYS_STATS”create tablespace ts_somethingloggingdatafile ‘C:\Users\thinkpad\Desktop\huanbiao.dbf’ --文件位置size 3...

2020-03-18 16:15:45 1128

原创 如何将本地数据上传到hdfs

将数据传输到服务器使用xshell将本地数据传到服务器并解压1.上传:方法一:连接Xftp上传xftp操作界面直接将要上传的本地文件拖动到对应的服务器位置即可。(要传输的服务器文件夹需要有读写权限)方法二:使用rz。在xshell操作界面输入rz会弹出一个选择上传文件的窗口,选择对应的文件即可。2.解压gz压缩包进入文件所在位置,输入gunzip xxx.gz,要解压该文件...

2020-01-20 09:59:01 7920

转载 pyspark 批量修改Dateframe列名

toDF方法df4 = df3.toDF(‘tg_id’,‘org_no’,‘data_date_day’)df3为原有数据表,df4为改过列名的df3。mapping 方法from pyspark.sql.functions import colmapping = dict(zip(['col_1', 'tg_id'], ['col_2', 'org_no'], ['col_3', '...

2020-01-07 19:38:25 2786

原创 pycharm连接服务器spark报错

环境:windows+pycharm+pyspark错误一:OSError: [Errno 2] No such file or directoryTraceback (most recent call last): File "/tmp/pycharm_project_744/work/qiedian/data_preprocessing.py", line 28, in <mod...

2020-01-06 09:58:19 760

原创 linux+ anaconda+tensorflow+keras+ikernel

linux 环境下,在anaconda中创建虚拟环境,并安装tensorflow,配置jupyter的ikernel.创建虚拟环境查看现有的环境:conda env list创建名称为‘tensorflow’的虚拟环境:conda create --name tensorflow创建好后进入环境:source activate tensorflow可以看到前面有一个(tens...

2019-12-17 15:31:48 181

原创 linux 安装anaconda与jupyter notebook配置

anaconda安装在官网或清华镜像下载anaconda在载前看一下自己的系统版本,下载对应的anaconda版本。在系统中输入:cat /proc/version,如下图所示 ## 下载地址1)官网:https://www.anaconda.com/distribution/2)清华镜像:https://mirrors.tuna.tsinghua.edu.cn/anacond...

2019-12-02 13:58:27 4600

原创 ModuleNotFoundError:No module named'pip'

今天在运行pip时报错“ModuleNotFoundError:No module named’pip’”在执行“pip -m ensurepip"时显示已经存在pip,但运行时仍旧报错。解决方法选择重新安装pip1.输入”curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py“ 运行;2.输入”python get-pip.py“...

2019-09-06 15:31:57 195

原创 pip 报错“Could not install packages due to an EnvironmentError"

错误内容在执行pip时报错:Could not install packages due to an EnvironmentError:"D:\ProgramData\Anaconda3\Lib\site-packages\\fire-0.2.1.dist-info\\METADATA"错误原因在’Anaconda3\Lib\site-packages\fire-0.2.1.dist-i...

2019-09-06 10:35:35 649

原创 神经网络——损失函数

概念如果有人问你现在有多幸福,你会如何回答呢?一般的人可能会给出诸 如“还可以吧”或者“不是那么幸福”等笼统的回答。如果有人回答“我现在 的幸福指数是10.23”,这是用一个数值指标来评判自己的幸福程度的例子。神经网络的学习通过某个指标表示现在的状态。然后以这个指标为基准,寻找最优权重参数。和上述幸福指数为指引寻找“最优人生”的 人一样,神经网络以某个指标为线索寻找最优权重参数。神经网络的学习...

2019-08-19 18:52:55 1639

原创 pytorch优化器

了解不同优化器书写优化器代码Momentum二维优化,随机梯度下降法进行优化实现Ada自适应梯度调节法RMSPropAdamPyTorch种优化器选择

2019-08-18 17:50:50 211

原创 正则化原理与实现

正则化机器学习的问题中,过拟合是一个很常见的问题。过拟合指的是只能拟合训练数据,但不能很好地拟合不包含在训练数据中的其他数据的状态。机器学习的目标是提高泛化能力,即便是没有包含在训练数据里的未观测数据,也希望模型可以进行正确的识别。我们可以制作复杂的、表现力强的模型但是相应地,抑制过拟合的技巧也很重要。发生过拟合的原因,主要有以下两个。1、模型拥有大量参数、表现力强。 2、训练数据少。权值...

2019-08-14 16:03:49 952 1

原创 pytorch实现多层网络

引入模块import torchfrom torch import nn, optimfrom torch.autograd import Variablefrom torch.utils.data import DataLoaderfrom torchvision import datasets, transformsimport netfrom torch import nn...

2019-08-13 18:05:38 147

转载 pytorch实现逻辑回归

逻辑回归逻辑回归实质上是线性回归,把特征线性求和(一阶)之后再使用Sigmoid函数将结果映射到[0,1]区间,得到分类结果为1的概率大小。具体表达式如下:h(w,x) =1/(1+exp(-(w*x+b)))其中x为特征向量,可以表示为[x1,x2,…,xN],的取值范围为[0,1]表示分类结果为1的概率大小。通过公式可以看出,逻辑回归可以理解为单层的全连接网络加上sigmoid激活函数的...

2019-08-11 20:22:19 457

转载 numpy和pytorch实现梯度下降法

1 梯度下降原理梯度下降法的基本思想可以类比为一个下山的过程。假设这样一个场景:一个人被困在山上,需要从山上下来(i.e. 找到山的最低点,也就是山谷)。但此时山上的浓雾很大,导致可视度很低。因此,下山的路径就无法确定,他必须利用自己周围的信息去找到下山的路径。这个时候,他就可以利用梯度下降算法来帮助自己下山。具体来说就是,以他当前的所处的位置为基准,寻找这个位置最陡峭的地方,然后朝着山的高度...

2019-08-09 15:21:38 516

转载 Pytorch的安装与配置

1. 什么是Pytorch,为什么选择Pytroch?PyTorch是一个基于Torch的Python开源机器学习库,用于自然语言处理等应用程序。 它主要由Facebook的人工智能研究小组开发。Uber的"Pyro"也是使用的这个库。PyTorch是一个Python包,提供两个高级功能:具有强大的GPU加速的张量计算(如NumPy)包含自动求导系统的的深度神经网络。为什么选择PyTorch?...

2019-08-07 18:03:28 3465

转载 KNN算法实现

1.《机器学习实战》代码计算原理:1)计算已知类别数据集中的点与当前点的距离;2)按照距离递增次序排序;3)选取与当前点距离最小的k个点;4)确定前k个点所在类别出现的频率;5)返回前k个点出现频率最高的类别作为当前点的预测分类。预测函数代码如下:def classify0(inX,dataSet,labels,k): dataSetSize = dataSet.shape...

2019-07-10 18:47:01 233

原创 python concat时报错‘InvalidIndexError: Reindexing only valid with uniquely valued Index objects’

目标:合并两个行数相同的dataframe.数据表为X,predict.出现如下错误:解决方法:对两个dataframe分别进行索引重建,然后进行合并,代码如下:X = X.reset_index(drop= True)predict = predict.reset_index(drop= True)重新进行数据合并,执行成功predict1 = pd.concat([X,pre...

2019-07-09 14:41:56 14401

原创 使用argparse 函数在命令行定义读取文件位置及输出文件位置

目标,能在命令行设置读取文件的位置、写入文件的位置及文件名。读取和写入的位置都在hdfs中,文件类型是parquet文件。#-*- coding:utf-8 -*-from pyspark.sql import SparkSessionimport argparse#建立集群连接spark = SparkSession.builder.master("yarn-client").app...

2019-06-04 15:38:48 2808

原创 使用stack,unstack对dataframe进行行列转换

操作目标:对数据进行行列转换。查看原始数据格式:print df.head(),数据共有31行,7列。使用“stack()”对数据进行转换:df1 = df.stack()print df1.head()`数据变成这个样子:使用使用“unstack()”对数据再次转换:df2 = df1.unstack(level=0)print df2.head()...

2019-05-21 12:24:51 2002 2

原创 pyspark dataframe数据处理

空值处理(1)删除空值#删除所有包含空值的行df = df.na.drop()#删除‘excute_errormsg’列含有空值的行df = df.na.drop(subset='excute_errormsg')(2)空值填充#所有空值填充‘888’df = df.na.fill('888)#'excute_errormsg'列的空值填充‘888’df = df.na....

2019-03-11 16:39:47 996

原创 pyspark读写hdfs,parquet文件

#-*- coding:utf-8 -*-import jsonfrom pyspark.sql import SparkSession#连接集群spark = SparkSession.builder.master(&quot;yarn-client&quot;).appName(&quot;test&quot;).getOrCreate()#读取数据,数据位置‘hdfs://bd01:8020/user/root/par...

2019-03-11 14:16:16 5672

原创 pyspark读取hbase,并将spark-rdd转化为dataframe

pyspark连接hbase,并将spark-rdd转化为dataframe@TOC建立spark连接,获取rdd#-*- coding:utf-8 -*-import jsonfrom pyspark.sql import SparkSessionhost = '192.168.11.xxx'#table nametable = 'I_OCS_COLLECT'#建立spark...

2019-03-03 17:09:50 1331 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除