土豆土豆，我是洋芋-CSDN博客

原创喜欢的语句记录——皮囊

我只想着做好一点点的事情，然后期待，这么一点事，或许哪天能积累成一个不错的景观。起码是自己喜欢的景观。每个人都已经过上不同的生活，不同的生活让许多人在这个时空里没法相处在共同的状态中，除非等彼此都老了，年迈再次抹去其他，构成我们每个人最重要的标志，或许那时候的聚会才能成真。不合时宜的东西，如果自己虚弱，终究会成为人们嘲笑的对象，但有力量了，或许坚持久了，或许反而能成为众人追捧的魅力和个性。这么努力追求所谓青春的人，意义在哪？巨大的脑袋装着一个个庞大的梦想，用和这个梦想不匹配的瘦小身躯扛着，到处奔走.

2020-07-12 20:35:13 258

原创 python、pyspark连接hive/oracle

前期准备（写在前面，以下配置信息均是linux服务器操作配置。）python连接时需要安装oracle客户端文件，pip安装cx_Oracle。pyspark需要配置jdbc信息。1.安装客户端以下两个安装命令，需要获取服务器的root权限或sudo权限rpm -ivh oracle-instantclient11.2-basic-11.2.0.4.0-1.x86_64.rpm （1）rpm -ivh oracle-instantclient11.2-devel-11.2.0.4.0-1

2020-06-22 18:48:44 1320

原创 linux配置jupyter连接大数据集群spark，并配置jupyter任务资源

最近一直在用pyspark开发大数据项目，但每次报错都要重新提交spark-submit执行任务，效率实低，在网上搜索发现能够配置jupyter实现spark交互，测试了一下，真是相见恨晚！现有环境：系统：linux；集群：多结点大数据集群；整个过程的操纵步骤：下载anaconda——配置jupyter——配置环境信息！done。因为spark集群中自带的python是python2,所以为了方便，建议用python2。（不然每个结点都需要配置python，麻烦都一批）因为已经存在大数据集群，

2020-06-01 14:50:20 1853 4

原创街景字符识别

赛事介绍比赛连接：https://tianchi.aliyun.com/competition/entrance/531795/introduction一、赛题数据赛题来源自Google街景图像中的门牌号数据集（The Street View House Numbers Dataset, SVHN），该数据来自真实场景的门牌号。训练集数据包括3W张照片，验证集数据包括1W张照片，每张照片包括颜色图像和对应的编码类别和具体位置；为了保证比赛的公平性，测试集A包括4W张照片，测试集B包括4W张照片。所有的

2020-05-20 17:15:06 542 1

原创 pyspark windows函数中lag\lead用法

用于增加排名信息,rank需求一：根据用户id进行排序，增加排名列。from pyspark.sql import Window#新增列名称：rownumberdf3 = df2.withColumn("rownumber",F.row_number().over(Window.orderBy("id")))需求二：根据不同用户类型，结合用户id 进行排序，增加列排名。#选择desc,...

2020-05-12 14:05:38 3069

原创 pyspark 调用ml，构建kmeans模型

概述ML包有三个主要的抽象类：转换器、评估器、管道转换器：通过将一个新列附加到dataframe来转换数据。包含数据标准化、数据转换等内容，常用的有IndexToString,StringIndexer,VectorAssembler,Normalizer,OneHotEncoder,PCA等。评估器：评估器可以被视为需要评估的统计模型，对观测对象做分类或预测。主要包括分类、回归、聚类三种。...

2020-05-07 18:45:04 1132

原创导入自定义模块报错ImportError: cannot import name xxx

现有两个文件main.py，B.py。操作：main.py文件要使用B文件的函数func_1,导入B.py文件中的函数。from B import func_s导入的时候报错“ImportError: cannot import name func_1”.开始时是以为缺少_init_.py文件，结果增加文件后仍然报错。最后发现错误的原因是：B.py文件中从main.py文件中导入了一个参...

2020-04-26 15:17:43 2569

原创 pyspark dataframe创建空表、数据关联、数据标记

创建空数据表；分组统计groupby；两dataframe关联合并；为数据增加排序列；数据条件标记。

2020-04-14 20:38:55 2291

原创 pyspark 报错AnalysisException: u'Detected implicit cartesian product for LEFT OUTER join between logic

代码：vol_union = vol_union.join(cons_data[['meter_id', 'cons_sort_code','tg_no','cons_id']],vol_union['ID'] == cons_data['meter_id'],how = 'left')报错：AnalysisException: u'Detected implicit cartesian p...

2020-04-03 15:59:03 5265

原创 plsql导入dmp文件

问题：现有huanbiao.dmp文件，需要导入导数据库中。创建表空间根据dmp文件中表空间名称，创建表空间。如，文件huanbiao.dmp中表空间名为“LLYS_STATS”create tablespace ts_somethingloggingdatafile ‘C:\Users\thinkpad\Desktop\huanbiao.dbf’ --文件位置size 3...

2020-03-18 16:15:45 1128

原创如何将本地数据上传到hdfs

将数据传输到服务器使用xshell将本地数据传到服务器并解压1.上传：方法一：连接Xftp上传xftp操作界面直接将要上传的本地文件拖动到对应的服务器位置即可。（要传输的服务器文件夹需要有读写权限）方法二：使用rz。在xshell操作界面输入rz会弹出一个选择上传文件的窗口，选择对应的文件即可。2.解压gz压缩包进入文件所在位置，输入gunzip xxx.gz,要解压该文件...

2020-01-20 09:59:01 7920

转载 pyspark 批量修改Dateframe列名

toDF方法df4 = df3.toDF(‘tg_id’,‘org_no’,‘data_date_day’)df3为原有数据表，df4为改过列名的df3。mapping 方法from pyspark.sql.functions import colmapping = dict(zip(['col_1', 'tg_id'], ['col_2', 'org_no'], ['col_3', '...

2020-01-07 19:38:25 2786

原创 pycharm连接服务器spark报错

环境：windows+pycharm+pyspark错误一：OSError: [Errno 2] No such file or directoryTraceback (most recent call last): File "/tmp/pycharm_project_744/work/qiedian/data_preprocessing.py", line 28, in <mod...

2020-01-06 09:58:19 760

原创 linux+ anaconda+tensorflow+keras+ikernel

linux 环境下，在anaconda中创建虚拟环境，并安装tensorflow，配置jupyter的ikernel.创建虚拟环境查看现有的环境：conda env list创建名称为‘tensorflow’的虚拟环境：conda create --name tensorflow创建好后进入环境：source activate tensorflow可以看到前面有一个（tens...

2019-12-17 15:31:48 181

原创 linux 安装anaconda与jupyter notebook配置

anaconda安装在官网或清华镜像下载anaconda在载前看一下自己的系统版本，下载对应的anaconda版本。在系统中输入：cat /proc/version，如下图所示 ## 下载地址1）官网：https://www.anaconda.com/distribution/2）清华镜像：https://mirrors.tuna.tsinghua.edu.cn/anacond...

2019-12-02 13:58:27 4600

原创 ModuleNotFoundError:No module named'pip'

今天在运行pip时报错“ModuleNotFoundError:No module named’pip’”在执行“pip -m ensurepip"时显示已经存在pip,但运行时仍旧报错。解决方法选择重新安装pip1.输入”curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py“ 运行；2.输入”python get-pip.py“...

2019-09-06 15:31:57 195

原创 pip 报错“Could not install packages due to an EnvironmentError"

错误内容在执行pip时报错：Could not install packages due to an EnvironmentError:"D:\ProgramData\Anaconda3\Lib\site-packages\\fire-0.2.1.dist-info\\METADATA"错误原因在’Anaconda3\Lib\site-packages\fire-0.2.1.dist-i...

2019-09-06 10:35:35 649

原创神经网络——损失函数

概念如果有人问你现在有多幸福，你会如何回答呢？一般的人可能会给出诸如“还可以吧”或者“不是那么幸福”等笼统的回答。如果有人回答“我现在的幸福指数是10.23”，这是用一个数值指标来评判自己的幸福程度的例子。神经网络的学习通过某个指标表示现在的状态。然后以这个指标为基准，寻找最优权重参数。和上述幸福指数为指引寻找“最优人生”的人一样，神经网络以某个指标为线索寻找最优权重参数。神经网络的学习...

2019-08-19 18:52:55 1639

原创 pytorch优化器

了解不同优化器书写优化器代码Momentum二维优化，随机梯度下降法进行优化实现Ada自适应梯度调节法RMSPropAdamPyTorch种优化器选择

2019-08-18 17:50:50 211

原创正则化原理与实现

正则化机器学习的问题中，过拟合是一个很常见的问题。过拟合指的是只能拟合训练数据，但不能很好地拟合不包含在训练数据中的其他数据的状态。机器学习的目标是提高泛化能力，即便是没有包含在训练数据里的未观测数据，也希望模型可以进行正确的识别。我们可以制作复杂的、表现力强的模型但是相应地，抑制过拟合的技巧也很重要。发生过拟合的原因，主要有以下两个。1、模型拥有大量参数、表现力强。 2、训练数据少。权值...

2019-08-14 16:03:49 952 1

原创 pytorch实现多层网络

引入模块import torchfrom torch import nn, optimfrom torch.autograd import Variablefrom torch.utils.data import DataLoaderfrom torchvision import datasets, transformsimport netfrom torch import nn...

2019-08-13 18:05:38 147

转载 pytorch实现逻辑回归

逻辑回归逻辑回归实质上是线性回归，把特征线性求和（一阶）之后再使用Sigmoid函数将结果映射到[0,1]区间，得到分类结果为1的概率大小。具体表达式如下：h(w,x) =1/(1+exp(-(w*x+b)))其中x为特征向量，可以表示为[x1,x2,…,xN]，的取值范围为[0,1]表示分类结果为1的概率大小。通过公式可以看出，逻辑回归可以理解为单层的全连接网络加上sigmoid激活函数的...

2019-08-11 20:22:19 457

转载 numpy和pytorch实现梯度下降法

1 梯度下降原理梯度下降法的基本思想可以类比为一个下山的过程。假设这样一个场景：一个人被困在山上，需要从山上下来(i.e. 找到山的最低点，也就是山谷)。但此时山上的浓雾很大，导致可视度很低。因此，下山的路径就无法确定，他必须利用自己周围的信息去找到下山的路径。这个时候，他就可以利用梯度下降算法来帮助自己下山。具体来说就是，以他当前的所处的位置为基准，寻找这个位置最陡峭的地方，然后朝着山的高度...

2019-08-09 15:21:38 516

转载 Pytorch的安装与配置

1. 什么是Pytorch，为什么选择Pytroch？PyTorch是一个基于Torch的Python开源机器学习库，用于自然语言处理等应用程序。它主要由Facebook的人工智能研究小组开发。Uber的"Pyro"也是使用的这个库。PyTorch是一个Python包，提供两个高级功能：具有强大的GPU加速的张量计算（如NumPy）包含自动求导系统的的深度神经网络。为什么选择PyTorch？...

2019-08-07 18:03:28 3465

转载 KNN算法实现

1.《机器学习实战》代码计算原理：1）计算已知类别数据集中的点与当前点的距离；2）按照距离递增次序排序；3）选取与当前点距离最小的k个点；4）确定前k个点所在类别出现的频率；5）返回前k个点出现频率最高的类别作为当前点的预测分类。预测函数代码如下：def classify0(inX,dataSet,labels,k): dataSetSize = dataSet.shape...

2019-07-10 18:47:01 233

原创 python concat时报错‘InvalidIndexError: Reindexing only valid with uniquely valued Index objects’

目标：合并两个行数相同的dataframe.数据表为X，predict.出现如下错误：解决方法：对两个dataframe分别进行索引重建，然后进行合并，代码如下：X = X.reset_index(drop= True)predict = predict.reset_index(drop= True)重新进行数据合并，执行成功predict1 = pd.concat([X,pre...

2019-07-09 14:41:56 14401

原创使用argparse 函数在命令行定义读取文件位置及输出文件位置

目标，能在命令行设置读取文件的位置、写入文件的位置及文件名。读取和写入的位置都在hdfs中，文件类型是parquet文件。#-*- coding:utf-8 -*-from pyspark.sql import SparkSessionimport argparse#建立集群连接spark = SparkSession.builder.master("yarn-client").app...

2019-06-04 15:38:48 2808

原创使用stack,unstack对dataframe进行行列转换

操作目标：对数据进行行列转换。查看原始数据格式：print df.head(),数据共有31行，7列。使用“stack()”对数据进行转换：df1 = df.stack()print df1.head()`数据变成这个样子：使用使用“unstack()”对数据再次转换：df2 = df1.unstack(level=0)print df2.head()...

2019-05-21 12:24:51 2002 2

原创 pyspark dataframe数据处理

空值处理（1）删除空值#删除所有包含空值的行df = df.na.drop()#删除‘excute_errormsg’列含有空值的行df = df.na.drop(subset='excute_errormsg')（2）空值填充#所有空值填充‘888’df = df.na.fill('888)#'excute_errormsg'列的空值填充‘888’df = df.na....

2019-03-11 16:39:47 996

原创 pyspark读写hdfs，parquet文件

#-*- coding:utf-8 -*-import jsonfrom pyspark.sql import SparkSession#连接集群spark = SparkSession.builder.master("yarn-client").appName("test").getOrCreate()#读取数据，数据位置‘hdfs://bd01:8020/user/root/par...

2019-03-11 14:16:16 5672

原创 pyspark读取hbase,并将spark-rdd转化为dataframe

pyspark连接hbase,并将spark-rdd转化为dataframe@TOC建立spark连接，获取rdd#-*- coding:utf-8 -*-import jsonfrom pyspark.sql import SparkSessionhost = '192.168.11.xxx'#table nametable = 'I_OCS_COLLECT'#建立spark...

2019-03-03 17:09:50 1331 2

土豆