子安-CSDN博客

原创 Spark 基础学习第一讲：弹性分布式数据集RDD

引子part1为什么要引入RDDpart2RDD是什么1 基本概念2 关于容错3 每个RDD有5个主要的属性31 RDD要素之一partition32 RDD要素之二函数33 RDD要素之三依赖关系自动容错34 RDD要素之四partitioner35 RDD要素之五本地存储优化Part3RDD在底层是如何实现的1 RDD底层实现原理2 RDD的逻辑与物理架构3数据与计算

2017-04-06 17:43:48 1160

原创 SparkSQL列数量比较多引发的Too many arguments in method signature in class file问题

也可能我的命名太长了，但是感觉很难超过64KB，需要打印相关的解析参数才可以确定，但是基本上可以确定的是参数数量较多导致的。这个错误一般是由于 JVM 的方法参数限制所导致的。JVM 对于方法的参数数量有一定的限制，通常情况下，方法的参数数量不应该超过 255 个。如果你的代码中包含了过多的参数，可以考虑将一部分参数合并为一个对象，或者使用 Spark 的 Tuple 类型来代替。我的程序并没有超过255个参数，或许是中间过程产生了临时参数比较多，加起来超过了255个，但是并没有足够的时间去验证。

2023-05-25 18:30:09 1191

原创 The POM for commons-codec:commons-codec:jar:1.15-SNAPSHOT is missing

The POM for commons-codec:commons-codec:jar:1.15-SNAPSHOT is missing, no dependency information available

2022-05-09 15:35:37 2848 7

原创通过用户POI经纬度获取居住地的房价信息

Arcmap处理数据1 建立Map和GDB2 加载数据3加载地图4 导出为点数据5 过滤错误数据6 将过滤后的数据保存为新图层7 转换坐标系为38578 IDW插值9 绘制渔网图Fishnet10 Zonal Statistics As Table11 用fishnet和Zonal Statistics进行关联获取平均价格12 转换为4326坐标系13 4326坐标系的f

2018-01-13 11:11:36 1673 4

原创 MariaDB中文乱码字符集处理

MariaDB中文乱码字符集处理标签（空格分隔）： MySQL1.场景服务器的MariaDB字符集中文乱码，经查服务器端设置为latin1，可以使用下面的命令:MariaDB [(none)]> SHOW VARIABLES LIKE 'character%';+--------------------------+----------------------------+| Variable

2017-11-30 16:01:26 5613

原创 SFTP连接失败问题解决小tips

前几天安装了jumpserver之后，sftp服务莫名奇妙的挂了，也不知道是不是这方面的原因。vsftpd服务检查没有问题。防火墙端口配置检查没有问题。端口监听检查没有问题。我们知道SFTP走的是SSH的端口，服务器端运行sshd的服务，通过使用SSH，可以把所有传输的数据进行加密。所以，我们需要检查一下sshd相关的配置。所以我们试试查看一下配置文件/etc/ssh/sshd_config

2017-11-23 15:55:31 42625 2

翻译 Spark集群硬件配置参考

Spark集群硬件配置参考标签（空格分隔）： Spark硬件配置Spark开发人员面临的最常见一个问题就是集群的配置硬件。一般来说，合理的硬件配置取决于自身的实际情况，我们只能从以下几个方面提出建议。存储系统大部分的Spark作业会从外部存储系统（比如Hadoop文件系统或者Hbase）读取输入数据，因此将其与存储系统放得越近越好，我们给出如下建议：如果可能的话，在与HDFS相同的节点上运行Spar

2017-10-18 17:53:19 1369

原创 GC思维导图

从网上收集了一些资料，做了一个GC的思维导图，简要介绍一下集中垃圾回收器。

2017-09-28 11:34:44 488

原创通过Thrift Server使用JDBC来运行Spark SQL

通过Thrift Server使用JDBC来运行Spark SQL标签（空格分隔）： thriftserver jdbc sparkSQL更新记录初始发布：2017-09-19 第一次更新：xxx简介Thrift JDBC/ODBC Server (简称 Spark Thrift Server 或者 STS)是Spark SQL的Apache Hive HiveServer2的端口，通过这个端口可

2017-09-19 15:02:47 5940 1

翻译使用Python一步步实现PCA算法

使用Python一步步实现PCA算法标签： PCA Python本文原地址为： http://sebastianraschka.com/Articles/2014_pca_step_by_step.html Implementing a Principal Component Analysis (PCA) – in Python, step by step Apr 13, 2014 by

2017-08-08 11:23:24 17934 2

原创 Scala版本冲突--java.lang.NoSuchMethodError:scala.collection.immutable.HashSet$.empty()Lscala/collection/

问题描述Run 代码的时候报错Exception in thread "main" java.lang.NoSuchMethodError:scala.collection.immutable.HashSet$.empty()Lscala/collection/immutable/HashSet;解决办法将Scala2.11.x更换为Scala2.10.x操作如下: File –> Ot

2017-07-26 11:42:37 11891 3

原创将CentOS系统软件包yum源更新为阿里云

第一步，备份老的yum源mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.old第二步，下载阿里云的yum源cd /etc/yum.repos.d/wget -o /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-

2017-07-24 15:09:54 926

原创避免在Spark 2.x版本中使用sparkSQL，关于CTAS bug的发现过程

避免在Spark 2.x版本中使用sparkSQL，关于CTAS bug的发现过程标签（空格分隔）： Spark2.x sparkSQL CTAS避免在Spark 2x版本中使用sparkSQL关于CTAS bug的发现过程背景问题发现过程1 问题发现2 问题重现尝试解决问题1 网上建议12 网上建议23 组合方案解决方案最后结论1. 背景CTAS就是create table a

2017-07-17 17:03:38 2813 1

原创快速上手写spark代码系列03：开始写一个spark小脚本（1）

快速上手写spark代码系列：03-开始写一个spark小脚本（1）快速上手写spark代码系列03-开始写一个spark小脚本1训练背景设置第一步准备数据集第二步读取文件第三步做字段提取生成RDD第四步合并RDD第五步过滤某些字段第六步关联用户第七步关联位置参数第八步选取字段生成新的结果第九步存储成指定文件数目训练背景设置上一篇将了RDD操作的各种函数，这一节就把这些函数放在一

2017-06-30 16:55:51 2102 1

原创快速上手写spark代码系列01：RDD transformation函数入门

快速上手写spark代码系列：01-RDD transformation函数入门标签（空格分隔）： RDD transformation快速上手写spark代码系列01-RDD transformation函数入门元素映射类转换map函数flatMap函数filter函数分区集合类转换mapPartitions函数这个属于集合类操作直接对一个分区进行操作mapPartitionsWit

2017-06-29 18:26:40 2105

原创 Linux服务器离线安装xgboost

1.环境准备第一步，检查Python版本$ python -VPython 2.7.5第二步，进入Anaconda官网 https://repo.continuum.io/archive/index.html下载版本 Anaconda2-4.3.0-Linux-x86_64.sh上传到服务上开始安装sh Anaconda2-4.3.0-Linux-x86_64.sh Welcome

2017-06-09 16:46:56 3708

原创 Hive隐藏分割字符\001替换为可见字符

Hive默认的分隔符是\001，属于不可见字符，这个字符在vi里是^A一个文本0000_0，直接cat内容如下： 320643204N2559613979 320828796N446323 320829214N38122627vi打开，显示为如下： 320643204^AN^A25596^A13979 320828796^AN^A446^A323

2017-06-07 18:29:11 34024

原创 hadoop Checksum校验的一个小问题

今天使用下面的命令读取文件的时候val train_male = sc.textFile("file:\\E:\\m\\part-00000")读取数据的时候，报了下面的错误 org.apache.hadoop.fs.ChecksumException: Checksum error后来查资料发现，这个和Checksum校验有问题，查看目录，发现保存的数据里面果然有.part-00000.cr

2017-06-07 10:24:56 3972 1

原创 eclipse.ini配置vm参数解决启动报错问题

eclipse启动报错， Java was started but returned exit code=1，具体信息如下： -startup plugins/org.eclipse.equinox.launcher_1.3.0.v20140415-2008.jar –launcher.library plugins/org.eclipse.equinox.launcher.

2017-06-05 15:00:05 3059

原创拼写错误：value countBykey is not a member of org.apache.spark.rdd.RDD[(String, Int)]

今天写了一行代码，感觉很简单啊，怎么报错呢，后来一看是一个超级低级错误，大小写搞错了,countByKey写成了countBykey，所以Spark的算子大小写一定不要搞错，有可能会报上面的错误。scala> sc.textFile("E:\\eventype").map(_.split("\\|")).map(x=>(x(0)+"|"+x(1),1)).countBykey() :23: e

2017-06-01 11:01:24 6505

原创 Win10下部署TensorFlow以及一些避坑小指南

在Win10下安装GPU版本的TensorFlow，并记录了在按照过程中遇到的一些小坑。

2017-05-26 16:09:06 20429 1

原创使用Spark MLlib随机森林RandomForest+pipeline进行预测

这个程序中，我们使用pipeline来完成整个预测流程，加入了10-fold cross validation。import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.mllib.regression.LabeledPo

2017-05-18 15:40:54 4455 1

原创使用Spark MLlib的逻辑回归(LogisticRegression)进行用户分类预测识别

import org.apache.spark.SparkContextimport org.apache.spark.SparkConfimport org.apache.spark.mllib.classification.{LogisticRegressionWithLBFGS, LogisticRegressionWithSGD}import org.apache.spark.mlli

2017-05-18 11:33:47 7572 5

原创通过JDBC连接Hive Server2

通过JDBC连接Hive Server2的若干个步骤

2017-05-17 17:01:56 5998 1

原创定个目标

目标不是用来实现的,目标是用来超越的。回首往事，发现时间真是被耽搁了，今天弄弄这个，明天弄弄那个，缺乏专注。我在想，如果我从头到尾，一直在沿着一个方向努力，现在应该在一个领域的大牛了，然而，现在却是各种略懂。所以，我在此定个目标，以大数据应用为目标，从Spark开始逐渐往四周蔓延，成为大数据领域的专家。以后，每周要写一篇博客，哪怕是一件小的经验，也值得记录，值得反思，在此基础上多次修订之后会更完善

2017-04-09 00:15:38 264

原创 csv文件load到mysql数据库

load data infile 'D:\\1.csv' into table dwellfields terminated by ','CHARACTER SET utf8enclosed by '"'lines terminated by '\r\n'ignore 1 lines;–CHARACTER SET ：mysql字符集，一定要加上，免去乱码麻烦 –INTO TABLE ：导

2017-04-08 23:59:31 804

转载 [Scala] 用 Option[T] 来避免 NullPointerException(整理)

转自：https://my.oschina.net/u/200745/blog/69845前言Java 里的 Null Pointer Exception写过一阵子的Java后, 应该会对NullPointerException (NPE)这种东西很熟悉，基本上会碰到这种异常，就是你有一个变量是 null，但你却调用了它的方法，或是取某个的值。举例而言，下面的 Java 代码就会抛

2016-11-11 11:20:18 517

原创 scala =>符号含义总结

It has several meanings in Scala, all related to its mathematical meaning as implication.In a value, it introduces afunction literal（通译为匿名函数，有时候也叫函数显式声明，函数字面量）, or lambda（参考lambda表达式的文章，其实也是匿名

2016-09-01 11:48:16 12248

原创安装numpy pandas matplotlib seaborn scipy

安装numpy pandas matplotlib seaborn scipy首先必须安装一些依赖包yum -y install blas blas-devel lapack-devel lapackyum -y install seaborn scipyyum -y install freetype freetype-devel libpng libpng-devel

2016-07-07 14:23:49 2651

原创 centos下安装xgboost

我们需要pip来安装xgboostwget --no-check-certificate https://github.com/pypa/pip/archive/1.5.5.tar.gztar zxvf 1.5.5.tar.gz #解压文件cd pip-1.5.5/python setup.py install这个时候有可能会报如下错误：

2016-07-06 17:53:16 3837

原创 64位Windows下安装xgboost详细参考指南（支持Python2.x和3.x）

Windows下安装xgboost有时候很简单，有时候却很麻烦，一不小心，经常会报一些编译错误。这里是我的一点小经验，测试过两次，都能够正常运行，分享给大家，希望能够有帮助。如果是急用的，一刻也不想等的，直接到这篇文章的结尾，到【参考】5找人家在X64位下编译好的。

2016-06-23 13:51:19 16318 12

转载大数据Spark：动手写WordCount

问题导读Spark上下文弹性分布式数据集RDD转换动作运行问题导读1.Spark集群的执行单位是什么？ 2.RDD的创建的来源是什么？ 3.RDD之间是否可以转换？ 4.如何实现修改spark WordCount？Spark是主流的大数据处理框架，具体有啥能耐，相信不需要多说。我们开门见山，直接动手写大数据界的HelloWorld：WordCount。先上完整代码，看看咋样能入门。

2015-05-26 09:51:02 718

转载 Linux rpm 命令参数使用详解［介绍和应用］

Linux rpm 命令参数使用详解［介绍和应用］RPM是RedHat Package Manager（RedHat软件包管理工具）类似Windows里面的“添加/删除程序”rpm 执行安装包二进制包（Binary）以及源代码包（Source）两种。二进制包可以直接安装在计算机中，而源代码包将会由RPM自动编译、安装。源代码包经常以src.rpm作为后缀名。常用命令

2014-12-22 00:34:10 607

转载三大主流ETL工具选型

三大主流ETL工具选型公司目前在ETL这个环节上基本处于手工开发的原始阶段，领导已经不满意了，估计以后会选择一种工具进行开发，所以先看一下ETL工具的选型。据说同业使用Datastage的比较多，不过看了这篇文章之后，我还是更加倾向于用ETL Automation来实施，可以跟之前做的工作完全对接起来。不过跟朋友聊的时候都说ETL工具比较白痴，没什么技术含量，基本上都是拿来忽悠

2014-07-10 16:41:35 1612

原创 Informatica作业问题：日志一直显示为Running

该文章由u012469920Informatica作业日志一直显示为Running，首先drop掉目标表重建排除锁表情况然后排除数据情况定位为fastload问题查看loader问题，最开始以为是fastload服务问题，后来检查out文件，我偶然间看到一个很特别的文件名，查看该文件，如下图所示查询到network down的情况，重新查询fastload发现了A1

2014-05-06 15:44:06 2271

原创 Automation作业调度问题：Only one instance of etlslave.pl allow to run

最近，集市有个作业调度出了问题，导致作业一直处于Running状态，但是后台进程并没有对应的作业。去检查日志，发现只有作业调度日志，并未脚本执行日志，这表明作业并未实际运行，检查作业调度日志，发现报了一个错，Only one instance of etlslave.pl allow to run，这说明已经有一个实例在运行了，百度谷歌都没有答案，于是自己动手丰衣足食。开始进入分析阶段。第

2014-05-06 15:41:14 2720 2

原创 Linux自我学习第一课：UNIX与Linux的发展

说明：本文章为从网上收集资料加工整理而来，并非本人自己完全编写，但也非转载自某一个人，如果有人觉得有点用途，可以在此基础上进行修改加工。UNIX的诞生根据百度百科的描述：1965年时，贝尔实验室（Bell Labs）加入一项由通用电气（General Electric）和麻省理工学院（MIT）合作的计划；该计划要建立一套多使用者、多任务、多层次（multi－user、mu

2014-05-06 15:39:18 1492

原创解决：java不是内部或外部命令也不是可运行的程序

一般在下面的界面配置环境变量：经常会报错：解决办法：将环境变量拷贝出来，使用set命令问题解决：我配置环境变量的时候遇见了这个问题，于是试着用了set命令，果然好了，后来想想可能是没有重启的原因，然后百度了一下关于这个问题的详解，正好CSDN上有篇博客对这个问题进行了深入的探讨，详见如下博客：http://

2013-11-14 08:44:41 3904

转载 BI学习笔记之六 - 数据仓库介绍

本文从数据仓库的组成入手，系统的分析了数据仓库的整个体系结构；着重地介绍了在数据仓库的设计过程中必须注意3个关键的问题：选择数据仓库的目标数据库、数据抽取和转换工具及前端数据访问和分析工具。数据仓库体系结构中存在三个关键问题，即数据仓库的目标数据库选择、数据抽取和转换工具及前端数据访问和分析工具。一、数据仓库的组成部分数据仓库技术从本质上讲，是一种信

2013-03-26 11:01:34 1516

JAVA程序员职场全攻略+从小工到专家_部分4

本书以包罗万象的IT大江湖为背景，将Java职场中从入门前的学校菜鸟成长为技术大牛的过程展现给读者，内容饱满但又不失趣味性。在本书中既有入职前的行业探秘、误区排除，也有入职后的口诀传授和江湖新锐兵器介绍。不仅与读者朋友们探讨了Java江湖中做事的学问，还探讨了一些职场中做人的道理，可以说是本书是Java开发人员的职场宝典。本书适合于尚在学校对前途感到迷茫的大学生，同时也是初入职场的菜鸟不可多得的修炼指南。对于那些已经在IT江湖闯荡数年的老鸟，本书也提供了很多新的思路与策略。

2012-03-05

JAVA程序员职场全攻略+从小工到专家_部分3

2012-03-05

JAVA程序员职场全攻略+从小工到专家_部分2

2012-03-05

JAVA程序员职场全攻略+从小工到专家_部分1

2012-03-05

SQL语言艺术

本书分为12章，每一章包含许多原则或准则，并通过举例的方式对原则进行解释说明。这些例子大多来自于实际案例，对九种SQL经典查询场景以及其性能影响讨论，非常便于实践，为你的实际工作提出了具体建议。本书适合SQL数据库开发者、软件架构师，也适合DBA，尤其是数据库应用维护人员阅读。

2012-03-05

Java annotation

本文针对java初学者或者annotation初次使用者全面地说明了annotation 的使用方法、定义方式、分类。初学者可以通过以上的说明制作简单的 annotation程序，但是对于一些高级的 annotation应用

2012-03-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人