BedrockOfAI-CSDN博客

转载 pandas入门（一）：pandas的安装和创建

pandas对于数据分析的人员来说都是必须熟悉的第三方库，pandas在科学计算上有很大的优势，特别是对于数据分析人员来说，相当的重要。python中有了Numpy，但是Numpy还是比较数学化，还需要有一种库能够更加具体的代表数据模型，我们都非常的清楚在数据处理中EXCEL扮演着非常重要的作用，表格的模式是数据模型最好的一种展现形式。pandas是对表格数据模型在pytho...

2019-07-05 15:37:21 1548

转载 Python: with open（）as filename

2018年04月10日 18:52:46wanggaoxingH阅读数 2653使用文件用with的好处1.会在运行完后自动关闭文件2.很简单打开文件并读取 with open('c.xls','r') as t1: content = t1.read() print(content) with open('c....

2019-07-05 11:04:36 1356

转载 Flume详细配置

Flume：===================== Flume是一种分布式的、可靠的、可用的服务，可以有效地收集、聚合和移动大量的日志数据。它有一个基于流数据的简单而灵活的体系结构。它具有健壮性和容错能力，具有可调的可靠性机制和许多故障转移和恢复机制。它使用一个简单的可扩展数据模型，允许在线分析应用程序。 source：源 ...

2019-07-04 15:37:38 687

转载 Git GUI和Git CMD以及Git Bash

Git GUI：可视化图形界面Git CMD：cmd命令行界面。（windows风格）Git Bash：一个封装过的cmd命令行，并在其中加入了指向bash环境的环境变量。（linux风格）Git Bash 命令配置提交作者$ git config --globaluser.name"[你的github名]"$ git config --globaluser....

2019-07-01 13:35:14 1515

转载 Exception in thread "main" java.lang.Exception: When running with master 'yarn' either

Exception in thread "main" java.lang.Exception: When running with master 'yarn' either HADOOP_CONF_DIR or YARN_CONF_DIR must be set in the environment.上面中的错误是HADOOP_CONF_DIR和YARN_CONF_DIR没有设...

2019-06-27 16:26:51 1052

转载负载均衡的一致性哈希及java实现

以一致性哈希用在负载均衡的实例来说，一致性哈希就是先把主机ip从小大到全部放到一个环内，然后客户端ip来连接的时候，把客户端ip连接到大小最接近客户端ip且大于客户端ip的主机。当然，这里的ip一般都是要先hash一下的。我的程序运行结果如下：添加客户端，一开始有4个主机，分别为s1,s2,s3,s4,每个主机有100个虚拟主机： 101客户端（ha...

2019-06-13 22:04:32 251

转载 Spark容错机制

2019-06-04 18:30:20 163

转载 Spark 窄依赖、款依赖

2019-06-04 17:04:56 212

转载 Spark on Yarn的运行原理

2019-06-04 16:12:16 161

转载 CentOS7 ambri2.6.1.5+hdp2.6.4.0 大数据平台搭建

原文地址：https://www.jianshu.com/p/a6a1536ae18eCentOS7ambari前言本文是讲如何在centos7（64位）安装ambari+hdp,如果在装有原生hadoop等集群的机器上安装，需要先将集群服务停掉，然后将不需要的环境变量注释掉即可，如果不注释掉，后面虽然可以安装成功，但是在启动某些服务的时候可能会有异常，比如最后提到的h...

2019-05-30 23:14:43 233

转载 spark map和mapPartitions区别

主要区别：map是对rdd中的每一个元素进行操作；mapPartitions则是对rdd中的每个分区的迭代器进行操作MapPartitions的优点：如果是普通的map，比如一个partition中有1万条数据。ok，那么你的function要执行和计算1万次。使用MapPartitions操作之后，一个task仅仅会执行一次function，function一次接收所有...

2019-05-27 22:57:30 231

转载 scalikeJDBC

2019-05-26 14:39:19 173

转载 log4j的8个日志级别（OFF、FATAL、ERROR、WARN、INFO、DEBUG、TRACE、 ALL）

转载自：《log4j的8个日志级别（OFF、FATAL、ERROR、WARN、INFO、DEBUG、TRACE、 ALL）》log4j定义了8个级别的log（除去OFF和ALL，可以说分为6个级别），优先级从高到低依次为：OFF、FATAL、ERROR、WARN、INFO、DEBUG、TRACE、 ALL。ALL最低等级的，用于打开所有日志记录。TRACEdesigna...

2019-05-25 14:16:28 218

转载 spark窗口函数简单实现

2019-05-23 18:26:44 469

转载 spark中的cache() persist() checkpoint()之间的区别

cache()与persist()：会被重复使用的(但是)不能太大的RDD需要cache。cache 只使用 memory，写磁盘的话那就叫 checkpoint 了。哪些 RDD 需要 checkpoint？运算时间很长或运算量太大才能得到的 RDD，computing chain 过长或依赖其他 RDD 很多的 RDD。实际上，将 ShuffleMapTask 的输出结果存放...

2019-05-23 18:20:51 197

转载 maven中pom.xml中的scope讲解

一、compile：编译范围compile是默认的范围；如果没有提供一个范围，编译范围依赖在所有的classpath 中可用，同时它们也会被打包。而且这些dependency会传递到依赖的项目中。二、provided：已提供范围provided 明了dependency 由JDK或者容器提供。例如如果开发了一个web 应用，可能在编译 classpath 中需要可用的Servl...

2019-05-23 18:02:32 334

转载大数据常见端口汇总-hadoop、hbase、hive、spark、kafka、zookeeper等

常见端口汇总：Hadoop： 50070：HDFS WEB UI端口 8020 ：高可用的HDFS RPC端口 9000 ：非高可用的HDFS RPC端口 8088 ： Yarn 的WEB UI 接口 8485 ： JournalNode 的RPC端口 8019 ： ZKFC端口Zookeeper: 2...

2019-05-23 17:52:29 171

原创 IDEA中已经安装scala插件，也关联了scala，新建的项目没有scala选项

按照以下操作：6步骤付款即可快递方是负数

2019-05-23 12:46:35 1142

转载 intellij idea使用maven本地仓库及修改本地仓库路径

什么maven本地仓库，默认是用户目录下的.m2/repository这个文件。现在在网上搜，idea怎么使用maven？很多都还说要下载maven插件的，其实idea是自带maven插件的，所以不用我们再下载什么？怎么把依赖包下载到我们的本地仓库呢？一般是idea默认了路径，而且idea是没有所谓的setting.xml配置的，更新依赖r包，我们只需要更改pom.xml配置就好，写好...

2019-05-23 11:47:30 3665 2

转载 spark读取日志中文乱码，日志是GBK类型

2019-05-21 12:30:41 1013

转载 Intellij IDEA 安装Scala插件 + 创建Scala项目

2019-05-19 23:57:03 352

转载 java运算符与（&）、非（~）、或（|）、异或（^）

1.十进制转二进制原理：给定的数循环除以2，直到商为0或者1为止。将每一步除的结果的余数记录下来，然后反过来就得到相应的二进制了。比如8转二进制，第一次除以2等于4（余数0），第二次除以2等于2（余数0），第三次除以2等于1（余数0），最后余数1，得到的余数依次是0 0 0 1 ，反过来就是1000，计算机内部表示数的字节长度是固定的，比如8位，16位，32位。所以...

2019-05-16 17:21:21 72

转载 IDEA中右键运行main方法发现没有Run和Debug选项菜单

在github中下载了示例源码使用idea打开有 main 入口的文件，准备启动实验一下的时候发现右键并没有 Run 和 Debug发现了这种方式可解决以上问题，步骤如下：1.在idea界面右侧有收起来的工具栏，其中有一个是 Maven Projects，点开2. 点击 "+" ，选择需要启动工程的 pom 文件，点击 ok3. 在右侧栏中就会出...

2019-05-15 15:41:04 3185

转载 IDEA左侧project模式下，不显示项目工程目录，只有几个配置文件

I、问题原因一般为配置文件*.iml 出错了II、解决办法方法1：找到出错位置，修复方法2：清除配置，重新导入 1）关闭IDEA， 2）删除项目文件夹下的.idea文件夹 3）重新用IDEA工具打开项目I、问题原因一般为配置文件*.iml 出错了...

2019-05-15 14:13:51 6067

转载 spark中文文档

原文链接:http://www.apachecn.org/bigdata/spark/268.htmlApache Spark™ 是一个快速的, 用于海量数据处理的通用引擎.官方网址:http://spark.apache.org中文文档:http://spark.apachecn.org花了大概两周左右的时间，在原来Spark 2.0.2 中文文档版本的基础上，终于迭代出...

2019-05-12 20:38:54 360

转载 spark-submit 详细参数说明

2019-05-12 18:58:02 5863

转载解决scalac Error: bad option -make:transitive

2019-05-10 15:16:30 199

转载将 Spark 中的文本转换为 Parquet 以提升性能

https://www.ibm.com/developerworks/cn/analytics/blog/ba-parquet-for-spark-sql/index.html1列式存储布局（比如 Parquet）可以加速查询，因为它只检查所有需要的列并对它们的值执行计算，因此只读取一个数据文件或表的小部分数据。Parquet 还支持灵活的压缩选项，因此可以显著减少磁盘上的存储。如果您...

2019-05-09 16:38:45 257

转载 ERR! registry error parsing json

2019-05-08 18:58:38 312

转载 grep -v grep

1.grep 是查找含有指定文本行的意思，比如grep test 就是查找含有test的文本的行2.grep -v 是反向查找的意思，比如grep -v grep 就是查找不含有 grep 字段的行我们想要找出哪个进程的id可以使用如下语段：ps -ef | grep "mongod" | grep -v "grep" | awk '{print $2}'...

2019-04-30 19:44:34 242

转载 yum安装找不到包问题解决

yum安装找不到包问题解决出现错误如下：[root@localhost ~]# yum -y install gstreamer-ffmpegLoaded plugins: refresh-packagekitSetting up Install ProcessNo package gstreamer-ffmpeg available.Nothing to doYou h...

2019-04-30 18:19:08 8040

转载 Linux环境下为普通用户添加sudo权限

2019-04-29 16:46:30 442

转载 nginx的location 规则匹配详解

语法规则location [=|~|~*|^~] /uri/ { … }模式含义 location = /uri = 表示精确匹配，只有完全匹配上才能生效 location ^~ /uri ^~ 开头对URL路径进行前缀匹配，并且在正则之前。 location ~ pattern 开头表示区分大小写的正则匹配 location ~* pa...

2019-04-24 12:31:34 158

转载 Nginx配置文件详解

1、安装Nginx在安装Nginx之前，需确保系统已经安装了gcc、 openssl-devel、 pcre-devel和zlib-devel软件库。下面是Nginx安装过程： wget http://nginx.org/download/nginx-1.0.14.tar.gz tar zxvf nginx-1.0.14.tar.gz ./con...

2019-04-24 12:08:16 77

转载 linux 无法使用pstree

安装pstreecentos7上默认没有安装psmisc包.1、在Mac OS上 brew install pstree2、在Fedora/Red Hat/CentOS yum -y install psmisc3、在Ubuntu/Debian apt-get install psmisc...

2019-04-19 12:19:29 490

转载巧用find命令删除Linux下乱码文件及文件夹

文件在Linux中，每个文件都有一个节点编号，我们可以利用此来搞定乱码，首先查看乱码文件的节点号ls-i2241331412?..??mp3前面的就是节点号了，接下来使用find命令查询并且删除find-inum22413314-delete-inum指根据节点号查询；-delete顾名思义就是删除操作了。这样就成功删除乱码文件了，值得注意的是，此方法...

2019-04-17 14:39:00 589

转载 grep命令参数及用法

功能说明：查找文件里符合条件的字符串。语　　法：grep[-abcEFGhHilLnqrsvVwxy][-A<显示列数>][-B<显示列数>][-C<显示列数>][-d<进行动作>][-e<范本样式>][-f<范本文件>][--help][范本样式][文件或目录...]补充说明：grep指令用于查找内容...

2019-04-16 12:22:06 876

转载 Eclipse 安装反编译插件（两种方式）

反编译插件有 jdeclipse 和 jadclipse（乍看好像是一样的！其实不同）以下为两种插件的安装方式：（推荐1）1、jdeclipsehttps://blog.csdn.net/qq_31772441/article/details/802813282、jad + jadclipsea.下载 jadeclipse：https://sourceforge.net/pr...

2019-04-16 10:38:22 198

转载 CentOS7yum安装mysql+需要：libsasl2.so.2()(64bit)

1.rpm-Uvhhttp://dev.mysql.com/get/mysql-community-release-el6-5.noarch.rpm #下载2.yuminstallyum-utils-y #装源3.yum-config-manager--disablemysql56-community #禁用MySQL5.6的源4.yum-config-...

2019-04-15 14:06:53 4670 1

转载 yum安装软件时报错libmysqlclient.so.18()(64bit)---Linux报错

2019-04-15 14:01:25 1281

空空如也

空空如也