夕阳下的独行者-CSDN博客

原创记一次datax抽取mongo数据报错

暂时还不知道原因，但是运行成功啦，之前直接配置ip是没问题的，这次在新的项目中运到这个情况，给遇到这个问题的小伙伴一个借鉴，有大佬知道原因的麻烦评论区告诉下。

2023-05-04 15:33:08 435

原创 doris通过Binlog Load实时同步mysql数据（Binlog Load只能支持Unique类型的目标表，且必须激活目标表的Batch Delete功能。）

doris自带binlog功能，通过canal将mysql数据实时同步到doris

2023-04-13 12:50:46 1000

原创 idea打包spark程序在集群上运行过程(1)

第一步：第二步：第三步：第四步：第五步： spark-submit --master yarn --deploy-mode cluster --driver-memory 4G --executor-memory 5g --num-executors 10 --conf nf spark.yarn.executor.memoryOverhearhe...

2018-10-24 17:51:21 1342 1

原创大数据hadoop集群的搭建总结及步骤

CentOS6.5mini版hadoop集群搭建流程 CentOS 7 系列：关闭防火墙：systemctl stop firewalld 禁止防火墙开机启动：systemctl disable firewalld 安装虚拟机的时候需要配置好主机名和网络主机名：master，slave1，slave2 网络配...

2018-10-22 09:26:32 4417

原创 centos6.5安装步骤

也可以在 cat /etc/sysconfig/network-scripts/ifcfg-eth0 下配置，然后重启网络服务 CentOS6： service network restart CentOS: stytemtal network restart ...

2018-10-22 09:24:32 220

原创 linux总结及常用命令总结

配置：file:///D:/QQ/QQdownload/Linux%E5%91%BD%E4%BB%A4.html1.Xsheel5下载：http://www.netsarang.com/download/down_form.html?code=5222.VMware3.镜像4.FileZilla5.Notepad DNS: 当你上网输入域名的时候，首先要先把域名发送到...

2018-10-22 09:22:47 419

翻译 tomcat发布项目的三种方式

部署项目的第一种方法（项目直接放入 webapps 目录中） 1、将编写并编译好的web项目(注意要是编译好的，如果是 eclipse，可以将项目打成 war 包放入)，放入到 webapps 中 2、启动tomcat服务器（双击 apache-tomcat-6.0.16\bin 目录下的 startup.bat，启动服务器） 3、在浏览器输入：http://...

2018-10-22 09:05:13 1358

原创 mysql时间相关操作

mysql 昨天一周前一月前一年前的数据这里主要用到了DATE_SUB，参考如下复制代码代码如下: SELECT * FROM yh_contentwhere inputtime>DATE_SUB(CURDATE(), INTERVAL 1 DAY)where inputtime>DATE_SUB(CURDATE(), INTERVAL 1 WEEK)...

2018-10-22 09:03:39 358

原创 hbase总结

hbase *时间同步ntpdate cn.pool.ntp.org *启动错误，日志查看1.hdfs日志，hadoop安装目录下的logs目录2.zookeeper日...

2018-10-19 11:37:19 350

原创 hive总结

...

2018-10-19 11:34:09 405

原创 flume总结

source：采集数据channel：缓冲区，如果不用channel可能导致source中数据过大而瘫痪。sink：读取缓冲区数据，读取完删除该数据。三者用Event类型来交互数据flume安全问题：flume链式集成配置： *flume的版本区别flume特点1.采集大...

2018-10-19 11:32:13 230

原创 sqoop总结

sqoop2 *sqoop就是可以高效的让关系型数据库和大数据平台存储系统进行数据迁移的框架其底层原理是把用户的操作转换成map任务然后发布到yarn上进行分布式的执行，从而完成对大数据的迁移。*sqoop2包含客户端和服务端...

2018-10-19 11:16:06 450

原创 kafka总结

kafka充当消息队列 scala 2.11.X*kafka的架构zookeeper：集群协调管理配置工具。kafka的集群的形成和集群的基本配置信息，以及kafka的元数据信息，都保存在zookeeper中。kafka的broker连接信息也保存在zookeeper中。Broker：kafka的每一个服务节点都被称作broker，kafka集群就是由若干个b...

2018-10-19 11:14:59 481

原创 storm总结

*storm的开发开发spout类（定义一个类型实现BaseRichSpout抽象类，然后实现其nextTuple方法和open方法）开发bolt类（定一个类型实现BaseRichBolt抽象类，然后实现其execute方法，declareOutputFields方法）把spout类和bolt类组装在一块形成一个topology（使用TopologyBuilder来创建top...

2018-10-19 11:10:29 233

原创 kettle

ambaricloudera manager(cdh) where col1 like 'abc%' rowfilter适用场景当从hbase中获取rowkey大于或者小于某个值的时候rowkey中包含某个字符串的时候 where col1='3' and col2 >33 or col3 <123...

2018-10-19 11:08:28 316

原创 spark总结

spark 执行过程 yarn 执行过程 *spark的理解spark是一个快速的、统一的大规模数据处理引擎它是基于内存计算的它的特点是：快速、易用、适用于各种数据处理场景（批处理、流处理、交互式处理）、它可以运行在多种分布式计算框架中，如yarn和mesos等 *spark的架构Master...

2018-10-19 11:04:37 269

原创大数据总结

1.hdfs的原理，各个进程的作用 hdfs是一个主从架构的分布式文件管理系统。设计思想：分而治之——将大文件、大批量文件，分布式存放在大量独立的服务器上，以便于采取分而治之的方式对海量数据进行运算分析。 hdfs提供了一个统一的目录树来定位hdfs中的文件，文件是被切块存储在若干台datanode服务器上，每一个文件的每一个切块，在hdf...

2018-10-19 10:43:21 638

原创 scala总结

*scala语言特点是运行在jvm之上的语言同时兼具面向对象编程范式和面向函数编程范式的语言强类型语言Scala combines object-oriented and functional programming in one concise, high-level language. Scala's static types help avoid bugs in comple...

2018-10-18 17:18:21 290

转载大数据bug总结

1、用./bin/spark-shell启动spark时遇到异常：java.net.BindException: Can't assign requested address: Service 'sparkDriver' failed after 16 retries! 解决方法：add export SPARK_LOCAL_IP="127.0.0.1" to spark-env.sh...

2018-10-18 17:16:22 1914

原创 java发送邮件实例

JavaMail发送邮件到qq邮箱:前提是QQ邮箱里帐号设置要开启POP3/SMTP协议，步骤如下：1. 登陆你的QQ即可，找到QQ邮箱图标。2.进入邮箱后后点击设置。 3.找到账户。4.往下拉将POP3/SMTP开启。 5.开启后会给你一个授权码，授权码要记下来，后面的代码要用。接下来就是代码了首先在pom文件中加入 javaemail 的依赖：...

2018-10-18 16:56:04 433