Andromeda-CSDN博客

关于es部署，相关的博客很多，但由于笔者需要在生产环境部署ES集群，因此尽量参考官网的配置：7.9版本的es guide首页:https://www.elastic.co/guide/en/elasticsearch/reference/7.9/index.html安装链接：https://www.elastic.co/guide/en/elasticsearch/reference/7.9/install-elasticsearch.html此处内置了jdk。在tar包的jdk目录下ES启动时会自动

2022-04-27 21:26:27 2361

原创 Kafka distributed messaging system for log processing 论文阅读笔记

Kafka提出的背景是LinkedIn需要实时地收集海量日志，并希望能够横向增添系统的可延展性。由于其他消息队列产品并不完全适用于日志收集，吞吐量不能满足需求等原因，提出了Kafka这个分布式，可扩展，高吞吐率的消息日志系统。文中提到，Kafka的特点是消费者采用拉模式的，拥有足够简单的API的，多节点分布式的消息系统。问题1：论文时的Kafka对消费语义的满足？思考：论文中初期的Kafka只满足了至少一次消费At Least Once。即消息至少被处理一次，这种情况可以保证数据不丢失, 但有可能存在

2021-10-11 11:09:18 317

原创 Spark:Cluster Computing with Working Sets 论文阅读笔记

1、本文背景：本文发表于2010年，文章介绍了基于RDD的分布式计算模型以及早期Spark的实现。2、内容概述（文中频繁将Spark与MR对比）3、举例3.1、文本查询（map、reduce）3.2、逻辑回归3.3、交替最小二乘法4、Further Research以及现版本对该文的改进...

2021-09-28 17:06:57 574

原创 Kafka+SparkStreaming的精准一次性消费

Kafka+SparkStreaming的精准一次性消费语义Kafka自身的精准一次性ackat least once+幂等性 = exactly oncekafka事务SparkStreaming exactly onceSpark Streaming如何保证exactly once扩展:Storm\Spark Streaming\Flink的消费语义Kafka自身的精准一次性ackat least once+幂等性 = exactly oncekafka事务SparkStreaming exa

2021-07-05 10:00:17 1760

原创 Spark学习笔记之（三）：MR与Spark 在Shuffle时的区别

MR与Spark 在Shuffle时的区别一级目录二级目录三级目录一级目录二级目录三级目录

2021-07-02 14:29:24 179

原创 Spark学习笔记之（二）：Spark 提交任务流程与任务生成

Spark 提交 job 流程1.Spark 提交 job 流程2.提交脚本中的参数解析2.1 -jar 什么意思3.Excutor 怎么获取 task1.Spark 提交 job 流程2.提交脚本中的参数解析2.1 -jar 什么意思3.Excutor 怎么获取 task

2021-07-02 14:21:56 872

原创 Spark学习笔记之（一）：MR与Spark的区别

本文仅列出了较大的区别点，实际mr与Spark为完全不同的大数据计算组件。1.速度：MR与Spark的根本区别（关键优化）在于：Spark除了需要shuffle的计算，其他是将结果/中间结果持久化到内存中，而MR是都需要落地到磁盘(map.reduce落地都写)，因此Spark格外适用于频繁读写中间结果的迭代计算而MR最终落地HDFS，Spark最终也会落地节点磁盘，因此如果只是简单的非迭代计算，MR最终只会比Spark多消耗一部分（HDFS不同datanode间的）网络IO。所以如果有项目需求为简

2021-07-02 11:28:23 4202 1

原创记录一下HBase Scan过程中的nextCallSeq不匹配问题（记录留档，未解决）

记录一下HBase Scan过程中的nextCallSeq不匹配问题记录一下HBase Scan过程中的nextCallSeq不匹配问题1、Lease 租约：2、RPC：3、Scan Caching4、HBase scan过程中Client与RS交互时序图5、HBASE-59746、源码Reference:记录一下HBase Scan过程中的nextCallSeq不匹配问题最近生产环境扫描HBase过程中，又出现了nextCallSeq不匹配问题。具体报错如下图：第一个错DoNotRetryIOExc

2021-05-15 15:52:20 364

原创浅谈MapReduce中的排序，以及实际问题中的巧用

开坑防止自己懒惰不学习，待续

2021-02-27 23:11:08 1253 4

原创 MapReduce-HBase 新老集群迁移引发的对scan timeout思考

lease exception:租约的有效期由hbase-site中参数hbase.regionserver.lease.period确定，默认的租约有效时间是60000ms，一分钟在1.1版本后，hbase.regionserver.lease.period改为hbase.client.scanner.timeout.period

2021-01-25 11:24:51 627

原创第三次参加数据挖掘比赛复盘（二）

A.1.分析训练集数据log表的数据处理方式：

2020-11-29 12:25:03 289 1

原创开发利用curl模拟探针数据上送脚本中遇到的坑

坑一：curl中传参 & 坑二：curl发送urlencoded数据 &坑三：curl请求总时间与响应时间首先明确一下需求是，通过curl模拟上送待分析数据，再通过crontab定时任务每秒发送一次给我们的数据平台。直接上代码吧，最终的curl写法应该为：result=$(curl -i -X POST $ url --data-urlencoded 'content={"data":{"time":"'"$time"'"}}' --connect-timeout 3 -m 6)-

2020-10-28 17:49:09 153

原创第三次参加数据挖掘比赛复盘（一）

写在赛前的准备：题目是通过基本信息和历史数据，预测客户下个月会新增持有信贷类产品还是财富类产品那么大致思考一下题目逻辑：用户的基本信息中比较重要的特征肯定有用户的收入、支出、包括用户的历史产品持有性质那么如果用户本月获得大额收入，并且原本持有信贷类产品，则可以考虑用户下个月会按时、或者提前还款，甚至增持财富类产品。如果用户本月获得大额收入，并且原本持有财富类产品，则可以考虑用户下个月会增加财富类产品持有量。如果用户本月生成大额支出，那么则需要考虑下个月财富类产品减持、或者信贷类产品增持。查了一

2020-10-16 11:14:40 515

原创自己整理的HBase建表参数默认值与配置差异

1.COMPRESSIONHBase 创建表时默认压缩为 NONE ，即没有压缩，除非指定。目前 HBase 主要支持 4 种压缩方式：GZ（GZIP），SNAPPY，LZO，LZ4。| 算法 | 压缩比| 压缩 | 解压 ||–|--|| | |压缩算法的比较：|| | 压缩 | 解压 |GZIP 13.4% 21MB/s 118MB/sLZO 20.5% 135MB/s 410MB/sSnappy/Zippy 22.2% 172MB/s 409MB/s总结：GZIP的压缩率最

2020-10-13 18:14:21 1018

原创（以后遇到会继续更新）HBase Region数设置以及参数调优，RegionServer内存使用率问题

hbase的RegionServer内存配置为16G，每次在运行统计任务的时候总会导致RegionServer自动重启。查看web界面发现，运行过程中RegionServer的内存使用率已经达到95%以上，从而导致regionServer长时间垃圾回收且回收不掉。通过spark的history查看任务失败阶段从而定位问题代码。在代码中有个foreachPartition操作用来查找hbase表中该记录是否已存在。读取该分区下所有的主键，然后一次性查询hbase，导致RegionServer的内存...

2020-09-24 19:08:23 1360

原创 HBase 使用Java两种方式实现shell中LIMIT

首先明确一下使用过滤器的实例，不仅只有Scan支持Filter，Get也支持部分Filter

2020-08-26 16:06:45 1693 2

原创 Flume相关学习思考

Flume是一个分布式、可靠、和高可用的海量日志聚合的系统，支持在系统中定制各类数据发送方（项目中是Nginx），用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（项目中是HDFS与Kafka）的能力。Flume 的核心是把数据从数据源(source)收集过来，在将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功，在送到目的地(sink)之前，会先缓存数据(channel),待数据真正到达目的地(sink)后，flume 在删除自己缓存的数据。 Flume

2020-07-08 14:04:05 180

原创部门分享——HBase

今天部门分享了HBase。发一下自己的稿子本次分享的开始，想要旧事重提一下，Google被誉为大数据领域的“三驾马车”的那三篇论文:第一篇是:The google file system第二篇是:MapReduce:Simplified Data Processing on Large Clusters第三篇是:2006年发表的 BigTable：A Distributed Storage System for Structured Data. 它介绍了很多BigTable的设计原理，但其实这些原理

2020-07-07 17:03:00 497

原创 Industrial Recommendation System

Outline:1.RS简介2.RS评估2.1评估指标2.2评估方法3.RS实践3.1冷启动问题3.2工业界RS架构3.3学术界与工业界RS侧重点区别1.RS简介历史90年代，门户网站往往采用分类目录等形式，因为内容的稀少，用户往往一眼都能看清所有的产品，可以选择项。例如Hao123,Yahoo这类网站会在首页覆盖少量的热门网站。00年代，通过搜索词明确需求，例如 Google,Baidu10年代，这时会存在一个信息过载的状况，那么就需要一个推荐算法，通过分析用户的历史行为为

2020-05-17 17:51:32 259

原创接口使用MultipartFile/MultipartFile数组，接收前台传来文件的判空方法

本来我写了@requestParam注解以为万事大吉了，并没有测传空文件的情况@RequestParam("file") MultipartFile[] files结果后来用postman发现，注解了@requestParam的String等类型，在入参缺失的情况下都能完美拦截。但MultipartFile不行。后面我加了第一个判空条件： if (file_count == 0) { return RetMessage.build(RetSt

2020-05-11 20:34:49 8682

原创 Gephi Network Visulaization（with network of Harry Potter charactors）

Book《Mastering Gephi Network Visulization》Gephi is the tool which i used five years ago for my master study in a course called Complexed Network and Web.I think I should go through these concepts wh...

2020-04-13 20:18:21 617

原创【疫情神器】用python里的itchat，写了一个监控微信群成员打卡的小程序

itchat真的是一个很神奇的库啊。具体方法详解的话这篇文章写得很好：文章链接安装itchat的话，使用 pip install itchat即可，如果运行了左边命令行，jupyter还是报错，那么可能是pip下载的位置与jupyter的库位置不符合，具体解决方法参考此文章：文章链接代码如下import itchatfrom itchat.content import TEXTimpor...

2020-03-28 18:45:36 2039 1

原创忘记密码后，如何重置mysql root的密码

由于自己本地的mysql很久没用了，忘记了root密码。今天重置了下，所以写一个博客记录一下。1.用管理员身份运行cmd2.关掉mysql服务：可以用命令行停掉mysql: net stop mysql也可以通过服务：右键电脑左下角win图标，点击计算机管理——服务和应用程序——服务——找到mysql，关掉服务3.加参数去掉权限在mysql路径下的bin/my.ini中的[m...

2020-03-23 19:55:02 167

原创关于Object o = new Obejct() 过程中都发生了什么？（jvm课程笔记）

感谢大佬的录屏，延迟看一下JVM的视频课程，记一下笔记：开篇这玩意儿我暂时也看不懂，先放在这里：接下来给了一段创建对象的代码，以及它的java汇编码字节码：0.new ->申请内存。堆里有了一个新的内存。（半初始化。成员变量设置默认值）3 dup 因为invokespecial会消耗一份，所以必须先复制一份4 invokespecial T initlize 初始化，调用他...

2020-03-13 18:33:32 1117

原创晚上听了几十分钟数据中台的讲座，联想到自己入职现在这家公司的第一个项目

朋友圈看行里的领导分享的视频课程。吃饭的时候听得，就只是截图了几张PPT哈。因为之前写了ETL相关的专利交底书，所以对ETL、数仓这方面的架构规划还蛮感兴趣的。讲座里推荐了一本书叫《数据中台》有空可以买来读读下面两张图是在讲数据中台的建设思路，然后下面是我自己的理解：其中有两种建设思路：一种是自顶而下的，就是先从数据架构开始规划，再明确需要开展的业务有哪些，最后再考虑如何获得这些...

2020-03-07 00:37:43 272

原创 LeetCode 121. 买卖股票的最佳时机

这次这道题我想了好久。对于通常的DP问题，我一般都会这么思考1.找出每一个状态的最优解2.再找相邻状态的关系怎么也找不出来f(n) f(n-1）…之间的关系，后面看了答案，看到实际解题思路2恍然大悟实际解题思路1：使我们感兴趣的点是数字折线图中的峰和谷。我们需要找到最小的谷之后的最大的峰。我们可以维持两个变量——minprice 和 maxprofit，它们分别对应迄今为止所得到的...

2020-03-05 23:27:28 149

原创 SQL中一个神奇的单引号引发的血案

今天领导叫给领导的领导的领导开两个账号，但由于我们内网数据库的公网IP再也不开放，navicat再也用不了，那么俺只能冲向服务器去敲命令行。群里俩领导都等着把账号给领导的领导（我在说啥？）而当我自以为五分钟搞定，在很轻松地在word里敲出领导的领导的领导…的信息，复制粘贴进命令行，准备在账户表里插一条的时候，Mysql竟然报错了：（领导的名字我马赛克了我还想活）我：？？？ERROR 10...

2020-03-05 21:45:46 956 3

原创 LeetCode 70. 爬楼梯

JAVA代码class Solution { public int climbStairs(int n) { int[] steps = new int[n+1]; if (n==1){ return steps[n]=1; } if (n==2){ return steps...

2020-03-03 22:52:43 88

原创 LeetCode 53.最大自序和问题

题目是：尝试了第一遍…好菜啊…代码如下class Solution { public int maxSubArray(int[] nums) { List<Integer> subList = new ArrayList<>(); int state = 0; int max = 0;...

2020-03-03 14:06:13 139

原创 LeetCode 1078. Bigram 分词

LeetCode题目：Python代码在这里插入代码片Java代码```javaimport java.util.ArrayList;import java.util.List;class Solution { public static String[] findOcurrences(String text, String first, String second)...

2020-03-03 01:57:42 121

原创 Spell Correction| (NLP L25-30笔记)

L25 Spell Correction

2020-03-02 00:49:38 244

原创 Max Matching|Segment|Term Frequency|Viterbi Algorithm（NLP L18-24笔记）

L18心理学与DL,RL巴浦洛夫的狗：消退：词向量需要不断更新泛化：被蛇咬过，看到绳子也害怕。过拟合欠拟合过拟合与欠拟合的区别在于，欠拟合在训练集和测试集上的性能都较差，而过拟合往往能较好地学习训练集数据的性质，而在测试集上的性能较差。联结主义：给一个行为：X-黑箱子-Y多次重复该行为后，X与Y就有了联结L19斯金纳的鼠操作性条件反射那么反馈机制很重要：强化学习的目...

2020-03-01 21:08:23 182

原创 Algorithm Complexity|Merge Sort|Fibonanci number（NLP 10-17笔记）

Agenda:复杂度回归并归排序以及master theoremP,NP,NP hard,NP complete斐波那契数的计算：递归实现，循环实现问答系统介绍计算复杂度：主定理，递归树L12merge sort（归并）详见链接divide and conquer（Category）图解：归并排序：拆分成子问题，再分别调用子问题，子问题分别排序。解决了子问题后，再将结果进...

2020-02-29 01:46:43 150

原创 What is NLP?（NLP 1-8笔记）

nlp=nlu+nlgnature language understandingnatrue language generationThe challenge：ambiguity：Data->context上下文处理，更新认知->Use probability*case study: machine translation 机器翻译系统简单地按照概率匹配建立一一对应的词库...

2020-02-26 21:18:13 276

原创 Shell脚本判断进程是否存在，如果不存在则重新启动

#! /bin/bash# program : 判断进程是否存在，如果不存在则重新启动function check(){ count=`ps -ef |grep $1 |grep -v "进程关键字" |wc -l` #echo $count if [ 0 == $count ];then nohup python /runscript/wor...

2019-12-09 16:18:52 1755

原创 Cousera Recommender System专项课程 Assignment2

第一问求平均数package org.lenskit.mooc.nonpers.Imp;/*calculate the highest average rating */import org.lenskit.mooc.nonpers.Util.MapSortByValue;import org.lenskit.mooc.nonpers.Util.Rating;import java...

2019-11-28 17:32:46 131

原创 Cousera Recommender System专项课程 Assignment1

代码自己一行行敲的，如有问题欢迎评论区讨论。1.Mean Rating: Calculate the mean rating for each movie, order with the highest rating listed first, and submit the top three (along with the mean scores for the top two).impor...

2019-11-26 11:52:23 484

原创推荐系统采用的部分算法

1.首先会用到部分自然语言处理(NLP)相关技术，如：+使用IF-IDF和TextRank进行关键词提取；+使用隐式马尔科夫模型(HMM)或者条件随机场(CRF)进行实体识别(序列标注)；+在有分类体系的前提下使用SVM或FastText工具对文本进行分类；+使用LDA等无监督算法对文本聚类或从文本中抽取主题模型；+使用Word2Vec、Embedding的方式挖掘出字面意思下的语义信息...

2019-11-22 11:04:00 248

原创关于PCA作用于过拟合时的一些策略

之前在进行数据挖掘比赛的时候，朋友推荐我使用PCA降维。但今天在听机器学习课程的时候，听到老师给出如下建议：为了避免overfitting，并不推荐采用PCA算法。因为无论如何，PCA还是会丢失信息。更推荐使用regularization,来避免过拟合，此时的信息保存率为100%，且在使用PCA前，记得先用raw data跑第一遍。only if 出现一些，例如memory lack 或者...

2019-11-21 16:58:05 763

JAVA.mail API

空空如也