自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(80)
  • 资源 (1)
  • 收藏
  • 关注

原创 与神奇的甲方斗智斗勇

我相信,只要我们能够用创造性和幽默的态度来回应这些需求,就能够创造出令人惊叹的成果,并在职场中斗智斗勇,与“神奇的甲方”共同成长。然后,我提出了一个另类的解决方案:一个虚拟现实的体验,通过视觉和嗅觉的结合,让人们感受到各种颜色的气味。曾经有一次,我接到了一个项目,甲方的需求是在一周内创造出一个可以让鱼儿飞翔的手机应用。然而,作为一名聪明机智的从业者,我总是能够以一种有趣而又巧妙的方式应对这些“神奇的甲方”。这个建议让甲方感到非常兴奋,因为它不仅满足了他们的需求,还提供了一个全新的、令人惊叹的体验。

2023-06-28 16:22:39 313 1

原创 加速大规模数据处理和多维分析:基于Lucene和Hadoop的开源项目

在多个查询的情况下,Lucene-Hadoop表现出更快的响应速度。通过固定分区文件与执行器的关联,Lucene-Hadoop在加载Lucene格式数据源时实现了索引的快速打开,提高了查询性能。Lucene索引性能:在索引1亿条记录时,Lucene-Hadoop的耗时为139秒,索引大小为13.9GB。在处理大规模数据时,Lucene-Hadoop在写入性能方面表现出色,同时提供了高效的查询和聚合能力。对于条件查询和分面聚合,Lucene-Hadoop表现出优秀的性能,特别是在多个查询的场景下。

2023-06-08 20:59:01 625

原创 Spark 3.2.1 Structured Streaming编程指南

一.概述Structured Streaming是一个可扩展、容错的流处理引擎,建立在Spark SQL引擎之上。开发者可以用离线批处理数据相同的表示来表示流计算的逻辑,并且保持其逻辑的一致性(流批一体)。Spark SQL引擎会处理好增量连续运行,并随着流式数据的接收持续更新最终结果。开发者可以使用Dataset/DataFrame API ,使用Scala,Java,Python或者R的方...

2022-04-07 17:58:00 100

原创 Lucene On Spark -- 云原生OLAP引擎加速数据分析(一)

一.概述大数据OLAP引擎根据灵活性、及时性、成本收益比,通常分为如下三种:A.预聚合查询结果:提前计算好各个维度的汇总数据,常见方案有:kylin,druid等 。B.即席查询类:实时查询明细数据,常见方案有:clickhouse,doris,TiDB等。C.离线写入+现场计算:常见方案有:ES,Solr,bitmap on hbase/redis/pgsql等,可附加使用HBase/Mong...

2022-03-25 18:03:00 56

原创 ElasticSearch Join Field Type性能测试

一.场景描述使用ElasticSearch做用户画像+人群画像时,面临的比较难以解决的问题是用户画像和详情记录间的关联,虽然ES支持任意维度的标签,但在大量维度的标签存储和查询时时一般仅能支持到标签维度而非数值。如下面的方案,会存在无法独立使用ES计算用户画像和详单数据关联的问题:https://blog.csdn.net/weixin_44318830/article/details/1140...

2021-09-15 10:07:00 28

原创 ES 7.7.1 高效delete_by_query

index中数据量很大的时候会出现接口超时的情况,另外也会出现version conflict等问题。根据ES参考文档https://www.elastic.co/guide/en/elasticsearch/reference/7.x/docs-delete-by-query.html1.delete by queryPOST /user_profile_daily/_delete_by_qu...

2021-08-25 17:57:00 66

原创 联通SGIP1.2网关对接

一.联通SGIP网络架构图SMG是具有短消息转发功能的短消息网关。全国可以有多个SMG网关,SMG网关之间通过互联网等方式实现网络互联。每一个SMG同时与多个SMSC以及多个SP连接。全网具有唯一有效的GNS,GNS负责全局路由表的维护与更新;为了确保路由表存储的安全性,网络中设置主备用GNS,两个GNS要保持一致性。每一个SMG都和GNS连接。SMG与SP、SMG与GNS以及SMG与SMG之间...

2021-05-22 11:40:00 112

原创 Mysql Windows启动命令

mysqld --defaults-file="C:\ProgramData\MySQL\MySQL Server 8.0\my.ini"

2020-11-05 10:39:35 648

原创 TensorFlow在CentOS7.7下安装

目录一.通过miniconda安装并升级到最新版二.制作Tensorflow离线压缩包一.通过miniconda安装并升级到最新版参考https://tensorflow.google.cn/install?hl=zh_cnhttps://www.anaconda.com/blog/tensorflow-in-anacondahttps://www.cnblogs.com/learn-the-hard-way/p/12318980.htmlcpu版本。这里先装一个anacon

2020-10-14 19:14:37 260

原创 啥是Pytorch

目录一.参考资料1.1 Tape-based autograd1.2 Pytorch通常的使用场景1.3 Pytorch组件二.延展资料2.1 NumPy2.1.1 NumPy 应用2.2 SciPy2.3 scikit-learn2.4 Cython2.5 Numba2.6 IntelMKL(Math Kernel Library)2.7 NVIDIA(cuDNN,NCCL)2.7.1 cuDNN2.7.2 NCCL一.参考资料安装参考:

2020-10-14 19:03:45 742

原创 啥是TensorFlow

一.参考资料github地址: https://github.com/tensorflow/tensorflow二.TensorFlow中使用的语言2.1 Starlarkhttps://blog.bazel.build/2017/03/21/design-of-skylark.htmlstarlark原名叫skylark,项目地址:https://github.com/bazelbuild/starlark改名原因见https://github.com/goog...

2020-10-14 19:01:33 248

原创 软件著作权申报流程

一.申报网址及材料参考中国版权保护中心官网:http://www.ccopyright.com/index.php?optionid=1081其中第4点的软件鉴别材料中,明确提出了对材料的要求。 源程序的连续的前30页和连续的后30页。 一种文档的连续的前30页和连续的后30页。 一般分为如下几个部分:xxx系统v1.0设计说明书xxx系统v1.0使用说明书xxx系统v1.0源代码1.1 注意事项 文档和代码页眉名称必须和申请表里的软件全称一致。.

2020-10-14 17:27:55 1012

原创 Pycharm使用conda虚拟环境开发python

选择 Conda Enviroment,指定对应的环境。前提是安装并使用Conda管理python的版本包。

2020-10-14 16:59:52 396

原创 PySpark+Prophet

目录一.背景二.制作Prophet离线环境2.1 下载Miniconda3 linux安装包并安装2.2 安装python3.7(Prophet不支持3.8)虚拟环境及Prophet2.2.1 问题一:使用清华源安装失败2.3 制作压缩虚拟环境fbprophet.tar.gz包2.4 使用fbprophet离线包三.PySpark中使用指定的python版本3.1 方法一:所有节点部署离线环境3.2 方法二:仅在driver所在节点部署离线环境四.PySpark开

2020-10-13 16:16:58 503

原创 Prophet时序数据异常检测方法

一.背景通常app打点数据是有时间周期规律的时序数据,当打点数据出现异常时,需要有一种及时发现问题的方法。二.发现规则变化的方法2.1 传统方法通过人工观察,当某段时间打点数据趋势突然异常的时候(明显增加或者减少),此时可以推测,增加的原因可能是某个规则欠拟合了;而减少的原因,可能是app升级版本后修改了api,导致某个规则失效了等等。这样的弊端是,当打点规则非常多时,对每个规则都进行比对是非常低效的。2.2 机器学习方法https://blog.csdn.net/w...

2020-10-13 16:12:05 3137 1

原创 大数据面试常见问题总结

目录项目一.HDFS二.Spark三.Kafka四.HBase五.ElasticSearch六.JanusGraph项目项目通常有如下六类,对比简历看一下面试者参与过其中哪些类的项目开发。离线数据仓库 :flume ,hdfs,hive/spark实时数据查询 : hbase,redis,mongo在线数据分析 : elasticsearch,impala,kylin,druid,mppdb,clickhouse实时流处理 : spark-streamin

2020-10-13 16:01:52 1691 1

原创 实战:一种在http请求中使用protobuffer+nginx+lua收集打点日志的方案

背景app打点日志的上报和收集,是互联网公司的基本需求。一.方案选择1.1 protobuffer vs json探究一种以最高效的方式上报和解析打点数据是一个系统性的问题,需要解决的子问题有很多,例如降低网络传输成本,减少序列化反序列化的性能开销,可靠性和高峰期的水平扩展,以及非耦合的编码等等。很多公司的打点日志会采用比较简单通用的json格式来上报,比如"第四范式"的先荐系统就是使...

2020-09-27 14:46:00 89

原创 解决HDFS Decommission退服慢的问题

参考资料:https://bbs.huaweicloud.com/forum/thread-73286-1-1.html处理步骤:退服时副本是迁移的速度受如下三个配置影响dfs.namenode.replication.work.multiplier.per.iteration 每次复制的块的个数为dn的个数*该参数dfs.namenode.replication.max-streams 进行复制任务分配时,单个DN人队伍的最大值dfs.namenode.replication.

2020-09-25 16:09:49 989

原创 C++最常用的基本语法

目录一.基本数据类型二.自定义类型三.枚举类型四.数字声明4.1整数常量的一些写法(八进制,十进制,十六进制)4.2浮点数常量五.字符串声明六.定义常量6.1 #define6.2 const七.const,volatile,restrict限定符一.基本数据类型一些基本类型可以使用一个或多个类型修饰符进行修饰:signedunsignedshortlong需要多用才能记住。c++的平台相关性数据类型的区别上就可见一斑.

2020-09-18 14:42:14 903

原创 C++入门-使用VS 2019开发Hello World

C++1.历史C++是C语言的继承,它既可以进行C语言的过程化程序设计,又可以进行以抽象数据类型为特点的基于对象的程序设计,还可以进行以继承和多态为特点的面向对象的程序设计。C++擅长面向对象程序设计的同时,还可以进行基于过程的程序设计,因而C++就适应的问题规模而论,大小由之。C++不仅拥有计算机高效运行的实用性特征,同时还致力于提高大规模程序的编程质量与程序设计语言的问题描述能力。世界上第一种计算机高级语言是诞生于1954年的FORTRAN语言。之后出现了多种计算机高级语言。1970年,AT

2020-09-17 09:32:37 1501

原创 在IDEA中创建Spring Boot Web项目及项目中的代码分层

1.创建项目2.定义分层在一般的springboot项目中,会包含如下几个分层:datamodel:定义数据模型,包括entity,dto,vo等。repository:用途是封装数据库的操作,简单的项目中直接使用repository,复杂的项目中会分成repository层和dao层,dao层负责基本的crud操作,repository层是面向业务的抽象。service:service层位于repository之上,一个service中应该包含一块业务的完整实现..

2020-09-16 10:48:25 787

原创 Ant Design Pro 修改左侧导航栏中的文字和图标

1.修改左侧导航中的文字在config/config.ts中修改下图中位置,这里的name实际上对应的是一个国际化资源的key,但是如果找不到对应的value,会直接取name字段。2.修改左侧导航栏图标笑脸:smile 皇冠:crown一些支持的图标和对应的英文如下:Dashboard: dashboard表单页: form列表页: table详情页: profile结果页: check-circle异常页: warning个人页: user图形

2020-09-16 10:29:15 6183

原创 Ant Design Pro修改登录界面Title,以及去掉手机号登录方式

目录1.去掉其他登录方式及注册账户2.去掉手机号验证码登录3.修改用户名输入框的提示4.修改首页Title1.去掉其他登录方式及注册账户修改\pages\user\login\index.tsx,去掉如下代码段2.去掉手机号验证码登录3.修改用户名输入框的提示默认用户名密码需要修改user.ts中如下内容4.修改首页Title替换asserts中的logo.svg文件同时要修改相关css。...

2020-09-16 10:13:59 3219

原创 redis Can’t save in background: fork: Cannot allocate memory 问题解决

问题描述:原因分析:Redis内存不足。参考文档:https://blog.csdn.net/zqz_zqz/article/details/53384854解决方案:sudo vi /etc/sysctl.conf#添加如下行vm.overcommit_memory=1 #执行如下命令使配置生效sysctl -p...

2020-09-14 11:28:56 641

原创 Ant Design Pro 安装和Windows开发环境准备

目录一.参考资料二.前序准备2.1 安装yarn1.2.2 下载并安装使用WebStorm作为IDE1.2.3 选择Ant Design Pro V5一.参考资料官方网站传送门:https://preview.pro.ant.design/dashboard/analysishttps://pro.ant.design/docs/getting-started-cnAnt Design Pro 是一个企业级中后台前端/设计解决方案,秉承Ant Design的设计价..

2020-09-12 16:49:47 1161

原创 Docker Swarm 网络问题修复

一.项目场景:部署服务器时使用了双网络平面。管理网段是千兆网,使用的ip段为192.168.100.*数据网段是万兆网,使用的ip段为192.168.200.*最初node1,node2通过100网段组建起dockerswarm的集群。后来node3,node4通过200网段连入网络。由于千兆交换机没口了,因此无法接入到100网段。二.解决方案:2.1 所有子节点leave在node2,node3,node4上执行如下操作docker swarm leave2..

2020-09-12 15:50:36 1687

原创 EasyExcel调试记录

一.pom.xml<dependency> <groupId>com.alibaba</groupId> <artifactId>easyexcel</artifactId> <version>2.2.6</version></dependency&...

2020-07-08 11:34:00 536 1

原创 ElasticSearch ForceMerge 任务进度跟踪

1.通过/_cat/indices/ api查看所有index的段情况和当前正在进行merge的文档数。GET /_cat/indices/?s=segmentsCount:desc&v&h=index,segmentsCount,segmentsMemory,memoryTotal,mergesCurrent,mergesCurrentDocs,storeSize,p,...

2020-05-08 18:12:00 1883

原创 ElasticSearch 7.6中遇到的一些坑

一.限制单个index在单个节点上的总shard数。index.routing.allocation.total_shards_per_node一般在冷热分离的场景种,冷数据会设置副本,热数据为了保证写入速度,只有主分片。当以均衡index中的shard数为目的,设置了该限制后,若冷数据节点数不够,容纳热数据节点2倍的分片,则会导致大量shard无法分配到节点上。...

2020-05-08 17:21:00 977

原创 kafka深度性能测试

一.硬件配置3台服务器配置如下:CPU: 2物理CPU,12核/CPU , 48 processor Intel(R) Xeon(R) Silver 4116 CPU @ 2.10GHz内存: 128GB硬盘: 480GB*1 SSD盘(OS)+6TB*7 SAS盘Broker节点数: 3个网络:10GE二.测试方案2.1 测试套件使用kafka官方提供的性能测试工具 kafka-pe...

2020-03-26 15:00:00 1706 2

原创 Ambari2.7.4+HDP3.1.4在centos7.6部署

一.下载安装包使用在线安装特别慢,所有的安装包加起来有9个G左右,所以需要先下载相关安装包到服务器,通过配置本地源的方式来实现的离线安装。在私有集群中部署时,客户机房的网络情况不可预测,因此也需要使用离线部署的方式。根据官方文档https://docs.cloudera.com/HDPDocuments/Ambari-2.7.4.0/bk_ambari-installation/cont...

2020-03-26 14:55:00 1108

原创 Kafka Connect HDFS

概述Kafka 的数据如何传输到HDFS?如果仔细思考,会发现这个问题并不简单。不妨先想一下这两个问题?1)为什么要将Kafka的数据传输到HDFS上?2)为什么不直接写HDFS而要通过Kafka?HDFS一直以来是为离线数据的存储和计算设计的,因此对实时事件数据的写入并不友好,而Kafka生来就是为实时数据设计的,但是数据在Kafka上无法使用离线计算框架来作批量离线分析。那么,Kaf...

2019-11-08 11:23:00 2422

原创 Knn算法实现

Knn算法实现k近邻算法¶0.引入依赖¶In[8]:import numpy as npimport pandas as pd#这里直接引入sklearn里面的数据集,iris 鸢尾花from sklea...

2019-08-31 20:52:00 163

原创 简单线性回归(梯度下降法) python实现

grad_desc简单线性回归(梯度下降法)¶0.引入依赖¶In[1]:import numpy as npimport matplotlib.pyplot as plt1....

2019-08-29 10:30:00 817

原创 简单线性回归(最小二乘法)python实现

简单线性回归(最小二乘法)¶0.引入依赖¶In[7]:import numpy as npimport matplotlib.pyplot as plt1.导入数据¶In[15...

2019-08-29 10:26:00 2185

原创 将nginx搜集到的日志通过flume转到hive

背景介绍:Nginx为app打点数据,打点日志每小时滚动一次。目录结构如下文件中的数据如下(cat -A 2019072414r.log 后的结果,-A为显示隐形的符号,下方^A为指定的分隔符。$为行尾结束符,换行的时候会自带,不用关注。)61.140.204.111^A20190724145548^A1563951348^A^A8671a9d406bd8733bf42...

2019-07-24 16:27:00 250

原创 kafka+spark-streaming实时推荐系统性能优化笔记

&#13; 1) --conf spark.dynamicAllocation.enabled=false&#13;如果正在使用的是CDH的Spark,修改这个配置为false;开源的Spark版本则默认是false。&#13;当为true时,即使指定了num-executors个数,spark-streaming应用也会占用整个集群的资源。&#13; &#13;2)...

2018-09-04 17:45:00 1308

原创 解决CDH SparkStreaming任务启动之后executor不停增长的问题,num-executors配置不管用。...

&#13; &#13;spark2-submit --class SparkKafka --master yarn --executor-memory 1G --num-executors 6 --driver-memory 1g \&#13;--conf spark.driver.supervise=true \&#13;--conf spark.dynamicAl...

2018-08-02 21:17:00 4034

原创 spark之scala快速入门

&#13; scala和java都是在jvm之上的语言,相对来讲,scala热度比较低,其实并不是一个特别好的语言选择。&#13;原因倒不是因为scala本身的缺点,而是使用人群不够多,论坛和社区不够活跃。这就跟社交软件一样,大家都用微信,短信就没人用了。&#13;但是scala是写分布式程序的一门非常方便的语言,因为scala几乎每个对象都有map,reduce,fil...

2018-07-20 15:05:00 324

原创 spring-quartz定时器简单用法

&#13; 基本配置: 1.quartz.properties #============================================================== &#13;#Configure Main Scheduler Properties &#13;#=====================================...

2018-05-30 11:21:00 125

Scrum敏捷项目管理

敏捷开发培训ppt

2017-03-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除