自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 使用langchain+chatGPT搭建自有知识库问答机器人

langchain + chatgpt构建自有知识库的知识问答系统

2023-07-07 09:53:33 5459 4

原创 AI终于触手可及

自从去年OpenAI发布chatGPT以来,经过这大约半年时间的酝酿,AI再一次引爆了人们的眼球和话题,给相关产业的股票也带来了一次刺激。科大讯飞作为语音AI智能的国家队,积累了十几年的AI技术和语音技术,经过近半年的研发,推出了“星火”大模型,并在5月6号开发布会,向公众发布。之前对于AI的观感还停留在傻瓜式的交互方式,一直认为想要突破傻瓜式的交互方式,是一个很难甚至是不可能的事情,因为这实在是超出了我的想象,一台冰冷的机器,怎么可能会有逻辑思维,而且是像人类那种有着严密逻辑的思维。

2023-05-08 20:19:10 888

原创 java数据结构之HashMap

HashMap 数据结构示意图最近闲来无事,准备将HashMap插入数据的过程,以及其数据结构的转化过程,再回顾一下,故写此篇文章,以是记录。

2023-04-28 23:15:30 2123

转载 怀疑手机窃听我们讲话,并推送定向广告?

计算广告及手机窃听

2023-03-09 10:46:17 571

原创 关于“智能出价“的一些探索和实践

智能出价

2023-02-03 14:55:49 845 1

原创 spark shuffle过程源码解析

spark shuffle writer过程详解

2022-11-04 11:21:56 1300

原创 java数据结构之LinkedBlockingQueue

java数据结构之LinkedBlockingQueue的线程安全保证

2022-09-08 11:46:03 1584

原创 java锁之ReentrantLock及Condition

ReentrantLock及Condition配合使用机制

2022-09-08 10:33:44 1328

原创 java数据结构之双端队列ArrayDeque

java 自带双端队列ArrayDeque的源码解析

2022-09-05 20:18:09 3007

原创 Flink 接收BufferOrEvent数据处理源码解析

flink 接收数据之后的处理流程源码解析

2022-09-03 13:19:33 848

原创 hyperloglog计算uv原理

hyperloglog原理可以进行uv计算的进一步说明

2022-08-30 15:10:49 390

原创 关于kylin中cube计算的代码自实现

kylin cube计算算法自实现

2022-08-19 13:54:36 827

原创 maven 生命周期及使用经验

前言为了更好的使用maven,深入理解maven的内部机制,做一些简单的记录1、Defalut 生命周期及默认绑定插件:阶段默认插件默认目标简写process-resourcesmaven-resources-pluginresourcesresources:resourcescompilemaven-compiler-plugincompilecompiler:compileprocess-test-resourcesmaven-resources-

2021-12-01 17:23:58 122

原创 数字广告营销-工作心得

前言:作者本身是做大数据工程方面的工作,最近开始转型做一些广告运营的工作,基于最近的工作,谈一点心得体会,记录一下自己的想法,顺便总结一下在数字广告营销方面的工作。数字广告营销:作者所在公司部门的主营业务是移动广告,所谓移动广告,通俗一点解释就是:你每次打开手机app跳出来的广告 或者 在你浏览app内部的信息时,镶嵌在信息流之间的广告,以此来给广告主做一些品牌推广、拉活、拉新、促销等工作。在广告投放中,对于广告主来说,总要有一些指标来衡量最终的投放效果(如果没有衡量标准,那广告主的钱又不是白送的,

2021-10-16 13:17:54 514

原创 机器学习-学习笔记

2021-10-14 20:11:22 93

原创 flink reduce详解

背景:flink有两种reduce的方式,一种是正常的reduce,一种是windows窗口的reduce,本文主要介绍两种reduce方式的区别1、正常的reduce1.1 代码示例val resultResult = inputstream .keyBy(_.sensor_id) .reduce(new ReduceFunction[SensorReading] { override def reduce(t: SensorReading, t1: Sen

2021-03-05 17:49:30 7053 3

原创 关于Hudi调研的一些问题记录

最近因为想对业务数据处理架构的调整,想要实现对大数据的增量插入/更新的功能,通过调研,Apache Hudi可以实现这方面的功能,遂进行深入的学习。hudi增量更新功能的实现方式:1、COW(copy of write):只用列式(例如Parquet)进行数据存储,在写入数据过程中,执行同步合并,更新数据版本并重写数据文件。2、MOR(merge of read):使用列式(例如Parquet 合并之后的数据) + 行式(avro 新增数据)两种格式进行数据存储。新数据记录到增量文件,然后同步或

2020-12-14 17:20:32 1161

原创 Flink WaterMark和Lateness的工作原理

一、前言之前在做业务的时候,对于Flink对事件时间的处理原理进行过源码分析,但当时主要精力在业务上,并没有对flink内部的处理原理进行深入的分析和记录。并且当时对于WaterMark和Lateness的区别,并没有完全吃透,甚至可以说脑子里对这两个概念是一团浆糊,不知道已经有了WaterMark,为什么还要设置Lateness这个东西?因为WaterMark的设置就是为了处理乱序的数据,而Lateness的作用也是为了给乱序数据一个缓冲时间。最近闲来无事,再次深入flink的源码,想把这一块儿东西吃

2020-11-30 17:36:10 422

原创 Spark 外部变量和BroadCast变量的区别

spark里面算子里面使用外部变量和BroadCast变量的区别:1、如果在算子里面使用外部变量,spark会将外部变量复制多个副本,通过网络传输到每一个task里面去(也就是说,此时的外部变量是task级别的)2、BroadCast变量,使用spark的广播功能进行广播,广播之后保障每个executor里面只驻留一份变量,而同一个Executor中的task共享这一份变量(也即是说,BroadCast的变量是Executor级别的)很显然,第二种方式是更能节省网络资源和内存资源的。...

2020-10-05 21:57:18 1730

原创 fabric-ca服务构建及证书生成

前言:1、为了保证在网络通信过程中信息的安全性,fabric可以设置tls网络通信模式,这就需要我们来生成相关的数字签名证书。关于tls通信需要数字证书的原因以及通信过程,见tls安全网络传输2、之前fabric的相关证书是我们手动用cryptogen命令来生成的,但是在实际的应用场景中,如果新增用户,这种方式肯定是不行的,我们需要用fabric-ca的方式来生成相关证书。一、fabric-ca服务的启动1、fabric-ca镜像 在这里,我们使用docker的方式来启动...

2020-07-31 17:20:06 3552 3

原创 tls 安全网络传输总结

以下文字是自己基于理解整理的一些要点:一、网络安全传输的三大问题1、信息保密性2、信息完整性3、身份正确性二、加解密方法1、对称加密:加解密用同一个秘钥2、非对称加密:包含两个秘钥:公钥 私钥公钥加密只能用私钥解密私钥加密只能用公钥解密三、对称加密优点:(1)、性能高缺点:(1)、无法解决秘钥同步过程中被劫持的问题,除非线下进行秘钥的同步,但是在互联网中,线下操作几乎是不可能的四、非对称加密在发送公钥的过程中,也会有第三方劫持的问题..

2020-07-30 14:47:21 894

原创 Netty使用总结

最近公司要搞一个对外的http服务,具体业务就不说了。使用了Netty进行了这个服务的开发。以前自己啃过《Netty权威指南》这本书,说实话,作为开发者,很多东西不实践,只看理论,毕竟印象不深,这次Netty服务的开发,在实践的基础上,对Netty的服务原理有了较深的理解。下面就把自己这段时间对Netty的理解做一下记录。一、Netty服务端开发代码 先上代码,Nett...

2019-12-27 16:55:46 385

原创 flink web界面不显示watermark的问题

最近在搞flink的时候,发现一个小问题:1、当我把window窗口操作的并行度设置成150的时候,flink界面显示了当前的watermark值2、但是当我把window窗口操作的并行度设置成180的时候,flink界面不再显示watermark的值,显示为no watermark1、原因经过一番页面和源码追查,发现flink的web页面在访问服务的时候,请求的url不能超过4094字...

2019-11-09 11:09:31 3198 2

原创 平衡搜索二叉树生成java代码

package zachen2.avlTree;public class ALVTree { private Node root; private int size; public ALVTree(){ this.root = null; size = 0; } public int getSize(){ return this.size; } publi...

2019-10-14 18:41:19 147

原创 spark on yarn申请内存大小的计算方法

最近在调试sparkStreaming程序的时候,遇到一个问题:我设置的sparkStreaming的相关参数如下:spark.executor.instances: 56spark.executor.memory :2Gspark.driver.memory:5Gspark.executor.cores:2按照这部分参数,计算出来申请的内存大小应该是:56 * 2G + 5G = ...

2019-10-10 19:20:35 3050

原创 Clickhouse的窗口漏斗函数WindowFunnel

1、WindowFunnel关于官网的解释:Returned value:Integer. The maximum number of consecutive triggered conditions from the chain within the sliding time window. All the chains in the selection are analyzed.返回值:...

2019-05-15 18:01:23 8554 1

原创 Centos单机伪分布式ClickHouse搭建

ClickHouse版本:18.12.171、下载安装包如下图所示:安装命令:yum -y localinstall *.rpm2、安装之后一些重要目录的说明目录:/var/log/clickhouse-server 服务日志目录目录:/etc/clickhouse-server 包含clickhouse的两个配置文件,config.xml和user.xml脚本:/etc/init...

2019-02-19 19:48:52 1444 2

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除