自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 spark扫描hbase的rdd的序列化问题

必须加上否则报序列化错误。

2023-07-25 16:48:57 73

原创 word2vec的item2item使用

hive2.dwd_log_jobopt_applyresult_i_d, hive2.dwd_log_jobopt_DetailPageExposure_i_d记录时自带的job信息进行计算,得到当天混乱序列,直接过滤(其中,postag都要换成workFunc,group的postag大类改为workFunc聚类出的大类)。则推荐职位的薪资得分为(推荐职位的最高薪资-推荐职位的最低薪资)/(职位最高薪资*1.2 - 职位最低薪资*0.9) * 7 + 3。

2023-07-25 16:46:48 71

原创 tikv原理以及踩坑

Tikv客户端的RegionCache是一个用于缓存TiKV分布式数据库的Region元信息的组件,它维护了Region的分布、Epoch、Leader等信息,以及Region对应的TiKV节点Client地址等信息,可以快速地路由客户端请求到对应的TiKV节点进行处理。具体来说,当TiKV节点对Region进行操作时,可能会根据本地缓存的Region信息进行操作,而如果此时PD已经将拓扑信息更新,那么TiKV节点可能会与PD同步信息不一致,从而导致EpochNotMatch错误的发生。

2023-06-29 10:15:59 741

原创 es复杂查询(多条件查询,match,range,sort,aggs)

【代码】es复杂查询(多条件查询,match,range,sort,aggs)

2023-06-29 10:13:35 598

原创 spark读取hdfs上的lzo文件

sparkContextManager.setSparkConf("spark.serializer", "org.apache.spark.serializer.KryoSerializer");sparkContextManager.setSparkConf("io.compression.codecs", "org.apache.hadoop.io.compress.DefaultCod...

2019-10-09 14:39:37 1277 2

原创 faiss入坑排坑

1:首先是安装上的坑:第一个就是faiss根本没有windows的版本,只支持mac和linux。再然后,如果你要是用的contos6版本的虚拟机,那就要更新glibc这个库(不难,但很容易出问题),因为centos6的这个库最大支持版本是2.12,而faiss运行的时候需要2.14的版本支持。而centos7就没这问题了。这是虚拟机版本的选择。后面就是安装,如果没有很好的linux下...

2019-06-18 10:53:10 4909 5

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除