赵小丽-programer-CSDN博客

原创我想简单的写写nce和infonce

推荐系统——对比学习对比学习相关背景对比学习提出的背景对比学习方法正例的构建方法负例的构建对比学习的效果、趋势对比学习在推荐中的应用总结对比学习相关背景对比学习提出的背景度量学习+无监督学习对比学习方法希望投影空间中两个正例比较接近，如果是负例，则远离。通过infoNce Loss 来达到这个目标正例的构建方法负例的构建对比学习的效果、趋势对比学习在推荐中的应用总结引用：1....

2022-05-18 18:11:31 4401

原创 MIMN——Multi-channel user Interest Memory network

MIMN——Multi-channel user Interest Memory network

2022-05-16 14:20:29 981

推荐系统消偏推荐系统中的偏差IPW ——逆概率加权DICE ——区分兴趣和偏差建模因果推断欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入推荐系统中的偏差预估问题我们一般会注重两种误差，偏

2022-05-16 13:07:50 1187

原创《深入浅出图神经网络》笔记

GCN 及其变种图网络主要是处理图信息，相比其他数据结构的数据，图网络考虑了节点之间的连接关系，因此具备更加丰富的信息。相比于CNN ,介绍了大量图的卷积操作，图的时域与空域的变换，主要借助拉普拉斯矩阵分解，频率为拉普拉斯矩阵的特征值，特征向量为基函数。图的卷积变换可以变为频域上面的乘积。图滤波与图卷积的操作一致，图滤波器为图上的特征提取器。图神经网络 wx 使用的是特征变换 Lw*x 考虑图结构信息。对w 和L 进行学习，参数量巨大，因此GCN 做成了固定的滤波器，引发的问题是GCN

2021-03-14 14:34:21 143

原创推荐系统中多任务学习方法总结-持续更新

为什么有多目标单目标无法衡量系统的好坏多任务学习样本加权：经验将另外一个目标折算到base 目标上。按照比例对样本加权。（在较少的损失base 目标的基础，提高其他目标）原始损失函数交叉熵损失 F=-ylog(y_t)-(1-y)log(1-y_t)；加权损失函数 F_w = -(1+C)ylog(y_t)-(1-y)log(1-y_t)BP 时，对于权重为C的目标，损失增加*C，导数更新偏向加权目标（加权正样本与不加权正样本之间的差异会影响原始模型在基础label 的学习：有偏.

2021-02-28 20:00:25 432

原创 python 打印日志一目了然的数据结构namedtuple

文章目录写在前面namedtuple 使用写在前面namedtuple 是tuple的升级版本，主要解决了tuple 不能为元组内部的数据进行命名，所以往往我们并不知道一个元组所要表达的意义。关于标题 “python 打印日志一目了然的数据结构”其实应该是namedtuple 在我是用的过程中，比较高频的使用在打印日志上。namedtuple 使用尝试namedtuplefrom collections import namedtupleexample_namedtuple = named

2020-08-03 09:55:49 294

原创 kafka 客户端使用以及spark streaming

启动kafkash bin/kafka-server-start.sh config/server.properties作为消费者：sh bin/kafka-console-consumer.sh --bootstrap-server <your broker list> --topic <your topic>作为生产者sh bin/kafka-console-producer.sh --broker-list <your broker list&g.

2020-05-27 09:49:31 183

原创 model.evaluate sample_weight 设置不同，导致AUC 不同的原因排查

文章目录背景原因分析背景在train set 中设置了sample weight进行训练，在评估集上设置不同的sample_weight 进行model.evaluate 时，得到AUC 不同。这与我想的不一样：sample weight 不参与评估原因分析首先根据tensorflow 官网的代码： evaluate 是可以传入 sample_weight 的。但是有引申了第...

2020-05-07 15:22:08 982

原创 spark任务卡住问题原因之一以及解决方案

本文是一个记录文，主要是参考网上的资料Spark任务一直停在某个Stage不动问题背景pyspark 在保存数据时，在最后4-5个stage 任务卡住不动，其他stage 10几分钟完成，这几个2h也没用完成，而且在sparkUI上面发现需要处理的数据0KB，实在是郁闷啊。网上查找资料如下，链接如上：分析主要是使用了spark 的推断执行机制，缺点开始推断执行，会启动多个ta...

2020-04-27 20:28:49 5744

原创 tf从hdfs 直接获取数据训练模型

文章目录背景操作环境tensorflow1.13 ,python2.7获取hdfs 的文件目录input_fnshell 中配置需要额外关注的是：从hdfs 训练，需要在保存数据之前打乱顺序与本地相比，训练运行耗时增长6%，AUC训练效果不受影响注意背景训练集数据集比较大，目前train 集合已经27G，每次占用的磁盘空间较大getmerge 时间太长，15分钟用来获取训练集、测试集、评...

2020-04-26 11:12:40 1769

原创聊一聊有监督、无监督学习的界线

聊一聊有监督、无监督学习的界线有监督学习无监督学习常有疑惑有时困惑，现在的模型都有loss 为啥还说无监督呢？有监督学习有明确给出的输出值y，学习的是输入x到y的表达模型无监督学习想要输出值y，但是没有，通过样本来学习y的分布常有疑惑word2vec 为啥不是有监督模型，明明上下文就是中心词的正样本（CBOW）。原因： word2vec 模型，想要的是一个word-&...

2019-12-28 16:22:11 372

原创 tfserving 之模型调用（python 版本）包含一次数据请求与batch 数据请求

前言最近再做wide and deep 模型线上化，由于在模型中使用了feature_column 函数，担心在线上化时，模型调用时间太吵。参考官网的client 的代码，改写了一下，测试了一下时间。我使用的是feature dict的形式，即将特征组装成字典，调用tfservingdef _float_feature(value): return tf.train.Featu...

2019-09-13 20:56:53 2321 6

原创 markov过程收敛性证明

文章目录markov 过程：定义：特性markov 过程收敛性证明收敛性定理：定理的官方定义还没找到（找到后更新）定理证明：markov矩阵特征值最大为1 。（主要性质据此可证收敛）markov 过程：定义：满足马尔可夫性质的随机过程。即转移概率仅仅与当前的状态有关。特性正如定义，马尔可夫过程不具备记忆性。与其他状态互相独立markov 过程收敛性证明收敛性定理：定理的官...

2019-05-17 09:56:03 6099 3

原创 JVM及GC简要了解

文章目录GC 机制JVM 组成运行时数据区GC 作用区：方法区&堆（java 栈也会发生GC吗 ?）迈出第一步：找到垃圾如何清除垃圾为什么要分代关于某大神对于GC 的一些建议关于G1GC 机制题记：没有基础，用来了解，请大家指点～Q：啥是GC?A: 垃圾回收器(这是翻译)，我觉得是：在程序运行过程中，进行堆内存管理的方法。JVM 组成Q: 啥是JVMA：java 虚拟机，...

2019-05-16 10:17:29 172

原创 pagerank小随想

pagerank衡量网页重要程度的模型。思想：共现关系互相支持怎么理解是重要的？它的子链接多（很多人上贡）它的子链接厉害（贡品贵）它的父链接比较少（不怎么需要上贡）正所谓开源节流。正在找收敛性证明，找到后更新...

2019-05-15 09:54:52 179

原创 weighted-deepwalk步骤

步骤weighted 数据（startnode,endnode,weight）构造graph所谓graph 就是存储点对之间的关系生成邻接矩阵(矩阵的第i 行代表：第i 个node 游走到其他node 的概率)为每个node 生成n个长度为m 的session...

2019-05-08 10:26:27 639

原创 split 函数在pyspark.sql 与hive中不同之处

pyspark.sql split 特殊字符 *sql = &quot;&quot;&quot; select split(flag,&quot;\\*&quot;) as flag from tableA &quot;&quot;&quot; s = sqlContex

2019-01-31 14:56:08 1146

原创 pyspark 去重操作总结

pyspark 中去重操作distinctrdd、dataframe 均可使用按照某一列进行去重1 使用reduceByKeyrdd 使用例子：对x[0] 进行去重，将x[0]作为key，其余作为value，（x[0],v）,使用 reduceByKey(lambda x,y:x) 即可2 使用dropDuplicates（drop_duplicates）dat...

2019-01-28 10:38:53 11830

原创排序指标NDCG(Normalized distributed cumulative gain)

排序指标NDCG(Normalized distributed cumulative gain)归一化累积折扣信息增益值：用于衡量排序质量逐步介绍 CG->DCG->NDGCCG:衡量推荐结果的相关度在NDCG中，相关度分成从0到r+1的等级（r是可设定的）：相关度可以自己定义,

2019-01-25 09:14:17 1778

原创推荐-SVD算法

SVD（奇异值分解）SVD意义矩阵作用于向量的意义是：对向量进行旋转和缩放，更加抽象的说，是将这个向量从一组正交基空间旋转到另一组正交基空间，并缩放对于实对称矩阵，存在M*V_i=\lambda_{i}V_i即存在一组正交基，M的作用只是拉伸（对应特征分解）但是对于更加一般的矩阵MM*V_i=\lambda_{i}U_i即不同组正交基之间的变换SVD在推荐中本质：将用户偏好...

2018-10-30 22:29:22 620

原创 pyspark.sql.Column & pyspark.sql.Row

method of ColumnColumn 对象的创建创建方法 1. DF[“col_name”] 2.expression(DF[‘col_name’])column 的方法between(lowerBound,upperBound) 判断值的范围 [lower,upper]df.select(df.name,df.age.between(2,4))...

2018-09-05 10:17:54 850

原创 spark场景、优点与架构

本部分内容来自于《深入理解spark核心思想与源码分析》第二章spark 场景相比于Hadoop 的高吞吐，低响应的特点，spark将map.reduce计算的中间结果存在内存中，通过内存计算能极大地提高数据处理的速度，可以支持实时的场景spark 优点实时计算能力易学（支持python scala R shell 交互，且支持SQL）多个master 节点解决h...

2018-09-05 10:16:46 2723

原创 pyspark.sql.DataFrame

method of DataFrame缺失值&amp;重复值处理drop_duplicates eg: 1. df.drop_duplicates() 2.df.drop_duplicates(columns_lst)df.fillna(value),df.na.fill(dict{col_name:fill_value})

2018-09-04 10:24:47 382

原创 pyspark.sql.DataFrame-统计

继上篇DF中agg介绍之后，继续极少DF methods注册一个临时表：1 createGlobalTempView :创建了一个全局的临时表对应于dropGlobalTempView spark.catalog.dropGlobalTempView("table_name")2.createOrReplaceTempView()& createTempView()...

2018-09-03 20:41:45 2217

原创 pyspark 学习 pyspark.sql module

pyspark.sql.SparkSession作用：创建DF、将DF注册为一张table，在table上执行sql，读取列式存储文件（parquet格式）注意parquet文件是一种以列式结构存储的数据，基于自己的理解，这种格式把数据转化为（r,d,value）能够压缩数据，在读取存储是可以加快速度，适合于我们开发过程中中间数据的存储再读取。创建方式from pyspar...

2018-09-02 22:54:27 1686

原创 python 中 date与str转化及date之间的运算

1、str 2 date 头文件 import datetimestr="20180805"str2date=datetime.datetime.strptime(str,"%Y%m%d")#字符串转化为date形式date2str=str2date.strftime("%Y%m%d")#date形式转化为str2、 date之间的运算pre_date=date+

2018-08-08 21:59:44 38035

原创 python -爬虫爬取CSDN导航页的文章标题

1、CSDN首页当鼠标滑动到页面底部时，展示的内容会增加。为了爬取更多的标题，我们使用selenium中的webdriver模拟浏览器的行为。首先pip install selenium 代码片段： from selenium import webdriver import time browser=webdriver.Chrome()...

2018-05-15 21:32:03 446

原创刷题-KMP算法

Talk is cheap,show me the code. 晚上写原理总结class Rotation {public: bool chkRotation(string A, int lena, string B, int lenb) { // write code here A=A+A; if(lena!=lenb) return f

2017-08-04 09:19:23 224

转载 KKT条件的推导

KKT条件推导

2017-07-18 10:32:20 1994

原创剑指offer-丑数

丑数

2017-07-17 19:02:58 231

原创剑指offer-把数组排成最小的数

题目：给一个正整数数组，例如{1,2,3,4}，将里面的数字组合，求最小的数，应为1234全排列我的思路是，如果我们将能够组合的所有形式列举出来，这就转化成了一个求最小值的问题。所以问题的根本写出全排列。（应该也可以通过比较第一位应该选哪一个，但是要考虑的情况有点多，我就暴力的求了）class Solution {public:string PrintMinNumber(vector<int>

2017-07-17 17:17:31 192

原创爬虫-天眼查数据

爬虫

2017-06-04 10:07:53 7025 2

原创 Beautiful Soup记录

爬虫爬虫

2017-06-02 21:57:14 429 3

原创 CART 回归树代码实现

回归树的实现细节

2017-05-27 09:53:44 1012

原创 boost

提升方法：将弱学习器组合以求得到高效的模型。弱学习器要‘和而不同’和：准确性要有；不同：学习器之间的独立性加性和向前算法，来构建boost模型，优化参数. adaboost 采用最小化指数损失函数做为模型选择策略。初始确定学习器后，通过改变样本的权重获得新的学习器。最终将学习器加权。适用于二分类问题。此外，boost tree被认为是统计学习中最有效的方法之一，是使用分类树和回归树作为基

2017-05-26 15:24:29 304

原创文章标题

参考python机器学习实战和统计学习编写SVM（软间隔）

2017-05-24 12:02:57 258

lily's world

原创那些年白上了的线代课