dzzxjl-CSDN博客

原创 Seatunnel编译日志用时

【代码】Seatunnel编译日志用时。

2022-10-14 16:02:29 306 1

终端复用软件 t(terminal) mux(multiplexer)Virgin tiling window manager vs Chad tty + tmux最强插件Oh My Tmux! https://github.com/gpakosz/.tmuxhttps://github.com/tmuxinator/tmuxinatorhttps://github.com/aaronjanse/3mux配置https://www.cnblogs.com/zuoruining/p/1.

2022-01-17 23:07:14 530

原创深度学习中的激活函数

激活函数（activation function）的反函数为连接函数。ReLU修正线性单元（Rectified Linear Unit, ReLU）a = max(0, z) 简单而粗暴，大于0的留下，否则一律为0ReLU函数会使得部分神经元不会产生激活，造成网络结构的稀疏性，缓解过拟合的问题优点：由上图可以看出，Relu得到的SGD的收敛速度较快缺点：训练的时候很容易‘die’了，对于小于0的值，这个神经元的梯度永远都会是0，在实际操错中，如果learning rate很大，很可能网络中

2022-01-09 22:11:47 1953

原创 User-Item特征

User基本属性、行为统计、画像偏好、实时行为几类特征Item统计行为基本属性物品作者侧的特征Context交互时间网络环境等User-Item交互行为浏览点击点赞转发评论关注推荐支付

2022-01-05 00:45:00 368

原创数字三角形

递归动归程序解题思路第一次计算MaxSum(r,j)值的时候，保存下来，下次需要的时候，直接取出计算，这样就避免了重复计算。时间复杂度为O(n2)O(n2)，因为三角形的数字总和为n(n+1)/2n(n+1)/2。#include <iostream>#include <algorithm>#include "string.h"#define Max 101using namespace std;int D[Max][Max];int Max_Sum_arr[

2021-12-29 22:43:31 239

原创动态规划 DynamicProgramming

dp一般思路能用动规解决的问题的特点问题具有最优子结构性质。如果问题的最优解所包含的子问题的解也是最优的，我们就称该问题具有最优子结构性质。无后效性。当前的若干个状态值一旦确定，则此后过程的演变就只和这若干个状态的值有关，和之前是采取哪种手段或经过哪条路径演变到当前的这若干个状态，没有关系。将原问题分解为子问题把原问题分解为若干个子问题，子问题和原问题形式相同或类似，只不过规模变小了。子问题都解决，原问题即解决(数字三角形例）子问题的解一旦求出就会被保存，所以每个子问题只需求解一次。确

2021-12-29 22:43:13 89

原创时间序列预测模型

ARMA自回归滑动平均模型（ARMA 模型，Auto-Regressive and Moving Average Model）是研究时间序列的重要方法，由自回归模型（简称AR模型）与滑动平均模型（简称MA模型）为基础“混合”构成。在市场研究中常用于长期追踪资料的研究，如：Panel研究中，用于消费行为模式变迁研究；在零售研究中，用于具有季节变动特征的销售量、市场规模的预测等。AR：当前值只是过去值的加权求和。MA：过去的白噪音的移动平均。ARMA：AR和MA的综合ARIMAARIMA

2021-12-29 01:00:00 28076 1

原创 LightGBM原理与参数

核心参数num_leaves叶节点数与模型复杂度直接相关(leaf-wise)任务目标回归regression,对应的损失函数如下regression_l1,加了l1正则的回归，等同于绝对值误差regression_l2，等同于均方误差huber,Huber Lossfair,Fair Losspoisson,泊松回归分类binary,二分类multiclass,多分类排序lambdarank模型boostinggbdt,传统的梯度提升决策树

2021-12-22 23:05:23 1921

原创 Python爬虫实践

scrapy步骤编写item（item可以理解为java bean）使用scrapy shell ‘url’来在命令行中使用response.xpath()来检查想要的数据编写spider，通过上述得到的xpath表达式来填充编写pine，进行存取数据库的操作到源文件目录下通过scrapy crawl huxiu (-o 保存文件)来运行程序知识点yield参考http://brucedone.com/archives/58http://kevinflynn.iteye.com/b

2021-12-22 22:13:04 979

原创 Spark Streaming

ssc.textFileStream("/Users/dzzxjl/SStest/")如果是在集群上运行，需要将程序打成JAR包，通过spark主目录下的bin/spark-submit 提交，并不断上传文档到HDFS上指定监听路径下以模拟实时数据流。SparkStreaming需要读取流式的数据，而不能直接从datas文件夹中创建。如果是本地目录用file:///home/data 你不能移动文件到这个目录，必须用流的形式写入到这个目录形成文件才能被监测到。在 Spark 官方提供关于集成 Kaf

2021-12-22 22:08:37 765

原创机器学习官方课程

CMU Eric Xing教授每年开的10708 PGM课程 10708 Probabilistic Graphical Models——State-of-the-art Machine LearningAndrew Ng coursera张志华台湾大学林轩田《机器学习基石》题主，请你去学完下列课程，再回来谈创造力。一门机器学习基础课程->对标斯坦福CS229——吴恩达吴恩达-斯坦福CS229一门计算机视觉->对标斯坦福CS231n——李飞飞——斯坦福CS231n一门自然语言.

2021-12-22 21:38:51 537

原创【HQL】基础

spark sql

2021-12-21 23:45:00 292

原创【推荐】CS术语与缩写词

缩写

2021-12-21 23:30:00 646

原创【GPU】深度学习与GPU

型号参数M40Tesla T4Tesla-K80

2021-12-21 02:00:00 338

原创【FE】特征选择方法

皮尔逊系数在统计学当中,皮尔逊相关性系数被广泛应用于测量2个变量 X、Y 的相关程度，皮尔逊相关性系数的值在(-1.0,1.0),绝对值越大,则2个变量间的相关性则越强。卡方检验卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴，主要是比较两个及两个以上样本率( 构成比）以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。卡方值越大，标识两个变量之间的关联性越大，越相关，即是越不独立。def transFeature(data, c.

2021-12-21 00:45:00 431

原创【PyTorch】Normalization

正则化

2021-12-19 00:04:31 201

原创【PyTorch】_Loss 损失函数

PyTorch损失设计https://blog.csdn.net/zhangxb35/article/details/72464152torch.backword()focal loss类别不平衡Triplet Loss 三重损失用于训练差异性较小的样本，如人脸等Feed数据包括锚（Anchor）示例、正（Positive）示例、负（Negative）示例，通过优化锚示例与正示例的距离小于锚示例与负示例的距离，实现样本的相似性计算。...

2021-12-19 00:01:37 328

原创【EDA】可视化库与工具

可视化工具

2021-12-18 23:53:50 656

原创【EDA】Matplotlib

实验与画图

2021-12-18 11:22:47 209

原创 NumPy基础

numpy

2021-12-17 00:00:30 950

原创 sklearn基础

工具类库

2021-12-16 23:50:29 543

原创机器学习前沿

前沿

2021-12-16 20:20:55 478

原创 NLP词向量表示

NLP词的表示方法类型词的独热表示 one-hot representation向量的维度会随着句子的词的数量类型增大而增大任意两个词之间都是孤立的，根本无法表示出在语义层面上词语词之间的相关信息，而这一点是致命的。词的分布式表示 distributed representation1954 Harris 分布假说 distributional hypothesis选择一种方式描述上下文选择一种模型刻画某个词（下文称“目标词”）与其上下文之间的关系。基于矩阵的分布表示分.

2021-12-12 22:19:33 678

原创【转】初入NLP领域的一些小建议

转载

2021-12-12 22:04:20 93

原创 NLP常见任务

句法语义分析：对于给定的句子，进行分词、词性标记、命名实体识别和链接、句法分析、语义角色识别和多义词消歧实体识别（Named Entity Recognition, NER）信息检索（搜索）对大规模的文档进行索引。可简单对文档中的词汇，赋之以不同的权重来建立索引，也可利用1，2，3的技术来建立更加深层的索引。在查询的时候，对输入的查询表达式比如一个检索词或者一个句子进行分析，然后在索引里面查找匹配的候选文档，再根据一个排序机制把候选文档排序，最后输出排序得分最高的文档。信息抽取（Inf.

2021-12-12 00:11:33 2066

原创【PyTorch】CUDA

张量的实际原始数据并不是立即保存在张量结构中，而是保存在我们称之为「存储（Storage）」的地方，它是张量结构的一部分一般张量存储可以通过 Allocator 选择是储存在计算机内存（CPU）还是显存（GPU）device = torch.device(“cuda:0” if torch.cuda.is_available() else “cpu”) #第一行代码model.to(device) #第二行代码mytensor = my_tensor.to(device)..

2021-12-08 23:34:57 183

原创推荐系统中的消息队列

解耦异步削峰/限流消息队列是干什么的？https://www.zhihu.com/question/54152397但同时我们发现引入消息队列也会提高系统的复杂性kafka pulsar消息中间件的组成Broker 消息服务器，作为server提供消息核心服务Producer 消息生产者，业务的发起方，负责生产消息传输给broker，Consumer 消息消费者，业务的处理方，负责从broker获取消息并进行业务逻辑处理Topic 主题，发布订阅模式下的消息统一汇集地，不同生产者向t

2021-12-08 19:52:47 81

原创【PyTorch】Tensor数据类型

基本数据类型https://www.youtube.com/watch?v=fCVuiW9AFzYtorch.Tensor是一种包含单一数据类型元素的多维矩阵tensor.float() 张量类型转换一般使用LongTensor比较多Torch定义了七种CPU tensor类型和八种GPU tensor类型：torch数据生成其实像numpy/pandas/pytorch这几个库，直接生成数据并不是刚需，因为数据的生成更多来自于read()，所以更多地是数据维度上的操作和变换接收

2021-12-07 23:17:48 1193

原创 $EDITOR

知识管理

2021-12-02 23:45:00 682

原创多臂老虎机（Multi-armed Bandit）

MAB 的四种算法epsilon -Greedy 算法（随机探索）Upper Confidence Bounds算法 (UCB)Thompson Sampling 算法Contextual MAB-LinUCB 算法

2021-12-01 23:45:00 138

原创模型推理基础

ONNX（英語：Open Neural Network Exchange）是一种针对机器学习所设计的开放式的文件格式，用于存储训练好的模型。

2021-11-29 23:45:00 1511

原创 shell scripts

大于 -gt (greater than)小于 -lt (less than)大于或等于 -ge (greater than or equal)小于或等于 -le (less than or equal)不相等 -ne （not equal）# 输出重定向chsh/usr/bin/zsh> 默认为标准输出重定向，与 1> 相同2>&1 意思是把标准错误输出重定向到标准输出.&>file 意思是把标准输出和标准错误输出都重定向

2021-11-25 23:30:00 686

原创 point-wise与pair-wise与list-wise

point-wise多样性是一个必要的指标，这导致了推荐结果极其发散。用户对推荐结果多样性的心智使得他不关注两个商品之间的比较，对于算法而言不再关注商品之间两两的比较，我只要每个都预测准了，反正最后也要打散的。而且多样性也导致了推荐场景没有像搜索一样适合做 pairwise 的样本pair-wise推荐领域用pair-wise效果不如point-wise，搜索使用pair-wise更好；pairwise 训练对搜索是有用的，对推荐的作用较小list-wise一般较少使用参考pairwise

2021-11-25 15:10:00 1496

原创 Linux1991常用手册

linux常用手册

2021-11-24 14:45:07 453

原创 FM系列解读

fm系列

2021-11-23 00:07:31 795

原创召回场景下的向量检索算法

向量检索Locality Sensitive HashingFAISS

2021-11-22 23:53:28 234

原创搜广推问题下的排序评价指标

Learning to rank广告排序和推荐排序优化的目标都是点击率，技术栈包括LR/FTRL、FM/FFM、GBDT、DNN等模型。排序问题的演进策略排序相关性；质量度，质量更好的结果排在前面如时效性；时效性，视频从上传开始，其相关性随着时间不断衰减；点击行为。学习排序基于用户在历史的排序结果的点击行为收集起来构造 label，根据用户在搜索时候给出的 query 以及展现给用户的 video 以及上下文信息构造特征向量，与 label 进行 join，得到 ground t

2021-11-21 23:33:10 1496

原创搜索下的个性化

Q如何理解搜索下的个性化，搜索到底是不是应该个性化

2021-11-21 23:17:01 302

空空如也

空空如也