ShenYounger-CSDN博客

原创为什么要将连续特征进行离散化？

在工业界，很少直接将连续值作为逻辑回归模型的特征输入，而是将连续特征离散化为一系列0、1特征交给逻辑回归模型，这样做的优势有以下几点：0. 离散特征的增加和减少都很容易，易于模型的快速迭代；(离散特征的增加和减少，特征不需要复杂变换，模型也不需要调整，重新训练是必须的，相比贝叶斯推断方法或者树模型方法迭代快。)1. 稀疏向量内积乘法运算速度快，计算结果方便存储，容易扩展；2. 离散化后的特征对异常数据有很强的鲁棒性：比如一个特征是年龄>30是1，否则0。如果特征没有离散化，一个异常数据“年

2021-07-04 22:13:44 725

原创工作中遇到的一些问题

1.关于tf.custom_gradient介绍的比较好的是下面的博文，https://blog.csdn.net/qq_39216794/article/details/86183668，注意这个博文对于dy的解释，是"upstream gradient"。

2021-07-04 19:14:30 201

原创 FM、FFM、DeepFM

1.关于tf.custom_gradient介绍的比较好的是下面的博文，https://blog.csdn.net/qq_39216794/article/details/86183668，注意这个博文对于dy的解释，是"upstream gradient"。

2021-06-29 22:37:08 1078

原创 C++中各种STL的内部实现

c++中map与unordered_map的区别头文件map:#include < map > unordered_map:#include < unordered_map >内部实现机理map： map内部实现了一个红黑树，该结构具有自动排序的功能，因此map内部的所有元素都是有序的，红黑树的每一个节点都代表着map的一个元素，因此，对于map进行的查找，删除，添加等一系列的操作都相当于是对红黑树进行这样的操作，故红黑树的效率决定了map的效率。 unorde..

2021-02-11 21:40:29 353

原创机器学习中常用的loss

1.KL距离也叫作相对熵，讲的比较ok的网文在https://www.cnblogs.com/ywl925/p/3554502.html。KL散度通常用来衡量两个连续分布之间的距离。两个分布越相似，KL散度越接近0。

2020-08-10 16:28:22 1074

转载加权随机采样

https://lotabout.me/2018/Weighted-Random-Sampling/具体文章在上面

2020-07-03 22:18:20 821

原创耐心排序

看到leetcode题目300.Longest Increasing Subsequence的n*log(n)解法需要用到耐心排序的思想，在中文网页找了一大圈，发现很多叙述都是错误百出的。等看到这个youtube视频，才完全清楚https://www.youtube.com/watch?v=rqON9p_7Kx4&t=274s...

2020-05-08 11:29:55 410

原创 LeetCode刷题记录

1.124 Hard

2020-04-27 08:34:27 242

原创 LeetCode刷题感悟

1.二叉树有关的算法，算法的主题框架并不一定是纯粹的递归。比如LeetCode1305，其框架先是递归的，后来是一个归并排序。2.二叉搜索树一个很重要的特性就是：树中任何结点的左子树中所有结点的值均比该结点小，右子树中所有结点的值均比该结点大。对二叉搜索树进行中序遍历即得到一个递增排序的序列。检查一个树是否是二叉搜索树可以使用中序遍历，根据递增排序的序列生成二叉搜索树也可以使用中序遍历。往...

2020-04-26 12:05:00 226

原创 [NOT] 380. Insert Delete GetRandom O(1)

其实我的思路之前是对的，需要用dict和list，list的存在是为了方便随机选取元素。而dict的存在是为了方便删除和添加元素，在此需要注意的一点是dict和set内部都是用hashmap实现的。我之所以最后没能成功实现O(1)时间复杂度的算法要求，根源在于没能解决list删除元素的时间复杂度问题。我想了用dict的val保存key在list中的index。但是从dict中删除key是很...

2020-04-07 20:21:44 159

原创 [NOT] 蓄水池采样算法

原文在这里，写得挺清楚https://blog.csdn.net/anshuai_aw1/article/details/88750673

2020-04-07 16:28:18 193

原创 [NOT]LeetCode 384. Shuffle an Array

这篇博文考察的主要是Fisher–Yates shuffle 洗牌算法。这种洗牌算法的精髓是可以原地洗牌。那为什么可以原地随机洗牌呢？根源在于可以把数组拆分成两部分，后面一部分是已经洗好的牌，前面一部分是待洗的牌。其算法为#伪代码中，将已经洗牌的牌放在数组后面，将待洗的牌放在数组前面-- To shuffle an array a of n elements (indices 0....

2020-04-07 14:46:41 158

原创 [NOT]LeetCode 395. Longest Substring with At Least K Repeating Characters

这道题目考察的是分而治之：找到所有在字符串中出现次数少于k次的字符，然后以这些字符作为split points，这样就把原始的字符串split成多个子串(分而)。再对这些子串分别治之。不过需要想明白的一点是，为什么可以把这些字符作为split points，根本原因在于这些字符不可能出现在我们最后想要的子串中。此外需要注意的一点是分而治之会形成递归树。如果是上面把字符串split成尽...

2020-04-06 19:05:57 150

原创最常用的linux命令

1. tar -zxvf hit-oslab-linux-20110823.tar.gz -C /home/shiyanlou/-z, --gzip, --gunzip, --ungzip 通过 gzip 过滤归档-x, --extract, --get 从归档中解出文件-v, --verbose 详细地列出处理的文件-f, --file...

2020-04-05 22:16:57 131

原创带你深入了解双数组Trie树(第一篇)

本系列将对双数组Trie树做一个详细的介绍，第一篇将对论文《An Efficient Implementation of Trie Structures》做详细的介绍和分析。本人在阅读原始论文前，也曾阅读过网上的一些博客，但发现这些博客在细节和阐述上都远不及原始论文深刻和详尽。原始论文中的很多逻辑关系在博客中都被有意无意中丢掉了。所以本篇博客将带你阅读原始论文，并对论文中重要的一些点进行...

2020-04-05 19:32:38 256

原创虚数与复数

2020-03-13 19:13:46 318

原创神经网络中的最优化方法及正则化

第一篇《Intro to optimization in deep learning: Gradient Descent》https://blog.paperspace.com/intro-to-optimization-in-deep-learning-gradient-descent/第二篇《Intro to optimization in deep learning: Moment...

2020-02-24 16:46:42 326

原创 LeetCode 542

这道题目不难，主要用到的思想是BFS。重要的是理清思路。a.首先从0开始，搜索周围的未被check过的1，把这些1全部赋值为1，并设置状态为checked，把这些1进行保存。b.从上面保存的1开始搜索周围的未被check过的1，把这些1全部赋值为2，并设置状态为checked，把这些2进行保存。c.从上面保存的2开始搜索周围的未被check过的1，把这些1全部赋值为3，并设置状态为chec...

2020-01-15 23:39:55 282

原创几何分布期望与方差推导

https://blog.csdn.net/sinat_37321923/article/details/77493672

2020-01-06 14:37:06 3376

原创机器学习中的相似性度量

文章在这里，就不粘贴过来了。https://www.cnblogs.com/heaad/archive/2011/03/08/1977733.html

2019-11-19 11:41:33 182

转载 Bert/Transformer模型的参数大小计算

因为不是原创文章，所以发在这里。https://blog.csdn.net/weixin_43922901/article/details/102602557

2019-11-13 12:21:15 3467

原创我为什么没办法持续精进机器学习理论及数学？

在过去的3年内，我曾经无数次想把机器学习理论学习得更扎实，更牢靠，让自己的数学知识更牢固，更好。然而，现在三年过去了，我深深的发现，我的理论和数学，还留在三年之前的那个水平。3年过去了，我还是我，虽然得到了一些成长，但是平心而论，这并非是我所期望的速度，也不是我本来可以达到的高度。3年，1095天，就那么流逝了。很多时间，就这么被我所荒废了，我很大一部分人生，浪费在了一些琐碎、对我人生...

2019-10-29 15:12:07 230 1

原创关于现实和脚踏实地

今天跟同事聊到办理工作居住证，聊到孩子怎么上学，怎么买房，买哪里的房。我发现我竟然是一无所知的，我甚至现在都不知道我的户籍地是在哪里。突然发现自己活的是如此之飘，很多东西，从未在脑子里考虑过。只是幻想着虚幻的假象，去留学、读博士、拿高薪、成为计算机科学家，仿佛自己真的就适合读博士，自己读了博士，就万事无忧了。所有的事情，都会顿然变得美好起来，美女、房子、财富、地位，这些都不再是问题。可...

2019-10-28 23:56:13 125

原创 Hold-out和Cross-validation

hold out其实就是比如说把随机80%数据作为训练集，把剩下的20%数据作为测试集。K Cross-validation就是随机把数据分为K等份，然后使用K-1份作为训练集，把剩下的一份作为测试集。这样，你需要训练模型K次，测试K次。K Cross-validation通常能够更好的测试出模型效果，因为他使得每一个训练样本都被测试过一次，训练过K-1次。但是因为需要训练K次，...

2019-09-29 19:05:11 1616

原创底层、推理、联想思维之应用(使用map reduce实现大规模kmeans聚类)

之前小组的同事说了一道题目，怎么高效的使用map-reduce完成kmeans聚类。我想了一些时间，想出了最高效最简洁的完成方法。本篇文章，我想把我的思路阐述清楚，更为关键的是，我想说清楚，我是怎么运用底层思维、推理思维及联想思维想到最终方案的。第一步：因为涉及到kmeans聚类，我首先要做的是复习熟悉kmeans聚类算法。在这个过程中，我了解到kmeans算法的迭代过程是这样的。a.先随机选...

2019-09-01 14:08:58 186

原创关于底层思维

上周去某家公司参加了面试，面试题目涉及到一个算法题。一个矩阵，每一列的数是自增的，每一行的数是递增的，给定一个数，求判断这个数是否在这个矩阵中，矩阵的示例如下1 8 11 19 2 9 12 20 4 14 18 31 当时自己答的并不算好。现在想想，是自己看到题目，一紧张，在思考问题解决思路上，就像瞎猫一样，到处乱撞。毫无...

2019-08-25 19:51:22 381

原创有关激活函数的各个细节

1.神经网络最后一层要有激活函数么？不一定要有激活函数。见过代码，对mnist进行多分类的。直接wx+b，然后后面又接了一个soft max，使用交叉熵做loss function，学习率是0.01，虽然准确率不怎么样大概0.917(学习1000个batch，batch size是100)，，但是证明最后一层并不一定需要激活函数(也可以认为soft max也是一种激活函数)。2.re...

2019-08-19 15:17:53 662

原创不同的loss function

1.tf.nn.sigmoid_cross_entropy_with_logits其实官方文档已经说的很清楚了。https://www.tensorflow.org/api_docs/python/tf/nn/sigmoid_cross_entropy_with_logits值得注意的两点是第一个是labels可以是多label的，也就是可以是[1,0,1,0,0,0]这样的。第二个是...

2019-08-19 15:17:44 348

原创 tensorflow中的各种函数、细节

1.tf.layers.dense是一个全连接层2.注意下面程序的输出ones = tf.ones(shape=[2,3])print(ones)temp1 = tf.nn.softmax(ones,axis=0)print(temp1)temp2 = tf.nn.softmax(ones,axis=1)print(temp2)print(tf.reduce_sum(...

2019-08-19 15:17:37 502

原创 Softmax函数

其完成的操作是将一个k维向量transform到另外一个k维向量。transform后的向量，每一个元素的范围在(0,1)之间。并且所有元素之和为1。softmax函数的一个功能，是凸显大的元素，并抑制小的元素。比如向量 [1.0, 2.0, 3.0, 4.0, 1.0, 2.0, 3.0] transform后的向量是[0.024, 0.064, 0.175, 0.475, 0.024, 0...

2019-08-16 19:50:29 298

原创逻辑函数

逻辑函数（英语：logistic function）或逻辑曲线（英语：logistic curve）是一种常见的S函数，它是皮埃尔·弗朗索瓦·韦吕勒在1844或1845年在研究它与人口增长的关系时命名的。一个简单的Logistic函数可用下式表示：1/(1+e^-x)。...

2019-08-15 17:12:05 2309

原创详细讲解MapReduce过程

文章1:https://blog.csdn.net/MrLevo520/article/details/76781186文章2:https://www.jianshu.com/p/352db00b6d7a补充1：shuffle过程是图中copy phase和sort phase之间的过程。更粗暴口语化的理解是，怎么把map的输出弄到reduce中去。补充2：map操作是...

2019-08-08 16:57:46 1265

原创从207v机器向33机器拷贝文件

33机器上用户名为luliujie要拷贝的文件在207v eng目录下scp client207v.qss.zzzc.qihoo.net:/home/eng/important/dont_delete_offline_important.tar.bz .如果上面这样做，则告诉我没有权限。因为我的身份是luliujie，没办法拷贝eng的文件。所以需要在207v上，把eng下面的文件挪到luliuj...

2018-05-28 10:57:39 341

转载 epoch vs batch vs iteration

In the neural network terminology:one epoch = one forward pass and one backward pass of all the training examplesbatch size = the number of training examples in one forward/backward pass.

2017-07-26 11:22:25 504

转载 awk if else

awk 功能强大，可以处理文本，筛选需要的信息，这里不再多说，有兴趣的可以上网搜，我在这里只讲awk 怎样使用if else。在网上查了好久，在shell使用awk 的 if else if else 时，网上给的列子是这样的：awk '{if ($1==1) print "A" else if ($1==2) print "B" else print "C"}'1尝试了好久也不

2017-07-20 15:38:55 1225

转载根据字节偏移量读取文件

A=4;B=10cat testabcdxxxxxxefghdd if=test of=output skip=$A bs=1 count=$((B-A))记录了6+0 的读入记录了6+0 的写出6字节(6 B)已复制，0.000527157 秒，11.4 kB/秒cat outputxxxxxx

2017-07-20 15:27:17 3686

转载 P 问题和 NP 问题

作者：王沛链接：https://www.zhihu.com/question/27039635/answer/35040172来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。P就是能在多项式时间内解决的问题，NP就是能在多项式时间验证答案正确与否的问题。用大白话讲大概就是这样。所以P是否等于NP实质上就是在问，如果对于一个问题我能在多项式时间内

2017-07-20 15:15:41 596

转载深入浅出最大似然估计（Maximum Likelihood Estimation）

转自 http://www.jianshu.com/p/f1d3906e4a3e最大似然估计是利用已知的样本的结果，在使用某个模型的基础上，反推最有可能导致这样结果的模型参数值。可得求解最大似然估计的一般过程为：1. 写出似然函数；2. 如果无法直接求导的话，对似然函数取对数；3. 求导数；4. 求解模型中参数的最优值。链接：http://www.jiansh

2017-07-12 11:59:09 2103

原创一正二定三相等

简介编辑一正二定三相等是指在用不等式证明或求解问题时所规定和强调的特殊要求．一正：编辑A、B 都必须是正数．二定：编辑1.在A+B为定值时，便可以知道A·B的最大值；2.在A·B为定值时，便可以知道A+B的最小值．三相等：编辑当且仅当A、B相等时，等式成立；即①

2017-06-22 11:03:23 2901

原创 UFLDL(3) PCA

1. 疑问之处有两点。图像为什么不对每个pixel做variance normalization。为什么做mean是对每个图像做的。1.2.

2017-06-19 13:30:00 279

中文分词-北大常宝宝

空空如也