BlackEyes_SY-CSDN博客

原创 loss函数汇总

文章目录BCE lossCE lossFocal lossBCE lossb这里指的是binary，二分类交叉熵损失。在使用BCELoss时需要在该层前面加上Sigmoid函数，公式如下：缺点：正类别是训练的时候更加关注的部分，而错分的负类别没有被关注。？？？https://www.zhihu.com/question/422946096/answer/1541228837CE lossCrossEntropyLoss，交叉熵损失。Focal loss何凯明大佬提出的。优点：它更加关注难样

2021-12-12 00:53:13 410

原创蒸馏Knowledg Distilling

文章目录蒸馏基础知识Distilling the Knowledge in a Neural Network 2015 HintonDeep mutual learning蒸馏基础知识Distilling the Knowledge in a Neural Network 2015 Hinton什么是知识蒸馏：知识蒸馏中的"知识"，其实指的就是对于网络模型中参数权重的一些抽取/迁移的操作。知识蒸馏的作用：模型压缩。模型压缩一般有什么其他的方法1、模型剪枝（Model Pruning）1.

2021-12-12 00:39:03 468

原创 ocr文字识别

文章目录RPN: Region Proposal Networkctpn数据增强为什么进行数据增强目标检测领域的脉络是：RCNN -> SPPNET -> Fast-RCNN -> Faster-RCNN。RPN: Region Proposal Network区域推荐网络ctpnctpn的思想主要借鉴了faster rcnn的rpn思想，主要的不同点在于作者观测到RPN比较难预测出整个文本行的框，而将文本行分成一个一个的小框去预测，小框是固定宽度所以主要是预测高度，如果用的是V

2021-12-11 21:06:54 1298

原创推荐算法总结

文章目录内容画像传统matchword2vec深度match向量检索kd-tree()item2vecYouTuBe召回排序DSSM双塔及双塔业界几种用法性能召回的评估召回的采样策略精排内容画像文章推荐用户画像：积累用户行为内容画像：以文章为例，文章属于哪一类，文章的关键词有哪些，文章的时效性，文章符不符合涉黄涉政？推荐流程：内容源（头条、百家号）—>爬取–>库–接口（算法内容画像：文本分类、关键词）–人工审核校正（修正结果）传统matchword2vec利用训练语料中词与词的共

2021-12-11 20:54:54 662

原创论文阅读---推荐、广告、增长

文章目录Embedding《Discriminative deep random walk for network classification》2016《YouTube-Deep Neural Networks for YouTube Recommendations》2016《Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba》2018 阿里Embedding《Discriminative deep ra

2021-11-24 00:47:29 2000 1

原创推荐-精排-多任务模型

文章目录多任务多任务建模中需要注意的问题shared-bottom其他结构样本Loss加权ESMMAITMMMOE(MOE)十字绣网络闸式网络ple（cgc）star信息选择cea多任务的使用多任务多任务建模中需要注意的问题1、如果子任务差异很大，往往导致多任务模型效果不佳。2、不同任务的loss大小不一样，需要调整loss的权重。shared-bottom优点：这种结构本质上可以减少过拟合的风险。浅层参数共享，互相补充学习，任务相关性越高，模型的loss可以降低到更低。缺点：但是效果上可能受

2021-11-15 21:15:47 5073

原创 TensorFlow笔记

TensorFlow：2015年谷歌，支持python、C++，底层是C++，主要用python。支持CNN、RNN等算法，分CPU TensorFlow/GPU TensorFlow。TensorBoard：

2021-04-13 23:55:49 143

原创机器学习笔试题汇总

文章目录树特征选择K近邻聚类深度学习分类距离、相似度指标性能评价HMM树1、在以下集成学习模型的调参中，哪个算法没有用到学习率learning rate？ BA.XGboostB.随机森林Random ForestC.LightGBMD.Adaboost分析：其他三个都是基于梯度的算法，有梯度基本都有学习率，详细的可以去看看他们的更新公式。2、在集成学习两大类策略中，boostin......

2020-11-25 21:19:19 6128 1

原创 spark2020面试题

文章目录一、RDD二、driver、Executor相关三、spark存储四、数据倾斜五、宽窄依赖、Stage、Job、task六、Spark性能优化七、并发八、pyspark内置函数、常用算子九、常见OOM类型报错，及解决办法一、RDD1.spark中的RDD是什么，有哪些特性答：RDD（Resilient Distributed Dataset）叫做分布式数据集，是spark中最基本的数据抽象，它代表一个不可变，可分区，里面的元素可以并行计算的集合。Resilient：表示弹性的，弹性表示Da

2020-11-19 17:28:29 1113

原创 python2020面试题

Q.2. 深拷贝和浅拷贝的区别是什么？深拷贝是将对象本身复制给另一个对象。这意味着如果对对象的副本进行更改时不会影响原对象。在 Python 中，我们使用 deepcopy（）函数进行深拷贝，使用方法如下：深拷贝-Python 面试问题及答案浅拷贝是将对象的引用复制给另一个对象。因此，如果我们在副本中进行更改，则会影响原对象。使用 copy（）函数进行浅拷贝，使用方法如下：浅拷贝—Python 面试问题及答案Q.3. 列表和元祖有什么不同？主要区别在于列表是可变的，元祖是不可变的。...

2020-11-19 17:28:02 452

原创力扣刷题_动态规划dp

文章目录easy170. 爬楼梯392. 判断子序列746. 使用最小花费爬楼梯剑指 Offer 42. 连续子数组的最大和面试题 16.17. 连续数列面试题 08.01. 三步问题面试题 17.16. 按摩师353. 最大子序和198. 打家劫舍middle62. 不同路径63. 不同路径 IIhardeasy170. 爬楼梯题目链接难度：简单 1 类型：动态规划题目：假设你正在爬楼梯。需要 n 阶你才能到达楼顶。每次你可以爬 1 或 2 个台阶。你有多少种不同的方法可以爬到楼

2020-11-19 17:27:02 418

原创力扣刷题_数组_位运算

文章目录字符串/数组LeetCode-python 344.反转字符串LeetCode-python 977.有序数组的平方又开始刷题了，以前刷Java版的，现在开始python的了。字符串/数组LeetCode-python 344.反转字符串题目链接难度：简单 1 类型：数组编写一个函数，其作用是将输入的字符串反转过来。输入字符串以字符数组 char[] 的形式给出。不要给另外的数组分配额外的空间，你必须原地修改输入数组、使用 O(1) 的额外空间解决这一问题。你可以假设数

2020-10-30 12:56:55 821

原创基金基础知识

文章目录基金的基础知识基金分类基金交易基金的费用指数基金种类专有名词解释：基金的基础知识基金是最适合普通人的投资工具，这里要讲的“基金”属于广义基金下的证券投资基金。证券投资基金通俗的讲就是大家把钱凑在一起统一交给基金公司管理，基金公司会任命基金经理专门打理这笔钱，用于投资股票、债券等。基金收益性：大多数人并不具备金融投资的知识和能力。但基金经理则不同，他们受过专业的教育，具备投资的知识和能力。怎样的收益？根据2018年2月份中国证券投资基金业协会的数据，近19年偏股型基金年化收益率为16.18

2020-10-12 21:36:20 845

原创 CNN框架演进及特点

2020-09-23 16:12:48 401

原创为什么CNN中的卷积核大小一般是奇数

文章目录卷积核大小一般是奇数padding问题卷积的三种模式:full, same, valid卷积核大小一般是奇数便于进行paddingsame convolution时，有些情况偶数卷积核会出现问题。假设：输入图片大小W×W；Filter大小F×F；步长strides S；padding的像素数 P；输出大小NxN。于是N=W−F+12∗PS+1N=\frac{W-F+12*P}{S}+1N=SW−F+12∗P+1，当做一种same convolution时，若要卷积前后的尺寸不变，即要求输入

2020-09-23 15:53:00 1437

原创为什么梯度的负方向是梯度下降最快的方向

文章目录梯度与导数的关系梯度下降算法梯度方向是上升方向一阶泰勒展开式与负梯度梯度与导数的关系梯度方向指向数值增长最快的方向，大小为变化率。通过这个性质也说明梯度是有方向和大小的矢量。通过梯度的定义我们发现，梯度的求解其实就是求函数偏导的问题，而我们高中所学的导数在非严格意义上来说也就是一元的“偏导”。通过这一点我们自然而然地想到梯度应该是导数向更高维数的推广。换句话说，梯度是矢量,而某点的导数是个常量。梯度下降算法如果函数 f(θ)f(\theta )f(θ)是凸函数，那么就可以使用梯度下降算法进行

2020-09-21 21:43:56 3779 1

原创回归评价指标（MSE、RMSE、MAE、R-Squared、拟合优度）

文章目录拟合优度拟合优度拟合优度（Goodness of Fit）是指回归直线对观测值的拟合程度。度量拟合优度的统计量是可决系数（Coefficient of Determination）R²。可决系数，亦称测定系数、确定系数、决定系数、可决指数。对于m个样本(x1→,y1),(x2→,y2),⋯ ,(xm→,ym)(\overrightarrow{x_{1}},y_{1}),(\overr...

2020-07-23 10:31:33 60294 7

原创 opencv-python函数简介(connectedComponentsWithStats...)

文章目录cv2.thresholdcv2.adaptiveThreshold()cv2.connectedComponentsWithStatscv2.calcHist()cv2.threshold函数：ret, dst = cv2.threshold(src, thresh, maxval, type)功能：固定阈值二值化图像，大于阈值的是255，否则就是0参数：src：输入图，只能输入单通道图像，通常来说为灰度图。dst：输出图。thresh：阈值。maxval：当像素值超过了阈

2020-06-26 19:26:03 7365

原创常见损失loss汇总

文章目录回归模型的损失函数L1正则损失函数（即绝对值损失函数）L2正则损失函数（即欧拉损失函数）Pseudo-Huber 损失函数分类模型的损失函数Hinge损失函数两类交叉熵（Cross-entropy）损失函数加权交叉熵损失函数Sigmoid交叉熵损失函数Softmax交叉熵损失函数回归模型的损失函数L1正则损失函数（即绝对值损失函数）L1正则损失函数是对预测值与目标值的差值求绝对值，公式如下：L(Y,f(X))=∣Y−f(X)∣L(Y,f(X))=\left | Y-f(X) \right |

2020-05-14 11:01:32 1924

原创 RNN及LSTM原理

文章目录RNN为什么需要RNN（循环神经网络）RNN的结构及变体重要变体之Encoder-DecoderRNN的训练方法—BPTTRNN的梯度消失梯度爆炸问题LSTM长期依赖（Long-Term Dependencies）问题LSTM网络LSTM变体RNN为什么需要RNN（循环神经网络）们都只能单独的取处理一个个的输入，前一个输入和后一个输入是完全没有关系的。但是，某些任务需要能够更好的处理序列的信息，即前面的输入和后面的输入是有关系的。比如，当我们在理解一句话意思时，孤立的理解这句话的每个词是不够

2020-05-10 12:38:50 3186

原创数据的异常点检测算法

文章目录Isolation ForestNumeric OutlierZ-scoreDBSCAN:基于密度的聚类数据预处理的好坏，很大程度上决定了模型分析结果的好坏。其中，异常值（outliers）检测是整个数据预处理过程中，十分重要的一环，它的存在可能对最终建立的模型的精度和泛化能力有较大的影响。当然检测方法也是多种多样。Isolation Forest孤立森林，独异森林（Isolatio...

2020-05-07 18:00:57 5351

原创常见聚类(K-means、DSCAN)算法及实现

文章目录K-meansK-meansk值如何确定K-mediods(K中心点)算法层次聚类密度聚类DSCAN谱聚类常用的评估方法：轮廓系数(Silhouette)相似度度量及相互系数K-meansK-meansK-means算法优点：1).是解决聚类问题的一种经典算法，原理简单，实现容易。2).当簇接近高斯分布时，它的效果较好。3).与密度聚类中的DSCAN相比，簇与簇之间划分清晰。...

2020-05-07 14:25:32 3136

原创 KNN K值的选择

文章目录误差KNNK值的选择误差近似误差：可以理解为对现有训练集的训练误差。估计误差：可以理解为对测试集的测试误差。近似误差关注训练集，如果近似误差小了会出现过拟合的现象，对现有的训练集能有很好的预测，但是对未知的测试样本将会出现较大偏差的预测。模型本身不是最接近最佳模型。估计误差关注测试集，估计误差小了说明对未知数据的预测能力好。模型本身最接近最佳模型。KNNk近邻算法是一种基本分...

2020-05-03 13:19:32 10415

原创特征选择(过滤法、包装法、嵌入法)

文章目录Filter过滤式方法方差选择法相关系数法卡方检验互信息法和最大信息系数Mutual information and maximal information coefficient (MIC)Wrapper封装式方法递归特征消除法Recursive feature elimination (RFE)Embedded过滤式方法基于惩罚项的特征选择法L1L_{1}L1正则化LassoL2正则...

2020-04-29 20:33:16 8478

原创 Bagging和Boosting（偏差与方差）

文章目录集成学习baggingboosting集成学习baggingboosting

2020-04-26 14:52:07 1931

原创样本不平衡的常用处理方法

文章目录数据不平衡为什么类别不平横会影响模型的输出？如何解决数据不平衡很多算法都有一个基本假设，那就是数据分布是均匀的。当我们把这些算法直接应用于实际数据时，大多数情况下都无法取得理想的结果。因为实际数据往往分布得很不均匀，都会存在“长尾现象”，也就是所谓的“二八原理”。不平衡程度相同的问题，解决的难易程度也可能不同，因为问题难易程度还取决于我们所拥有数据有多大。可以把问题根据难度从小到大排...

2020-04-20 15:39:28 1966

原创决策树系列

文章目录决策树过程ID3熵条件熵信息增益C4.5CART（Classification And Regression Tree）决策树的优缺点剪枝随机森林决策树学习采用的是自顶向下的递归方法，其基本思想是以信息熵为度量构造一颗熵值下降最快的树，到叶子节点处，熵值为0。其具有可读性、分类速度快的优点，是一种有监督学习。最早提及决策树思想的是Quinlan在1986年提出的ID3算法和1993年提出...

2020-04-18 20:16:59 323 1

原创评估方法（交叉验证法、自助法、留出法）

文章目录留出法 hold-out交叉验证法 cross validationk折交叉验证留一法 leave-one-out cross validation自助法 bootstrapping留出法 hold-out留出法直接将数据集D划分为两个互斥的部分，其中一部分作为训练集S，另一部分用作测试集T。通常训练集和测试集的比例为70%：30%。同时，训练集测试集的划分有两个注意事项：尽可能...

2020-04-18 18:30:49 9173

原创推荐算法deep & wide 原理

ss

2020-04-12 23:25:24 1168

原创 DNNLinear组合分类器实战

文章目录在Census Income Data Set上训练训练集特征input_fnmodeltrain_and_evalmain在自己数据集上训练在Census Income Data Set上训练训练集训练数据是Census Income Data Set该数据集包含48000条样本，其中属性有年龄(age)、职业(occupation)、教育(education)和收入(incom...

2020-04-08 13:02:24 956

原创 DNNLinear组合分类器的使用 & Feature column

文章目录DNNLinearCombinedClassifier__init__trainevaluatepredictFeature column1.numeric_columns(数值列)2.bucketized_column(分桶列)3.categorical_column_with_identity(类别标识列)4.Categorical vocabulary column(类别词汇表)4....

2020-04-08 09:07:59 1551

原创 pandas&numpy常见方法

文章目录pd.DataFrame的创建字典创建列表创建单个元素字典转DataFramepd.DataFrame的导入查看数据属性常用方法增删缺失值处理文本数据（字符串）处理索引设置pandas中的DataFrame：1、DataFrame是一种数据框结构，相当于是一个矩阵形式，单元格可以存放数值、字符串等，这和excel表很像；2、DataFrame是有行（index）和列（column...

2020-04-06 21:26:25 226

原创分类评价指标、目标检测评价指标(AUC,IOU,mAP等)

文章目录定位准确率IOU识别精度precisionrecallAPmAPP-R曲线速度定位准确率IOU定位准确率可以通过检测窗口与我们自己标记的物体窗口的重叠度，即交并比，即Intersection-Over-Union(IOU)进行度量。设标记窗口为 A ，检测窗口为 B ，则 IOU 的计算公式如下：IOU=A⋂BA⋃BIOU=\frac{A\bigcap B}{A\bigcup B...

2020-03-31 20:58:20 7491

原创目标检测

文章目录目标检测技术的演变：目标检测评估方法：rcnnSelective SearchSPP Net目标检测技术的演变：RCNN->SppNET->Fast-RCNN->Faster-RCNN目标检测评估方法：检测评价函数 intersection-over-union ( IOU )IOU就是模型预测的bounding box与标记bounding box的重合率r...

2020-03-25 20:46:45 783

原创图像相关数据集

文章目录PASCAL VOCCIFAR-10CIFAR-100ImageNetPASCAL VOCPASCAL VOC为图像识别和分类提供了一整套标准化的优秀的数据集，从2005年到2012年每年都会举行一场图像识别challenge。该挑战的主要目的是识别真实场景中一些类别的物体。在该挑战中，这是一个监督学习的问题，训练集以带标签的图片的形式给出。这些物体包括20类：Person: per...

2020-03-24 14:18:02 1438

原创 word2vec tf实战

文章目录下载语料库制作词表生成词对建立模型下载语料库# 第一步: 在下面这个地址下载语料库def maybe_download(filename, expected_bytes): """ 这个函数的功能是：如果filename不存在，就在上面的地址下载它。如果filename存在，就跳过下载。最终会检查文字的字节数是否和expected_bytes相同。 """ ...

2020-03-22 18:35:07 222

原创 tensorflow常见函数

文章目录tf.nn.embedding_lookup()tf.nn.nce_loss()tf.train.GradientDescentOptimizer()tf.random_uniform()tf.truncated_normal()tf.multiply()tf.matmul()tf.reduce_sum()tf.reduce_mean()tf.square()tf.cast()tf.nn...

2020-03-22 18:34:06 288

原创 word2vec与词嵌入

文章目录为什么需要做词嵌入独热编码词嵌入CBOW(Continuous Bag-of-Words)CBOW改进Skip-Gram词嵌入：将一个单词（word）转换为一个向量（vector）表示。word2vec：是实现词嵌入的一些算法的集合。为什么需要做词嵌入独热编码独热编码即 One-Hot 编码，又称一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄...

2020-03-18 20:26:05 1055

原创广告投放知识

文章目录渠道EDM邮件推送APP消息推送短信公众号转化MAU：monthly active user（月活跃用户）DAU：daily active user（日活跃用户）UVPV新增用户留存率收费方式RTB:(RealTime Bidding)实时竞价CPD:(按天收费 Cost per day)CPM:(Cost Per Mille，或者Cost Per Thousand) 每千人成本CPC:(............

2020-03-18 11:11:28 1070 1

原创 python数据类型及互相转化

文章目录NumPyarrarymatrixpandasdataframeNumPyNumPy 通常与 SciPy（Scientific Python）和 Matplotlib（绘图库）一起使用，这种组合广泛用于替代 MatLab，是一个强大的科学计算环境。SciPy是算法库和数学工具包。包含的模块有最优化、线性代数、积分、插值、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和...

2020-03-17 16:29:50 292

keras_face_recognition_cnn

inception-resnet-v2 protxt caffemodel

空空如也