广小辉-CSDN博客

原创数据结构算法--链表系列 1.判断链表是否有环及求环点

# coding: utf-8"""判断是否相交求交点，判断是否有环，求环点，都可以利用hashset的方法，"""from __future__ import print_functionclass LinkNode: def __init__(self, val): self.val = val self.next = Noneval_list = [5, 4, 9, 1, 0,4]node_list = [LinkNode(_)

2020-12-14 23:58:19 182

原创数据结构算法--链表系列 1. 判断链表是否有交点

主要分两种：判断两个链表是否有交点在1的基础上，求两个链表的交点；1. 判断两个链表是否有交点总结了三种方法利用hashset的方法def has_insection_3(headA): """ 也可以使用hash_set，如果 """ s = set() while headA: if headA not in s: s.add(headA) else:

2020-12-14 22:56:22 224

原创 python实现tensorflow2.0的常见优化器

tensorlow2.0中的常见优化器如下：其中，adam是最常使用的，比如esmm论文中使用。下面通过python实现几种常见的优化器。其中使用了tensorflow2.0 的tf.GradientTape来自动求微分。数据集构造build dataimport tensorflow as tfimport numpy as npimport seaborn as snsfrom matplotlib import pyplot as pltx = np.arange(-3, 7, 0

2020-10-15 10:40:34 1117

原创大数据1 ---Spark 基础解析

Hadoop 历史2003和2004年的Google两篇论文发展历史： 2011年 1.0版本 2012年稳定版本 2013年 2.x版本， YARN MR的缺点：基于数据集的计算，面向数据，基本运算规则是从存储介质中获取（采集）数据，然后进行计算，将最后的结果存储回介质中，主要用于一次性计算。不适合数据挖掘和机器学习这样的一种迭代计算。MR是基...

2020-07-21 21:44:00 183

原创推荐系统-基于tf.feature_column构建数据处理pipeline

import tensorflow as tfimport pandas as pdpets = {'pets': [[2, 4],[ 3, 8],[0 , -1],[1, 0]]} #猫0，狗1，兔子2，猪3df = pd.DataFrame(pets)column = tf.feature_column.categorical_column_with_identity(key='...

2020-04-29 17:57:11 258

原创数据结构算法--剑指offer-数组中重复的数字

题目描述题目1：找出数组中重复的数字在一个长度为n的数组中，所有的数字都在0-n-1的范围内。数组中某些数字是重复的，但是不知道有几个数字是重复了，也不知道每个数组重复了几次，请找出数组中任意一个重复的数字import copyclass Solution(): def find_duplicate_1(self, nums): """ ...

2020-04-20 07:51:20 182

转载番外篇--2. 程序员如何跨过30岁这道坎?

一路走来，经历过异想天开、自我膨胀、穷忙焦虑，一度失落挫败到对人生失去激情，直到孩子出生在家接外包那段时间才停下来反思和调整自己，如今重新恢复了对生活和工作的热情。回顾自己的成长之路，分为如下三个阶段：异想天开→幻想破灭膨胀、穷忙→挫败、失落、焦虑、迷茫认清自己、深究原因→开悟、爬坡 1异想天开→幻想破灭毕业后的第一家公司是一家小型初创公司，由于大学...

2020-04-06 14:19:51 235

原创推荐系统-CTR平滑方式

背景在电商领域中，经常要计算或者CTR（点击通过率），CVR。以点击率CTR为例，CTR根据统计指标 CTR = 点击量/ 曝光量；具体需要看公司要求，有的是点击uv/ 曝光uv ，有的是点击pv/曝光pv ；然而实际应用中，会遇到两个问题：【新品问题】新商品点击率的预测和计算问题对于新上线的商品，其曝光为0，点击量也为0，此时这件商品的CTR应该为0 还是赋值一个初始值呢？【数据不可...

2020-04-05 16:15:16 2289 1

原创数据结构算法--atoi 和两数相加

leetcode8atoi2addTwoNumbers1. atoi在找到第一个非空字符之前，需要移除掉字符串中的空格字符。如果第一个非空字符是正号或负号，选取该符号，并将其与后面尽可能多的连续的数字组合起来，这部分字符即为整数的值。如果第一个非空字符是数字，则直接将其与之后连续的数字字符组合起来，形成整数。字符串可以在形成整数的字符后面包括多余的字符，...

2020-04-04 10:18:22 219

原创数据结构算法--链表高频题精讲

提纲链表简介面试题精讲一些例题例1：链表的插入与删除例2：链表翻转例3：单链表找环及起点和环长度例4：复制带有随机指针的链表例5：链表partition过程总结1. 链表简介链表：一个元素和下一个元素靠指针连接（松散），不能O(1)直接访问到第k个元素单(向)链表：只能找到下一个节点双向链表：能找到上一个和下一个节点循环（单、双）链表：首尾相...

2020-04-03 22:32:37 281

原创推荐系统-深度学习在1688推荐系统中的落地实践

前言推荐导购场景在电商中是重要的满足用户“逛”和“买”的场景，本次主要聚焦在深度学习在阿里B2B电商推荐系统中的应用，其中包括商品推荐中的召回（多兴趣Deep Match）、排序(自研DMR)的相关工作，在新兴的互动内容场景(直播、短视频)中通过异构网络来解决异构信息的精准匹配问题。本文分享大纲如下：发展历史商品召回：Deep Match商品排序：DIN-DIEN, DMR内容排序...

2020-04-03 15:46:20 1340

原创数据结构算法--栈和队列高频题精讲

线性表简介面试题总体分析一些例题：例一：元素出入栈顺序合法性判断例二：两个队列实现一个堆栈例三：两个堆栈实现一个队列例四：支持查询最小值的堆栈例五：单调堆栈–最大直方图例六：单调队列–滑动窗口最大值总结1. 线性表简介堆栈和队列统称为线性表简单的线性表数组和链表可以实现的两种数据结构堆栈后进先出(Last In First Out)DFS思想...

2020-03-24 22:16:42 201

原创数据结构算法--数组高频题目

提纲数组简介面试题总体分析选题原则难度经典新颖例题例1：局部最小值例2：第一个缺失的正整数例3：元素间的最大距离例4：只出现一次的数例5：众数问题例6：“前缀和”的应用总结1. 数组简介java: [] ArrayListC++:STL, vector, []C：只有[]输入的数组通常理解为集合，我们自己可以排序，查找注意：C+...

2020-03-21 10:21:34 476

转载推荐系统-- GraphEmbedding

awesome-network-embeddingAlso called network representation learning, graph embedding, knowledge embedding, etc.The task is to learn the representations of the vertices from a given network.Graph...

2020-03-12 20:01:39 679

原创数据结构算法--字符串高频题目

字符串简介面试题总体分析一些例题：0-1串交换顺序字符的替换与复制交换星号子串变位词单词/字符串翻转总结1. 字符串简介尽量转化成字符数组[python中字符串是不可变类型]和数组相关–内容广泛概念相关：字典序简单操作：插入、删除字符、旋转规则判断：罗马数字转换，是否是合法的整数，浮点数数字运算：大数加法，二进制加法排序、交换（partition过...

2020-03-09 22:41:46 288

原创机器学习 Doc2Vec原理及实战

1. 两种训练方法PV-DM(Distributed Memory Model of Paragraph Vectors)。训练方法如下图所示，构建一个Paragraph向量集合，另外在构建一个词向量集合，wv(word vector)在语料库中是共享的，而pv(paragraph vector)是唯一的，与每个paragraph一一对应。Pv和wv可以有不同的维度，用一个划窗在文本上滑动，用...

2020-02-29 20:45:10 801

原创机器学习 -LDA模型

1. 模型相关参数1. n_components：主题的数量。越大，topic越多，perplexity越小，也越容易过拟合。可以画出n_components vs perplexity的变化曲线来确定；2. doc_topic_prior，文本-主题的先验分布theta，默认为$\frac{1}{n\_components}$3. topic_word_prior: 主题-单词先验分布b...

2020-02-29 16:56:35 590

原创机器学习 --文本特征提取TF-IDF

1. CountVectorizermax_df=1.0, min_df=1Max_df表示超过这个阈值的的文档频率的文档会被去除掉【相当于去除语料给定的停止词】Min-df：文档频率小于给定值的文档会被删除掉，学术用语为cut-off【截断】有用的属性：vocabulary_，获取转化的词频词典，是一个有序字典：停止词：单词出现次数太多或者太少的都会被看做停止词。...

2020-02-29 16:52:24 643

原创数据结构算法--列表分割和序列化反向列表

1. Split numbersGiven an array of ints, for example [6, 4, -3, 0, 5, -2, -1, 0, 1, -9],implement in one of the following languagesto move all positive integers to the left, all negative integers to...

2020-02-24 00:14:33 725 2

原创机器学习 --激活函数sigmoid. tanh. relu对比

1. 三种函数的表达式sigmoid函数【S函数】：表达式g(z)=11+e−zg(z)=\frac{1}{1+e^{-z}}g(z)=1+e−z1导数：g′(z)=g(z)(1−g(z))g^{'}(z)=g(z)(1-g(z))g′(z)=g(z)(1−g(z))tanh函数【双S函数】：表达式：f(z)=ez−e−zez+e−zf(z)=\frac{e^z - e^{-...

2020-02-22 23:57:41 624

原创数据结构算法--二叉树--叶子节点查找

二叉树的结构：0 二叉树叶子节点class Node(object): def __init__(self, data, left=None, right=None): self.data = data self.left = left self.right = right def __str__(self):...

2020-02-22 12:51:34 1875

原创数据结构算法--树--哈夫曼树(Huffman Tree)

1. 原理2. 在word2vec为什么能够简化计算？3. 代码from collections import OrderedDict# 建立Haffuman树节点class Node(object): def __init__(self, name, data): self.name = name self.data = data...

2020-02-22 00:29:38 244

原创机器学习--删除字符串中出现次数最少的字符后的字符串

题目描述实现删除字符串中出现次数最少的字符，若多个字符出现次数一样，则都删除。输出删除这些单词后的字符串，字符串中其它字符保持原来的顺序。输入描述:字符串只包含小写英文字母,不考虑非法输入，输入的字符串长度小于等于20个字节。输出描述:删除字符串中出现次数最少的字符后的字符串。while True: try: new = '' ...

2020-02-15 17:27:58 219

原创机器学习---空汽水瓶

题目描述有这样一道智力题：“某商店规定：三个空汽水瓶可以换一瓶汽水。小张手上有十个空汽水瓶，她最多可以换多少瓶汽水喝？”答案是5瓶，方法如下：先用9个空瓶子换3瓶汽水，喝掉3瓶满的，喝完以后4个空瓶子，用3个再换一瓶，喝掉这瓶满的，这时候剩2个空瓶子。然后你让老板先借给你一瓶汽水，喝掉这瓶满的，喝完以后用3个空瓶子换一瓶满的还给老板。如果小张手上有n个空汽水瓶，最多可以换多少瓶汽水喝？输...

2020-02-15 15:22:11 161

原创番外篇--1. 简历优化

简历错误：1. 犯贱叫简历模板求新颖；站在HR的角度考虑；用智联招聘、前程无忧网站模板就足够了；用HR最熟悉的配方；2. 犯贱错误，跳槽频繁没定型；HR希望看到的是什么？稳定、专一：前序公司忠诚度高；单位时间是否足够长：一年以上或者两年离职原因：客观–公司业务调整，倒闭，搬家套路：一年以上时长，被动离职，万分不舍注意：工作空档期时间一定不能说领导...

2020-02-12 19:31:44 757

原创数据结构算法--排序--希尔排序(shell sort)

希尔排序时间复杂度：平均O(n^1.3),最好为O(n),最坏为0(n ^ 2) 空间复杂度：O(1) 稳定性：不稳定算法解析：希尔排序是直接插入排序的一种改进，又称做缩小增量排序希尔排序是把待排序集合计算出一个增量集合Tn 把待排序集合分成若干个子集，然后每个子集进行直接插入排序，知道Ti=1为止，排序结束实现原理：有一个集合如下图所示：计算增量：gap ...

2020-02-10 10:32:00 234

原创数据结构算法--排序--归并排序（递归和非递归实现）

基本思想归并排序是分治思想的一种运用【和快速排序的思想一样】，首先将一个序列分成一个个子序列，然后对子序列进行排序，最后将排好序的子序列进行合并；----所以需要写递归函数。将其不停的分为左边和右边两份，然后以此递归分下去。然后再将她们按照两个有序数组的样子合并起来。所以当将这左右两边分到不可分【也就是数组长度为1】，也就到了该合并的时候。这里显示了归并排序的第一步...

2020-02-09 17:38:15 321

原创数据结构算法--排序--冒泡排序

冒泡排序是交换排序的一种，所以需要两两比较，在满足判定条件的情况下，进行交换操作；动图解释算法分析假设数组中有N 个数字需要排序；1. 需要N-1轮排序【最后两个一次排序就可确定】，如果不设置没轮里面，比较的次数，那么需要N-1词的，设置的话就是N-i次2. 冒泡排序中，每进行一次排序，总是会把最大量找出来，放在最后一个位置；例：第一趟比较之后，排在最后的一个数...

2020-02-08 11:14:37 222

原创机器学习 -- DeepWalk

1.0 DeepWalk的提出Word2Vec是基于序列进行Embedding；但是随着实体之间的关系越来越复杂，网络化，此时序列Embedding需要升级为Graph Ebedding；1.1 基本概念：节点的度：在图论中，和该节点相关联的边的条数，特别地，对于有向图，进入该节点边的条数称为节点的入度；从该节点发出边的条数称为出度；1.2 DeepWalk的步骤构建每一个节点...

2020-01-30 13:05:26 460

原创机器学习 --ID3/C4.5 以及决策树参数

一. ID3/C4.51. ID3算法是决策树一个经典的构造算法，内部使用信息熵和信息增益来进行构建，每次迭代选择信息增益最大的特征属性作为分隔属性；ID3只支持离散的特征，不支持连续的特征； ID3算法构建的是多叉树；依赖特征属性较多特征，但实际上并不是最优的【产生误导】，因此必须用特征的信息熵进行惩罚/归一化；不会进行剪枝操作！2. C4.5，使用信息增益率代替信息增...

2020-01-29 18:02:11 1043

转载机器学习 --集成学习算法调参

1、RF调参方法参考：http://wakemeup.space/?p=187http://blog.csdn.net/y0367/article/details/51501780http://blog.csdn.net/sun_shengyun/article/details/546181212、AdaBoost调参方法：http://www.cnblogs.com/pinard/p/...

2020-01-20 17:21:41 328 1

原创机器学习特征工程【汇总1】

目录需要哪些数据数据如何存储数据如何清洗数据特征工程1. 需要哪些数据在进行机器学习之前，存在一个收集数据的过程，我们主要按照以下规则找出我们所需要的数据：业务的实现需要哪些规则？基于对业务规则的理解，尽可能找出对因变量有影响的所有自变量的数据数据埋点的流程：提需求—>前端植入埋点代码块—>灰度测试—>测试验收—>发版上线数据的可用性评估...

2020-01-17 22:48:10 356

原创机器学习 Word2vec---2 python实现过程

获取语料库# define the corpus# 处理方法1import retext = 'natural language processing and machine learning \is fun and exciting'corpus = re.split('[\n]|\s+', text)# 处理方法2from gensim.utils import simple...

2020-01-06 20:52:04 555

原创机器学习 Word2Vec ---1基本简介

Word Embeding [词嵌入] 简介VSM空间向量模型(VSMs)将词向量映射于一个连续的向量空间中，语义上近似的单词对应的词向量映射到向量空间中也是相邻的数据点。向量空间模型在自然语言处理领域中有着丰富且漫长的历史，不过几乎所有利用这一模型的方法都依赖于分布式假设，其核心思想为：出现于上下文情境中的词汇都有类似的语义。采用这一假设的研究方法大致上分为以下几类：基于统计计数的方法...

2020-01-06 20:38:39 389

原创机器学习特征工程-特征选择

特征选择(FeatureSelection)\color{DodgerBlue}{特征选择(Feature Selection)}特征选择(FeatureSelection) 在机器学习流程中，前期获取“足量”的训练数据是至关重要的一个步骤。“足量”包括两个方面：一个是特征层面，另一个是训练数据量。但是并不是所有的特征都会用于模型训练，主要是因为不必要的特征不仅会降低训练速度、降低模型的可解释性...

2019-12-30 17:16:11 765 1

原创推荐系统 Word2vector

在使用Uni-gram模型时(也就是词袋法)时，会导致数据非常稀疏。那么我们在训练模型时，就需要更多的数据。会导致存储和计算开销激增。One-hot-Representation 是最常用的词表示方法。它的优点是简单直观，容易理解。但是会出现词向量维数爆炸的问题，因为有多少个词，词向量就有多少维度，计算开销太大。OneHot还有一个问题，两个在词义上相似的词，在词向量上却没有相似性。...

2019-12-29 20:27:57 298

原创 scikit-leann 新版本【0.22】

目前，在pycharm中可以直接安装0.22版本的scikit-learn了：在python 或者 anacoda中，也可以直接升级：# pythonpip install --upgrade scikit-learn# condaconda install scikit-learn目录：stacking 模型融合特征处理中利用KNN近邻填充–KNNImputer便捷的ro...

2019-12-23 18:10:47 1135

原创机器学习 7 XGBoost

1. 集成算法总结1.1 Bagging随机森林：多个基模型的构建是基于不同数据来构建的，各个模型是独立，不提提高准确度，但是可以降低过拟合；1.2 Boosting通过迭代的形式，基于之前构建好的模型，对样本数据做一定的修正【或者改变权重/标签值】然后影响之后模型的构建。不断迭代构建的目的是：让预测更加准确，提升准确度，降低偏差；Adaboost通过修正样本的权重GBD...

2019-12-19 21:14:09 315

原创机器学习 6 GBDT(梯度提升决策树)

基本概念GBDT也是Boosting算法的一种，但是和Adaboost算法不同；如别如下：Adaboost算法是利用前一轮的弱学习器的预测误差率来更新样本权重，然后一轮一轮的迭代；GBDT也是迭代，但是GBDT要求的弱学习器必须是CART模型，而且GBDT在模型训练的时候，模型预测的样本损失尽可能小；GBDT底层只支持决策树，并且是回归决策树；别名：GBT(Gradient Bo...

2019-12-17 13:52:48 288

原创机器学习 5 AdaBoost

目录Boosting 的基本思想AdaboostGradient Boosting(GBT/GBDT/GBT)1. Boosting 思想提升学习（Boosting）是一种机器学习技术，可以用于回归和分类的问题，它每一步产生弱预测模型(如决策树)，并加权累加到总模型中；如果每一步的弱预测模型的生成都是依据损失函数，那么就称为梯度提升(Gradient boosting)；提升技术...

2019-12-13 22:04:20 149

2019抖音数据报告.pdf

空空如也