自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(131)
  • 收藏
  • 关注

原创 【解决】Pyinstaller打包报错IndexError: tuple index out of range

这个问题主要是在Python3.7以上的版本中遇到,用pyinstaller打包的时候发现报错。vim 进入报错的文件,/usr/local/lib/python3.10/dis.py。

2023-07-06 10:32:29 1528 1

原创 Hadoop面试题及参考答案

整理了一部分hadoop相关的面试题和参考答案,不当之处请大家指正

2022-07-16 21:10:40 11111 6

原创 《机器学习知识体系》之基本概念篇

目录一、机器学习相关1、基本概念1.1 简述解决一个机器学习问题时,你的流程是怎样的?1.2 损失函数是什么,如何定义合理的损失函数?1.3 回归模型和分类模型常用损失函数有哪些?各有什么优缺点1.4 什么是结构误差和经验误差?训练模型的时候如何判断已经达到最优?1.5 模型的“泛化”能力是指?如何提升模型泛化能力?1.6 如何选择合适的模型评估指标?AUC、精准度、召回率、F1值都是什么?如何计算?有什么优缺点?1.7 什么是混淆矩阵?1.8 ROC曲线如何绘制?相比P-R曲线有什么特点?1.9 如何评判

2022-05-31 14:53:58 440

原创 剑指offer13题-在O(1)时间内删除链表节点

1、输入是val: ListNode 解法# Definition for singly-linked list.# class ListNode:# def __init__(self, x):# self.val = x# self.next = Noneclass Solution: def deleteNode(self, head: ListNode, val: ListNode) -> ListNode: if n

2021-11-28 15:28:56 335

原创 LeetCode刷题--贪心算法

455. 分糖果135. 糖果435. 无重叠区间def eraseOverlapIntervals(intervals): intervals_sort = sorted(intervals, key=lambda x: x[-1]) length = len(intervals_sort) max_num = intervals_sort[0][-1] k = 1 for item in range(1, length): if interv

2021-07-28 17:37:21 267

原创 百面机器学习第一章--特征工程

目录1、特征归一化1.1 为什么要对数值类型特征做归一化?2、类别型特征2.1 在对数据处理时,应该怎样处理类别型特征?3、高维组合特征的处理3.1 什么是组合特征?如何处理高维组合特征?4、组合特征4.1 怎样有效地找到组合特征?5、文本表示模型5.1 有哪些文本表示模型?各自有什么优缺点?6、Word2Vec6.1 Word2Vec是如何工作的?它与LDA有什么区别和联系?7、图像数据不足时的处理方法7.1 在图像分类任务中,训练数据不足会带来什么问题?如何缓解数据量不足带来的问题?1、特征归一化1

2021-03-14 21:36:20 190

原创 【TensorFlow】报错tensorflow.python.framework.errors_impl.DataLossError

今天在例行训练模型的时候突然遇到这个错误很奇怪,模型可以迭代几千个batch,我以为是平台的问题,然后重新跑了一次,发现又是这样,迭代了几千个batch之后报这个错误。google搜索了一下,发现有朋友遇到过,有的说是因为pycache存在的缘故,我理解是文件之间有引入加载关系,生成了一些临时cache文件,重新训练的时候如果不把上一次训练的cache文件删掉,那就会默认使用原来的文件,如果代码里有变动,那就会出现问题。但我的代码并未改动,因此不是这个原因。后来看到参考资料1,发现可能是TFReco

2020-08-22 10:38:45 2528

原创 论文笔记《Influence Maximization in Near-Linear Time: A Martingale Approach》

原文链接文章目录摘要1、简介2、前言3、提出方法3.1 RR集的鞅视图3.2 节点选择阶段3.3 采样阶段3.4 组合到一起4、扩展4.1 IMM的泛化4.2 应用到连续时间模型5、相关工作6、实验原TIM,TIM+在计算OPT下界时过于保守,导致 θ\thetaθ 很大,仍然有很大计算量。摘要给定一个社交网络 GGG 和一个正整数 kkk,影响最大化问题会要求 kkk 个节点(在 GGG 中),采用某个想法或产品可能会触发其余节点最大预期的后续采用次数。该问题已在文献中进行了广泛研究,并且最先进的

2020-07-31 15:14:41 1641

原创 论文笔记《Influence Maximization: Near-Optimal Time Complexity Meets Practical Efficiency》

摘要给定一个社交网络 GGG 和一个常数 kkk,影响最大化问题要求在预定义的扩散模型下,GGG 中的 kkk 个节点(直接和间接)影响最大数量的节点。该问题在病毒营销中发现重要的应用,并且已经在文献中进行了广泛的研究。现有的影响最大化的算法,或者为实际效率而进行的贸易近似保证,反之亦然。特别是,在突出的独立级联 (IC) 模型或线性阈值 (LT) 模型下实现常数因子近似的算法中,没有一种算法可...

2020-06-07 17:36:45 1113

原创 论文笔记《DeepWalk: Online Learning of Social Representations》

文章目录摘要1、简介2、问题定义3、学习社交表征3.1 随机游走3.2 连接:幂定律(power laws)3.3 语言模型4、方法4.1 概览4.2 算法:深度游走4.3 并行化摘要我们提出了DeepWalk,这是一种用于学习网络中顶点的隐表示的新颖方法。这些隐表征将社会关系编码在一个连续的向量空间中,这很容易被统计模型利用。 Deep-Walk 概括了语言建模和无监督特征学习(或深度学习)方面的最新进展,从单词序列到图形。DeepWalk使用从截断的随机游走中获得的局部信息,通过将游走视为句子的等

2020-05-11 15:13:44 594

翻译 Reverse Influence Sampling in Python(译文)

影响最大化(IM)问题寻求网络中的一组种子节点,以最大化通过在该种子集启动的影响级联激活的预期节点数。先前的文章比较了两种IM算法Kempe等人(2003) 的Greedy算法和 Leskovec等人 的CELF算法(2007)。多年来,CELF(以及Goyal等人于2011年修改的CELF ++版本)是最快的IM算法,具有理论上可保证的性能范围。随后的文献主要侧重于通过启发式来提高计算效率,而启...

2020-04-27 19:56:36 1979 9

原创 论文笔记《Entire Space Multi-Task Model An Effective Approach for Estimating Post-Click Conversion Rate》

原文链接

2020-04-13 11:18:18 433

原创 论文笔记《Deep Interest Network for Click-Through Rate Prediction》

这篇文章是阿里18年发的,非常经典的一个模型。4、深度兴趣网络与主动搜索不同,用户进入展示广告系统时没有明确表达其意图。 建立CTR预测模型时,需要有效的方法来从丰富的历史行为中提取用户兴趣。 描绘用户和广告的功能是广告系统点击率建模的基本元素。 合理利用这些功能并从中挖掘信息至关重要特征表示在工业级CTR预估任务中,数据通常是多组类目形式的,例如 [ weekday=Friday, ...

2020-03-18 14:49:00 296

原创 Mac版Anaconda安装lightgbm教程(吐血填坑记)

本文记录一下自己的mac安装lightgbm的过程,折腾一个多小时,终于弄好了。step 1 brew安装cmake, gcc插件我之前安装xgboost的时候已经安装过着俩插件,没安装的同学按下面步骤操作即可brew install cmakebrew install gccstep 2 配置环境在终端进入 vi ~/.bash_profile,增加如下代理# gccexp...

2020-03-04 21:39:14 1333

原创 论文笔记《Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts》

1、摘要基于神经网络的多任务学习已经在实际场景如推荐系统中有了大规模应用,例如在电影推荐中,除了要给用户推荐他们可能购买或者观看的电影,还要考虑用户后续对这部电影的评价。通过多任务学习,我们的目标是利用一个模型来学习多个实际业务中的目标,但是,常用的多任务模型的预测质量通常对任务之间的关系很敏感。因此,研究特定于任务的目标与任务间关系之间的建模权衡非常重要。google推荐团队提出了一种新的多...

2020-02-28 10:53:16 854

原创 sklearn学习之XGBoost算法实践

model = XGBClassifier(learning_rate=0.01, n_estimators=10, # 树的个数-10棵树建立xgboost max_depth=3, # 树的深度 min_child_...

2020-02-14 16:25:49 530

原创 sklearn学习之LR算法实践

scikit-learn是python的一个机器学习算法集成模块,功能强大,包含了常见的逻辑回归,决策树,朴素贝叶斯,SVM等常见的机器学习算法。这里,用LR来做一下分类。import pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import Stand...

2020-02-13 15:22:35 3134

原创 论文笔记《STAR-GCN: Stacked and Reconstructed Graph Convolutional Networks for Recommender Systems》

摘要文章针对推荐系统提出了一种新的堆叠和重构图卷积网络(STAR-GCN)结构来学习节点的表征,提高推荐系统的效率,特别是在冷启动场景。STAR-GCN采用一堆GCN编码器/解码器与中间监督相结合,以提高最终预测性能。同图卷积矩阵分解模型用one-hot节点作为输入不同,STAR-GCN学习低维的user、item 隐表征作为输入来限制模型的空间复杂度。STAR-GCN可以通过重建屏蔽的输入节点...

2019-12-21 14:41:15 2571 2

原创 LeetCode(No.191)--位1的个数

编写一个函数,输入是一个无符号整数,返回其二进制表达式中数字位数为 ‘1’ 的个数(也被称为汉明重量)。示例 1:输入:00000000000000000000000000001011输出:3解释:输入的二进制串 00000000000000000000000000001011 中,共有三位为 ‘1’。示例 2:输入:00000000000000000000000010000000输...

2019-12-19 17:20:40 114

原创 【TensorFlow】理解tf.nn.dynamic_rnn方法(附详细代码)

本文是在参考资料1的基础上加入更多细节完成,并非完全原创,感谢原创同学,尊重支持原创才能让社区更加健康。这次在模型优化的时候加入了一个RNN结构,TensorFlow里有封装好的RNN函数,我们可以直接调用,RNN详细介绍见参考资料2TensorFlow官网给的标准API:注意: 这个是TF1.0版本下的,在2.0以上版本,dynamic_rnn是在 tf.compat.v1.nn.dyna...

2019-12-11 17:01:14 5324 4

原创 pig脚本常见错误

1、ERROR org.apache.pig.tools.grunt.Grunt - ERROR 1200: String index out of range: 36原因:结尾多了个空格video_read_allnet = LOAD '/user/hdphailiyang/statistics/kyk_close/video_read_allnet/${date}/p*';-- `awk...

2019-11-19 09:42:25 1958

原创 【TensorFlow】模型保存后的几个文件

用TensorFlow训练好模型,通过saver保存之后,对应路径下通常会有几个文件,我们结合下面的一段代码看一下import tensorflow as tf# Create some variables.v1 = tf.get_variable("v1", shape=[3], initializer = tf.zeros_initializer)v2 = tf.get_variab...

2019-08-07 16:24:37 1514

原创 Apache Pig语法简述

Apache Pig是MapReduce的一个抽象。它是一个工具/平台,用于分析较大的数据集,并将它们表示为数据流。它使用Pig Latin编程语言来写脚本,和 Hive 有一些相似之处。这里简单做一下总结1、加载数据A = LOAD 'a.txt' AS (col1:chararray, col2:int, col3:int, col4:int, col5:double, col6:dou...

2019-07-20 15:01:08 299

原创 hive count group by转pig语法

之前一直写hive,按某个字段分组统计条数用hive写非常简单最近组里开始用pig,pig里的分组统计一直有点模糊,今天看了Stack Overflow上的一篇文章才算弄明白,记录一下。例如数据如下id, term(10, smerter)(10, graviditeten)(10, smerter)(10, smerter)(10, udemrket) (20, eis ...

2019-07-19 10:30:06 219

原创 windows安装torch_geometric教程

前言:在按照torch_geometric之前本人已经安装好numpy、scipy、panda、torch等模块,不知道是否需要这些模块,可能不需要,不过既然你用到torch_geometric 了,我感觉这些模块你应该已经安装好了~~按照 torch_geometric 真的有点费劲,整理一下过程,帮助有需要的同学。1、需要依次安装如下第三方模块:isodate:下载链接 https:/...

2019-05-27 12:03:52 16663 34

原创 【TensorFlow】正则化方法tf.contrib.layers.l2_regularizer

在tensorflow里提供了计算L1、L2正则化的函数tf.contrib.layers.l1_regularizer()tf.contrib.layers.l2_regularizer()我们给出一个实例,代码引用自《TensorFlow 深度学习算法原理与编程实战》p189这是一个简易的网络模型,实现了通过集合计算一个4层全连接神经网络带L2正则化损失函数的功能import te...

2019-05-09 16:43:01 11877 4

原创 特征工程相关面试题以及参考答案

1、你是怎样理解“特征”?特征就是,于己而言,特征是某些突出性质的表现,于他而言,特征是区分事物的关键2、给定场景和问题,你如何设计特征?(特征工程方法论)基于人工经验的特征工程依然是目前的主流。3、开发特征时候做如何做数据探索,怎样选择有用的特征?数据描述方法:集中趋势分析、离中趋势分析、数据分布分析、图分析、数理统计方法:假设检验、方差分析、相关分析、回归分析、因子分析详细:ht...

2019-05-07 16:01:15 6637

原创 Spark常见20个面试题(含大部分答案)

1、什么是宽依赖,什么是窄依赖?哪些算子是宽依赖,哪些是窄依赖?窄依赖就是一个父RDD分区对应一个子RDD分区,如map,filter或者多个父RDD分区对应一个子RDD分区,如co-partioned join宽依赖是一个父RDD分区对应非全部的子RDD分区,如groupByKey,ruduceByKey或者一个父RDD分区对应全部的子RDD分区,如未经协同划分的joinhttps:/......

2019-04-29 17:19:05 33133

原创 【TensorFlow】理解tf.placeholder方法

在tf里,placeholder方法可以说是最常见,用的最多的一个api了,这里就介绍一下这个api的具体使用情况。通常placeholder的作用理解为是占位符,不过占位符这个概念似乎有些抽象,字面意思其实就是它的作用 — 占个位置,那啥东西是占个位置啊,大家只要写过函数就知道,形参就是占位置嘛。就像java或者C++里定义一个函数,会有形参,用来代替实际参数,在实际调用该方法的时候传入实参。...

2019-04-24 18:53:11 3866 1

原创 决策树从原理简述到面试详细总结

0、背景决策树是机器学习、数据挖掘领域一个非常常用的算法,网上相关的资料也是一大堆,原理很容易理解,但是要真正熟练运用和领悟还是需要花点功夫。本人近期有过一些面试,因此针对性地复习了一下,这里就总结一下决策树的一些原理和面试中遇到的相关问题。1、基础知识1.1 熵熵其实是物理里的一个概念,代表一个系统的混乱程度,在信息论里表示一个随机变量不确定性的度量,熵越大,不确定性越高。假设 XXX ...

2019-04-23 12:01:44 1971 2

原创 Hive各类分析函数的使用实例

1、求累积分布函数 sum + over cookie create_time pvcookie1, 2015-04-10, 1cookie1, 2015-04-11, 5cookie1, 2015-04-12, 7cookie1, 2015-04-13, 3cookie1, 2015-04-14, 2cookie1, 2015-04-15, 4cookie1, 2...

2019-04-17 09:58:30 879

原创 使用git clone拉取失败报错以及解决办法

问题:用git clone 命令拉取代码报错:SSL certificate problem: unable to get local issuer certificate解决方法:git config --global http.sslVerify false更改配置后即可

2019-04-16 10:15:43 8169

原创 LeetCode(No.718)--最长重复子数组

给两个整数数组 A 和 B ,返回两个数组中公共的、长度最长的子数组的长度。示例 1:输入:A: [1,2,3,2,1]B: [3,2,1,4,7]输出: 3解释:长度最长的公共子数组是 [3, 2, 1]。说明:1 <= len(A), len(B) <= 10000 <= A[i], B[i] < 100思路: 维护矩阵DP,DP[i][j]代...

2019-04-07 21:02:47 251

原创 LeetCode(No.347)--前K个高频元素

给定一个非空的整数数组,返回其中出现频率前 k 高的元素。示例 1:输入: nums = [1,1,1,2,2,3], k = 2输出: [1,2]示例 2:输入: nums = [1], k = 1输出: [1]说明:你可以假设给定的 k 总是合理的,且 1 ≤ k ≤ 数组中不相同的元素的个数。你的算法的时间复杂度必须优于 O(n log n) , n 是数组的大小。...

2019-04-07 17:53:50 100

原创 LeetCode(No.747)--至少是其他数字两倍的最大数

在一个给定的数组nums中,总是存在一个最大元素 。查找数组中的最大元素是否至少是数组中每个其他数字的两倍。如果是,则返回最大元素的索引,否则返回-1。示例 1:输入: nums = [3, 6, 1, 0]输出: 1解释: 6是最大的整数, 对于数组中的其他整数,6大于数组中其他元素的两倍。6的索引是1, 所以我们返回1.示例 2:输入: nums = [1, 2, 3,...

2019-04-07 16:45:13 168

原创 LeetCode(N0.665)--非递减数列

给定一个长度为 n 的整数数组,你的任务是判断在最多改变 1 个元素的情况下,该数组能否变成一个非递减数列。我们是这样定义一个非递减数列的: 对于数组中所有的 i (1 <= i < n),满足 array[i] <= array[i + 1]。示例 1:输入: [4,2,3]输出: True解释: 你可以通过把第一个4变成1来使得它成为一个非递减数列。示例 2...

2019-04-07 16:09:00 251

原创 LeetCode(No.746)--使用最小花费爬楼梯

数组的每个索引做为一个阶梯,第 i个阶梯对应着一个非负数的体力花费值 costi。每当你爬上一个阶梯你都要花费对应的体力花费值,然后你可以选择继续爬一个阶梯或者爬两个阶梯。您需要找到达到楼层顶部的最低花费。在开始时,你可以选择从索引为 0 或 1 的元素作为初始阶梯。示例 1:输入: cost = [10, 15, 20]输出: 15解释: 最低花费是从cost[1]开始,然后走两步...

2019-04-07 11:31:32 199

原创 LeetCode(N0.643)--子数组最大平均值I

给定 n 个整数,找出平均数最大且长度为 k 的连续子数组,并输出该最大平均数。示例 1:输入: [1,12,-5,-6,50,3], k = 4输出: 12.75解释: 最大平均数 (12-5-6+50)/4 = 51/4 = 12.75注意:1 <= k <= n <= 30,000。所给数据范围 [-10,000,10,000]。方法1:直接遍历,计算超...

2019-04-07 09:04:40 258

原创 LeetCode(No.674)--最长连续递增序列

给定一个未经排序的整数数组,找到最长且连续的的递增序列。示例 1:输入: [1,3,5,4,7]输出: 3解释: 最长连续递增序列是 [1,3,5], 长度为3。尽管 [1,3,5,7] 也是升序的子序列, 但它不是连续的,因为5和7在原数组里被4隔开。示例 2:输入: [2,2,2,2,2]输出: 1解释: 最长连续递增序列是 [2], 长度为1。注意:数组长度不会超过100...

2019-04-06 23:07:46 162

原创 LeetCode(No.4)--寻找两个有序数组中的中位数

给定两个大小为 m 和 n 的有序数组 nums1 和 nums2。请你找出这两个有序数组的中位数,并且要求算法的时间复杂度为 O(log(m + n))。你可以假设 nums1 和 nums2 不会同时为空。示例 1:nums1 = [1, 3]nums2 = [2]则中位数是 2.0示例 2:nums1 = [1, 2]nums2 = [3, 4]则中位数是 (2 + 3)...

2019-03-22 20:24:01 100

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除