自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

htbeker的博客

数据挖掘与机器学习爱好者

  • 博客(60)
  • 收藏
  • 关注

原创 使用GRPC调用TensorFlow-Serving服务

docker启动服务:docker run -p 8502:8500 --mount type=bind,source=/home/recommend/hh/esmm,target=/models/search_multiply_task_model -e MODEL_NAME=search_multiply_task_model -t tensorflow/serving:2.2.0 其中,本机的8502端口对应Docker的8500端口(GRPC端口),本机8501端口对应Docker的85

2021-08-03 15:30:44 829

原创 你们都是怎么学 Python 的?

无意中听我们院长大人说:Python是一门神奇的语言,在此之前我已经对C/C++/Java等几门语言有了一定得了解和掌握,并做过一些小项目。学习Python大致可以分为以下几个阶段:1.刚上手的时候肯定是先过一遍Python最基本的知识,比如说:变量、数据结构、语法等,基础过的很快,基本上1~2周时间就能过完了,我当时是在这儿看的基础:Python 简介 | 菜鸟教程如果你想简单点,我把我自己的学习经验总结成了一本Python以及爬虫电子书,保证非常的通俗易懂帮助你学会Python,目前这本

2021-03-15 20:18:11 298

原创 多任务学习(Multi-task)keras实现

多目标任务存在很多场景中,如多目标检测,推荐系统中的多任务学习。多任务学习(Multi-task learning)简介多任务学习(Multi-task learning)是迁移学习(Transfer Learning)的一种,而迁移学习指的是将从源领域的知识(source domin)学到的知识用于目标领域(target domin),提升目标领域的学习效果。 而多任务学习也是希望模型同时做多个任务时,能将其他任务学到的知识,用于目标任务中,从而提升目标任务效果。如果我们换个角度理解,其实多任

2021-03-15 19:20:38 3611 2

原创 Pandas中DataFrame数据合并、连接(concat、merge、join)

最近在工作中,遇到了数据合并、连接的问题,故整理如下,供需要者参考~一、concat:沿着一条轴,将多个对象堆叠到一起concat方法相当于数据库中的全连接(union all),它不仅可以指定连接的方式(outer join或inner join)还可以指定按照某个轴进行连接。与数据库不同的是,它不会去重,但是可以使用drop_duplicates方法达到去重的效果。concat(objs, axis=0, join='outer', join_axes=None, ignore...

2021-03-13 22:45:46 1684

原创 pandas的连接函数concat()函数

完整代码扫描下方二维码或微信搜索【有酒有风】回复【pandas】获取。:参数含义objs:Series,DataFrame或Panel对象的序列或映射。如果传递了dict,则排序的键将用作键参数,除非它被传递,在这种情况下,将选择值(见下文)。任何无对象将被静默删除,除非它们都是无,在这种情况下将引发一个ValueError。axis:{0,1,...},默认为0。沿着连接的轴。join:{'inner','outer'},默认为“outer”。如何处理其他轴上的索引。outer为联合和in

2021-03-13 22:41:19 161

原创 tensorflow之tf.where实例解析

tf.where( condition, x=None, y=None, name=None)a,b为和tensor相同维度的tensor,将tensor中的true位置元素替换为a中对应位置元素,false的替换为b中对应位置元素。import tensorflow as tfimport numpy as npsess=tf.Session() a=np.array([[1,0,0],[0,1,1]])a1=np.array([[3,2,3],[4,5,6]]) pr.

2021-01-08 15:08:19 352

原创 tf.feature_column详解及避坑攻略

在使用tensorflow搭建模型时会有特征工程的工作,今天介绍一下tensorflow做特征工程的api:tf.feature_column。feature_column 输入输出类型1.深度模型的输入必须是Dense类型,所有输出是categorical类型需要经过indicator或者embedding的转换才可以2.indicator, embedding, bucketized的输入不能是原始特征,前两者只能是categorical类型的feature_column, 后者只能是numer

2021-01-06 19:22:31 8996

原创 使用pyspark 进行向量计算

最近根据Airbnb在KDD 2018的bestpaper《Real-time Personalization using Embeddings for Search Ranking at Airbnb》做实时推荐的项目。其中在表达用户短期兴趣特征时我们是将用户近两周对item的行为数乘以对应item向量并将所有行为向量相加。此处item向量已由word2vec训练好。数据格式如下:我...

2020-04-10 23:06:12 1774

原创 python动态规划及编辑距离计算实例

动态规划的三要素:最优子结构,边界和状态转移函数,最优子结构是指每个阶段的最优状态可以从之前某个阶段的某个或某些状态直接得到(子问题的最优解能够决定这个问题的最优解),边界指的是问题最小子集的解(初始范围),状态转移函数是指从一个阶段向另一个阶段过度的具体形式,描述的是两个相邻子问题之间的关系(递推式)  重叠子问题,对每个子问题只计算一次,然后将其计算的结果保存到一个表格中,每一...

2019-10-15 16:20:28 884

原创 spark.DataFrane分布式转pandas.dataframe

import pandas as pddef _map_to_pandas(rdds): return [pd.DataFrame(list(rdds))] def topas(df, n_partitions=None): if n_partitions is not None: df = df.repartition(n_partitions) df_pa...

2019-07-15 20:04:15 831

原创 tf.reduce_sum()

reduce_sum应该理解为按相应的轴压缩求和,用于降维。通过设置axis参数按相应轴压缩求和。通过如下实例进行理解。先设置一个2*3*4的tensor实例x。x =tf.constant([[[ 1, 2, 3, 4],[ 5, 6, 7, 8],[ 9, 10, 11, 12]],[[13, 14, 15, 16],[17, 18, 19, 20],[21, 22, 23...

2019-07-02 19:17:12 2802

原创 XGBoost原理及目标函数推导详解

前言 XGBoost(eXtreme Gradient Boosting)全名叫极端梯度提升,XGBoost是集成学习方法的王牌,在Kaggle及工业界都有广泛的应用并取得了较好的成绩,本文较详细的介绍了XGBoost的算法原理及目标函数公式推导。一、XGBoost原理 XGBoost是boosting算法的一种,是以决策树为基础的一种梯度提升算法。通过多轮迭代,每轮迭...

2019-06-12 17:02:34 12194 3

原创 hive获取今天/明天/昨天时间

一、获取今天时间select FROM_UNIXTIME(UNIX_TIMESTAMP()) date二、获取明天时间select regexp_replace(substr(date_add(FROM_UNIXTIME(UNIX_TIMESTAMP()),1),1,10),'-','') date可以通过date_add函数获取今天开始后n天的时间三、获取昨天时...

2019-06-04 19:13:58 30194 3

原创 hive中case..when和row_number()的使用

一、case..when将列值进行条件筛选和转换。select sex,case when sex = 1 then 'man' when sex = 2 then 'woman'when sex = 3 then 'secret'else 'other' end SEXfrom big_data.big_data结果如下:将sex列中数据做了相应转换。二、ro...

2019-06-03 19:33:51 2812

原创 hive 行转列/列转行

在使用hive对一些日志数据进行解析或者分析的时候会有将行列进行转换的情形,我们将分别进行讨论。一、行转列。原始数据如下: 图一需要转换成如下形式: ...

2019-05-27 20:13:24 335

原创 pyspark中dataframe切片

想要对pyspark中dataframe实现pandas.dataframe中iloc的切片功能,发现spark中没有相关函数可以直接实现该功能,因此自己琢磨了一个方法。首先创建一个dataframe。dfs = spark.createDataFrame([("a", 1), ("b", 2), ("c", 3)], ["letter", "name"])长这样子±-----±—+|...

2019-03-20 15:33:30 5994

原创 tf.nn.embedding_lookup和tf.gather实例

tf.nn.embedding_lookup的作用就是找到embedding data中对应行下的vectortf.nn.embedding_lookup(params, ids, partition_strategy='mod', name=None, validate_indices=True, max_norm=None)#寻找params中索引为ids的vectorimp...

2019-02-16 17:44:31 2198

原创 tf.truncated_normal和tf.random_normal

import numpy as npimport pandas as pdfrom pandas import Series,DataFrameimport matplotlib.pyplot as pltimport tensorflow as tftf.truncated_normal(shape, mean=0.0, stddev=1.0, dtype=tf.float32, s...

2019-02-13 09:23:04 526

原创 tf.matmul和tf.multiply

tf.matmul为矩阵相乘,tf.multiply为矩阵中对应元素各自相乘

2019-02-12 18:36:28 437

原创 推荐系统深度学习实战之Wide_Deep

推荐系统与深度学习的结合。在推荐系统中,记忆体现的准确性,而泛化体现的是新颖性,wide_deep能将两者相结合。1、Memorization 和 Generalization 这个是从人类的认知学习过程中演化来的。人类的大脑很复杂,它可以记忆(memorize)下每天发生的事情(麻雀可以飞,鸽子可以飞)然后泛化(generalize)这些知识到之前没有看到过的东西(有翅膀的动物都...

2019-02-11 16:19:56 3832

原创 将hdfs数据写入hive

下面来唠唠怎么将hdfs里的数据写入到hive里。要将数据写入hive里,那么hive里得有存放数据表得位置,因此,第一步,是在hive里创建新的表来存储来自hdfs的数据,这里有两个注意:1、新建的表应该跟hdfs里面数据表一致,指定列名;2、创建表格式应一致,具体就是指row format delimited fields terminated by ','里by后面应与hdfs数据保...

2019-01-25 15:42:09 6949

原创 tensorflow搭建简单线性模型及神经网络

利用tensorflow搭建简单线性模型及神经网络生成线性模型

2019-01-23 22:12:16 407

原创 pandas分批读取大数据集

如果你的电脑内存较小那么想在本地做一些事情是很有局限性的(哭丧脸),比如想拿一个kaggle上面的竞赛来练练手,你会发现多数训练数据集都是大几G或者几十G的,自己那小破电脑根本跑不起来。行,你有8000w条样本你牛逼,我就取400w条出来跑跑总行了吧(狡滑脸)。下图是2015年kaggle上一个CTR预估比赛的数据集:看到train了吧,原始数据集6个G,特征工程后得多大?那我就取40...

2019-01-18 17:53:22 23387 5

原创 pyspark.sql.functions详解

pyspark.sql.functions包含了很多内置函数。1.pyspark.sql.functions.abs(col)计算绝对值。2.pyspark.sql.functions.acos(col)计算给定值的反余弦值; 返回的角度在0到π的范围内。3.pyspark.sql.functions.add_months(start, months)返回start后mon...

2019-01-16 21:11:55 22803

转载 计算广告CTR预估系列--Wide&Deep理论与实践

转自: https://blog.csdn.net/u010352603/article/details/80590129计算广告CTR预估系列(四)–Wide&Deep理论与实践1. 名词解释1.1 Memorization 和 Generalization1.2 Wide 和 Deep1.3 Cross-product transformation2. Wide &amp...

2019-01-16 17:53:50 642

原创 pyspark稠密向量(DenseVector)和稀疏向量(SparseVector)

pyspark稠密向量和稀疏向量pyspark的本地向量有两种:DenseVctor :稠密向量 其创建方式 Vector.dense(数据)SparseVector :稀疏向量 其创建方式有两种:  方法一:Vector.sparse(向量长度,索引数组,与索引数组所对应的数值数组)  方法二:Vector.sparse(向量长度,(索引,数值),(索引,数值...

2019-01-15 14:15:43 8668 2

原创 使用pyspark ml 构建logisticRegression模型

数据量上来了不得不祭出spark,先用逻辑回归试试水。

2019-01-06 22:47:39 2430

原创 集成学习之stacking详解

什么是集成学习方法?集成学习有以GBDT为代表的boosting方法和以RF为代表的Bagging方法,今天我们介绍另外一种stacking方法。stacking在kaggle中大为光火,很多高分选手都用了此方法,在工业界应用不详,还请知道的大神详解。Stacking流程在第一阶段,将训练数据均匀地分成5份,使用“留一法”训练5个逻辑回归模型,用这5个模型分别去预测剩下的一份训练...

2018-12-30 21:36:27 7657

原创 python将字典转换成dataframe数据框

需要将字典转换成dataframe来操作,并且将字典的key,value分别作为dataframe两列。数据样例如下:一个key只有一个value的字典如果直接转化成数据框会报错:如下两种方法可达成目标。一,将字典转换成Series,将Series转换成dataframe,并将dataframe的索引设为id列。二,使用pd.DataFrame.from_dict方...

2018-12-17 18:13:54 65789 2

原创 linux复制/剪切文件到另一个文件夹

复制/拷贝:cp 文件名 路径 cphello.csv ./python/ml:把当前目录的hello.csv拷贝到当前目的python文件夹里的ml文件夹里cp 源文件名 新文件名 cp hello.txt world.txt:复制并改名,并存放在当前目录下cp file1 file2复制一个文件cp dir/* .复制一个目录下的所有文件...

2018-10-31 11:27:50 98248 2

转载 Linux常用命令大全

最近在和Linux打交道,感觉还不错。我觉得Linux相比windows比较麻烦的就是很多东西都要用命令来控制,当然,这也是很多人喜欢linux的原因,比较短小但却功能强大。我将我了解到的命令列举一下,仅供大家参考:系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系...

2018-10-25 19:53:48 201

原创 feature_selector

今天介绍一个特征选择的包:feature_selector,它使用了5种方法进行特征选择,1、删除缺失值过高变量;2、删除共线性特征;3、删除唯一值特征;4、删除重要度为零的特征;5、删除低重要度特征,下面进行介绍。...

2018-10-21 15:20:04 3699

原创 hive严格模式:No partition predicate found for Alias

在hive提数时出现了如下报错:Error while compiling statement: FAILED: SemanticException [Error 10041]: No partition predicate found for Alias。这是因为hive提供了一个严格模式,可以防止用户执行那些可能产生意想不到的不好效果的查询。即某些查询在严格模式下无法执行。sample 1...

2018-10-18 19:56:15 39573 1

原创 python 汉字转拼音&拼音转汉字

在做搜索时会碰到汉字拼音互转的情况,下面简单介绍。

2018-08-25 10:45:08 13579

原创 信用申请评分卡建模

本文基于kaggle竞赛数据GiveMeSameCredit构建信用申请评分卡即A卡。

2018-07-06 09:54:54 4340 2

原创 特征选择(feature_selection)

特征选择是特征工程重要的一环,sklearn能帮我们实现多种特征选择的方法,现在来做一个总结。首先导入原始数据,建模并计算KS,以KS作为特征选择后模型的效果对比。 ...

2018-06-29 23:39:05 1870

原创 matplotlib作图坐标轴不能显示中文

如下图横坐标没有显示正确的球星名字,那是因为matplotlib库里没有中文字体 添加代码: from pylab import * mpl.rcParams[‘font.sans-serif’] = [‘SimHei’] 后即可正确显示 ...

2018-05-17 18:20:27 16330 13

原创 在调用sklearn时出现 Unknown label type: ‘unknown‘

在sklearn 模型训练是出现如下报错:‘ValueError: Unknown label type: ‘unknown’’该怎么解决?以GBDT为例:train_y后加上astype(‘int’)即可gbdt.fit(train_x,train_y.astype(‘int’))...

2018-05-17 12:02:40 29471 9

原创 pandas中根据列的值选取多行数据

在excel或Mysql中经常会用到多列条件查询或筛选,下面一起来看看pandas怎么实现这一功能。

2018-05-16 09:29:57 88902 1

原创 sklearn.preprocessing用法总结

通常使用sklearn中的preproccessing库来进行数据预处理。

2018-04-24 23:07:34 1941

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除