自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 资源 (32)
  • 收藏
  • 关注

原创 机器学习特征处理详解与 tensorflow feature_column 接口实战

feature_column 接口 本来是 Google 为了 适配 tensorflow estimator 这个 模型训练 的 高阶接口 使用 的,但它 既然 能 方便处理特征 ,并且 特征处理 殊途同归 ,当然 我们也 可以将 feature_column 接口 配合 tensorflow keras 开发模型使用, 亲测 也 非常好用 哦。这里要 重点推荐 一下 estimator 接口,使用 estimator 开发的 单机版模型可以直接适配分布式 模型 训练,代码 无需怎么 改动

2023-02-26 11:39:19 360 2

原创 tensorflow 六种方法构建读入batch样本(含序列特征处理),踩坑经验值得收藏

本文共介绍了 6种 tensorflow 读取数据 并 batch 训练 的方法,包括使用 slice_input_producer、from_tensor_slices、generate、interleave 以及 自定义 生成batch 数据 等方法,下面就让我们 一种一种方法 的 介绍吧,总有一种适合你的。

2023-02-19 19:57:06 277

原创 模型手把手系列开篇 之 python、spark 和java 生成TFrecord

书接上文,我们的 图算法十篇 之 图机器学习系列文章总结 已经完结, 接下来 我们 将开始 从零开始 一点一点 的用 tensorflow 实现 一些 经典的 模型,除了 和大家 一起学习 之外,也是为了 可以帮助自己 对 过去学习过的 知识 做一些系统化 的 总结与回顾 ,进行 查漏补缺。

2023-02-18 11:37:18 231

原创 notebook远程访问pyspark集群, 算法工具神器重磅推荐

notebook远程访问pyspark集群, 算法工具神器重磅推荐书接上文,前段时间系列文章中,我们对 图算法 有了 深入浅出 的了解,接下来 打算 开始更新 一系列使用 tensorflow 1.x/2.x 动手 实现 各种经典模型 的文章,专门 面向小白 和 经验不那么多 的 同学,大家 可以一起 熟悉 下 整个流程哦 ~俗话 说的好 啊,。如上文所说,这个工具的特点就是, 然后。当然,有同学用了 pyhive 和 notebook 结合 也可以 访问集群,但是 pyhive 功能简单,只能。

2023-02-14 22:33:43 205

原创 图算法十篇 之 图机器学习系列文章总结

最后 到 本文要 介绍的重点 了: 在最近 大半个月,作者 花了一些时间 陆续 将 以前工作和学习中 用到的 图机器学习/图深度学习 相关的 算法知识 陆续进行了 文字总结 并 输出了系列文章 ,内容涉及 图基础知识综述 、 graph embeding 基础知识综述、以及 基于 图卷积 的系列文章 如 使用 tensorflow 和docker 进行图深度学习的 graphlearn 介绍 、 同构图链接预测、同构图节点分类与回归、同构图边分类与回归、异构图分类与回归 、异构图链接预测 和 基于图游走的图

2023-02-12 11:52:28 179

原创 图上 deepwalk 算法理论 与 tensorflow keras 实战,图算法之瑞士军刀篇(二)

了,接下来再有一篇文章 总结下图算法就完事了。上面的代码demo 在环境没问题的情况下,全部。

2023-02-11 13:43:30 138

原创 spark利器2函数之dataframe全局排序id与分组后保留最大值行

dataframe全局排序id与分组后保留最大值行

2023-02-08 20:38:30 322

原创 图上 deepwalk 算法理论与实战,图算法之瑞士军刀篇(一)

deepwalk算法 是一种基于图游走训练得到图表示的算法。图游走,顾名思义,在图上进行游走,获得一系列的游走路径,其实也就是节点序列。再把这些序列丢到word2vec 模型里去,得到节点的embeding ,进行下游别的辅助任务。概括来说,图游走算法一般都遵从的是 Walk + Skip-Gram Loss 架构。在深入浅出理解word2vec模型 (理论与源码分析)文章中,我们也说明过:输入word2vec模型的 序列非常重要,决定着我们训练得到的embeding的重点。具体到图上,对于同构图。

2023-02-07 22:46:56 231

原创 异构图 Link 预测 理论与DGL 源码实战

这里定义了异构图上RGCN会用到的模型的一系列自定义函数,终点看代码注释,结合上文第一小节的抽象理解,希望你能看明白哦。

2023-02-04 11:30:09 480

原创 重磅好文透彻理解,异构图上 Node 分类理论与DGL源码实战

这里定义了异构图上RGCN会用到的模型的一系列自定义函数,综合看代码注释,结合上文第一小节的抽象理解,希望能理解的更加深入哦。

2023-02-01 12:29:06 455 9

原创 记第一次来大同,云冈石窟半日游

毕竟疫情刚刚放开,可以看到,景区附近人还是挺少的,进了景区上个台阶,很快就到景点入口了,石窟入口居然在几间装扮古朴的房子里面,一进门就有一个雕像,是北魏时期一位叫做 昙曜 高僧,说是云冈石窟的创始人,听导游的介绍说来,更像是石窟雕刻这项巨大的皇家工程的发起人 ~大同还是挺冷的,举目望去可以看到水的地方,都全部结冰了,冰面上稀稀疏疏的都是脚印,鉴于胖虎是重量级人物,这种行为我就不亲自尝试了~这个树是假树哦,看起来像是纯铁做的,太冷,我就没有摸,要是有读者下次过来,可以摸摸看哦。从右边的小门进去,别有洞天!

2023-01-30 21:30:06 245

原创 千字好文,基于未采样GraphSage算子和DGL实现的图上 Edge 回归

使用dgl 图深度学习框架定义的,历史文章均有介绍,这里不再展开。@ 欢迎关注微信公众号:算法全栈之路# h是GNN模型中计算出的节点表示# 实例化SAGEConve,in_feats是输入特征的维度,out_feats是输出特征的维度,aggregator_type是聚合函数的类型# 输入是节点的特征return h从这里的代码我们可以看到: 主要的函数依然是Sage 算子和DotProductPredictor方法,这个我们在。

2023-01-29 13:18:24 192

原创 平遥古城游记

平遥古城游记平遥古城,位于 山西省 晋中市 平遥县,始建于 周宣王 时期,明洪武 三年(1370年)扩建,距今已有 2800多年 的历史。并称,实为 古时我国北部经济重镇 ,晋商文化传承不绝~春节刚过,互联网民工又准备返回北京继续搬砖的日子了,毕竟难得来山西一次,决定在回京之前去平遥看看。在2023年1月26日,一早从太原南站出发,动车半小时到达平遥古城~平遥古城整个古城区挺大而且可以看的景点也比较多,计划去玩的同学最好能预留出一天半左右的时间,要看。

2023-01-28 22:24:03 152

原创 基于GCN和DGL实现的图上 node 分类, 值得一看!!!

这里我们采用 dgl 官方实现的 graphConv 算子进行邻居节点信息的聚合,不进行邻居节点的采样。@ 欢迎关注微信公众号:算法全栈之路if i!= 0:return h我们可以看到:这里的网络结构选择的是gcn。在上面的网络结构中,nn.ModuleList中放有2层的GraphConv卷积层,并在其中加入了dropout层。图卷基层之间也是可以加入dropout层的,和传统的深度学习DNN无任何区别。为了加深理解,我们可以重点关注下gcn模型的初始化参数以及输入输出参数。

2023-01-24 15:27:54 635

原创 大数据与机器学习算法相关的电子书分享

近日,偶然看到一个帖子,上面有一些常用的机器学习常用的电子书下载路径,遂复制到这里,分享给大家,希望可以有你需要的~接下来作者会继续分享学习与工作中一些有用的、有意思的内容,点点手指头支持一下吧~宅男民工码字不易,你的关注是我持续输出的最大动力。大数据与机器学习算法相关的电子书分享。

2023-01-17 21:58:02 739 1

原创 GraphSage与DGL实现同构图 Link 预测,通俗易懂好文强推

首先,要在图上进行链接预测任务,我们需要构建我们自己的逻辑图,这里采用dgl的图深度学习框架构建。我们要知道:在dgl框架中,构建图是以边的集合来进行图的定义的。# 同时建立反向边# 图中节点的数量是DGL通过给定的图的边列表中最大的点ID推断所得出的可以看到: 因为是基于边的集合进行图的构建,src则是边的起点,dst是边的终点。注意: dgl的最新版本中,有向图与无向图以相同的定义方式定义。其中,有向图只用输入一个[src,dst]数据即可,而无向图则需要输入两组边的顶点数组,也可以使用。

2023-01-16 20:42:55 732 3

原创 推荐一款基于docker部署的个人免费笔记工具wiznote

推荐一款基于docker部署的个人免费笔记工具wiznote作为一个的程序员,在做某个事情的时候,脑子里总是会联想并且不断蹦出各种奇怪的创意和想法,但是这些想法很多时候都是一闪而逝,事情过后就再也想不起,等到很久之后再次触达那个想法的时候,已经失去了实现那个想法的了。所以,一直以来,我都在找一款随时随地便捷记录的专属自己的笔记软件,以前用过印象笔记、notion、甚至自己也搭建过confluence,但总是由于各种方面原因吧,觉得这都不是想要的产品,直到我遇到了。

2023-01-15 12:01:26 3157

原创 看这里,使用docker部署图深度学习框架GraphLearn使用说明

看这里,使用docker部署图深度学习框架GraphLearn使用说明最近几年,火的如火如荼,图以其强大的能力和能力,逐步在Embedding 算法设计技术中展露头角。在以前的两篇文章和中,作者分别对图的基础知识和 Graph Embeding 进行了讲解,让我们对图的基础概念有了大致的了解。其中,文章末尾有推荐到使用训练图深度的学习模型算法需要借助在之上开发的这项技术。大家都知道或则是现在非常流行的两种,而实现 Graph Embeding 算法则需要使用。

2023-01-13 18:18:22 399

原创 图算法-多目标模型-推荐系统算法文章一览(逐步更新)

算法全栈之路 历史文章一览。

2023-01-13 11:47:31 133

原创 graphSage还是HAN ?吐血力作综述Graph Embeding 经典好文

书接上文,我们先来说说最简单的图卷积网络(GCN)空域卷积与卷积神经网络的设计理念相似,其核心在于聚合邻居节点的信息,直接将卷积操作定义在每个节点的链接关系上。通俗点理解,GCN实际上跟CNN的作用一样,就是一个特征提取器,只不过它的特征提取对象是图数据。其中,D负责提供权值的矩阵,邻接A矩阵控制应该融合哪些点, H表示上一层的embedding参数。当然,我们在训练完成模型之后,拿到embeding之后可以灵活运用,进行下游的分类和回归任务。这里我们需要注意:GCN正常层数只需要2–5层即可。

2023-01-11 16:27:18 268

原创 一文揭开图机器学习的面纱,你确定不来看看吗

首先,对于图结构,相信我们很多学过计算机课数据结构的同学都不会陌生。它和我们在 数据结构 书上学到的队列、栈、树结构等一样,就是一种普通的数据结构,他们都是建模item 之间关系的数据结构,不过队列、栈甚至树等对数据的组织形式做了一些基础性限制,而图相对于队列等这些基础数据结构,只是更加复杂而已,但是依然 摆脱不了基础数据结构的特性。这里这样说,主要是希望我们读者不要把图数据结构 想象的非常复杂和高不可攀,以至于“谈图色变”。就算是图是一个魅力十足的大美女,也让我们先揭开她的神秘面纱。

2023-01-11 14:29:16 332

原创 多任务学习之mmoe理论详解与实践

多任务学习之mmoe理论详解与实践书接上文,在前一篇文章中,我们讲到MTL任务通常可以把可以分为两种:。多个任务之间有较强关联的, 例如点击率与转化率,这一种通常我们可以使用 ESMM 这种串行的任务进行建模。而对于多个任务之间相对比较独立的,例如点击率与用户是否给出评论的评论率,通常可以选择 MMOE 这种并行的任务进行的建模。模型全称是。

2023-01-10 00:07:25 1283 2

原创 系列小作文之企业级机器学习pipline总结

系列小作文之企业级机器学习pipline总结。

2023-01-08 12:14:36 93

原创 快看 esmm 模型理论与实践

只有真正的的结合业务深入思考了,才能逐渐驱动我们去不断挖掘埋藏在其中的“金子”,最终创新出令人惊艳的设计。我们可以发觉一点就是:很多优秀的模型设计都是在为了更好的学习用户的某一特性,而引入一个新的辅助模块,构建一个辅助任务,并添加辅助损失到最后的任务损失中以突出该模块的训练。无论是当前介绍的 esmm还是阿里巴巴的另一篇讲 dien 的论文,又或则是 将EGES的图用于冷启动任务的模型设计均是如此。

2023-01-06 11:36:24 306

原创 深入浅出理解word2vec模型 (理论与源码分析)

深入浅出理解word2vec模型 (理论与源码分析)对于算法工程师来说, Word2Vec 可以说是大家耳熟能详的一种词向量计算算法,Goole在2013年一开源该算法就引起了工业界与学术界的广泛关注。一般来说,word2vec 是基于序列中隔得越近的word越相似的基础假设来训练的模型, 模型的损失函数也是基于该原理进行设计的。

2023-01-04 09:03:52 1401

原创 企业级机器学习 Pipline - 排序模型

当然,现在有很多公司也在尝试着learn to rank (LTR) 的方式,构建point wise,pair wise,list wise方式的各种排序模型。但是在广告点击率预估场景中,还是以point wise 为主,得到需要排序的各个item 的排序因子,可以是点击率(CTR),也可以是转化率(CVR)等。毕竟广告算法场景,涉及到广告出价,需要计算Ecpm=ctr * bid, 而在这个公式中,点击率 ctr 是一个数值。

2023-01-02 10:08:22 479

原创 国内常用镜像加速源分享

国内常用镜像加速源分享我们经常在下载一些 Python 或 Java等包的时候总是会访问国外的资源站,但是墙内访问国外的网络一般都比较卡。

2023-01-01 12:26:24 595

原创 docker 快速实战指南

docker 快速上手使用指南作为一个对技术有追求的程序员,购买了一个自己的阿里云机器,但中途历经多次数据和环境的迁移,发现多次配置阿里云环境太费事了,最终下定决心把一些基础服务 docker 化。查了一些资料,也总结了一些常用的docker 工具的配置方法,这里和大家分享一下,希望能对大家有所帮助,有问题欢迎 留言讨论~Docker是基于Go语言进行开发实现的一个开源的应用容器引擎,每个容器内运行着一个应用,不同的容器相互隔离,容器之间也可以通过网络互相通信。

2022-12-31 17:54:51 184

原创 企业级机器学习 Pipline - 召回模型

在一个成熟的推荐系统里,我们的机器学习模型一般会作用于2个模块:召回与排序。在排序模块有粗排序,精排,重排等阶段的区分,在这里暂不展开叙述。在召回模块,很多公司一般都会有多路算法召回,比较经典的有双塔召回,协同过滤召回等,在某些业务也会使用基于统计策略的热度召回,分模块召回等。

2022-12-27 21:03:47 278

原创 企业级机器学习 Pipline - 特征feature处理 - part 1

企业级机器学习 Pipline - 特征feature处理 - part 1part 0, 往期回顾log数据处理 : 处理原始hive表或hdfs上log日志数据sample特征处理 :样本打标签、样本清洗、采样以及CXR校准。在上文 样本sample特征 处理的逻辑中,我们选取了能唯一标识一次流量的若干字段,例如:用户硬件唯一性id是 imei 、当前用户行为触发id是 triggerId 、当前广告位置标记 posid 、当前用户作用的对象id是 adid 、是否有点击标志的 label

2021-08-29 19:53:34 328

原创 快速搭建免费内网穿透工具 ( 服务端aliyun + 客户端 windows )

快速搭建免费内网穿透工具 ( 服务端aliyun + 客户端 windows )服务端aliyun + 客户端 windows 免费内网穿透工具 公网Ip映射先介绍下背景,最近在做一个只有用户关注公众号才能在某个网站进行下一步的操作的功能,需要不断的进行微信公众号调试。然而微信公众号仅仅支持公网ip的服务配置服务器地址(URL),所以就需要一个公网ip 来在本地搭建公众号后台。为方便调试,so 可以试试这个 免费内网穿透工具哦试了下花生壳和natApp这 2 个工具,发觉natApp的免费版本特别不

2021-08-29 15:09:11 752

原创 基于springboot + Semantic UI 的个人博客系统(源码+开发过程的详细视频+部署说明,超详细,非常推荐!!!)

基于springboot + Semantic UI 的个人博客系统(源码+开发过程的详细视频+部署说明,超详细,非常推荐!!!)今天在这里给大家推荐一个博客系统,可以自定义修改界面和功能哦 !界面和功能说明如下:算法混子博客界面如下 :(1)首页(2)后台管理页面部署说明:源码获取途径:(1)程序员资源网http://it.zhihang.info/article/detail/109.html(2)关注公众号 算法全栈之路回复关键字: 算法混子博客 获得源码作者

2021-08-28 21:02:05 366

原创 企业级机器学习 Pipline - 样本sample处理

企业级机器学习 Pipline - 样本sample处理书接上文,大家都知道,我们现在常用的机器学习平台包括 离线训练 和 在线预估 2 个模块。其中,离线部分一般负责 log数据处理,样本处理,特征处理和模型训练等。在线部分则包括线上的进行的 实时predict 过程 (online predict,也称为在线模型的Inference)。流程图如下:在机器学习界,有一句话是大家公认的真理:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。我也觉得这句话说的很有道理呀 -,数

2021-08-22 20:16:04 300

原创 算法工程师打死都要记住的20条常用shell命令

算法工程师打死都要记住的20条常用shell命令1. 使用 hadoop 命令查看 dfs上的文件,"\t"分隔hadoop fs -text hdfs/user/app/data.20210701/* | awk -F '\t' '{ print $1 "\t" $2 }' | less -102. 查看 hdfs 上文件的大小,2种方法(2.1) -du 查看大小 -h (human,以人可以看懂的方式展现)hadoop fs -du -h /hdfs/user/app/data.

2021-08-22 00:32:20 510

原创 企业级机器学习 Pipline - log 数据处理

一整套工业实际使用的机器学习工程方案之源数据处理大家都知道,我们现在常用的机器学习平台包括 离线训练 和 在线预估 2 个模块。其中,离线部分一般负责 log数据整理,样本处理,特征处理和模型训练等。在线部分则包括线上的进行实时的 predict 过程 (online predict,也称为在线模型的Inference)。如下图所示:对于一个相对成熟的系统,我们会在 前端页面 (Html ,App等)通过SDK埋点的方式采集用户的行为日志,一般包括用户各种行为像用户开屏,页面请求、曝光,点击

2021-08-21 22:07:55 349

原创 程序员资源网站推荐

分享一个网站哦,程序员资源网,里面有一些从入门到进阶的资料,包括广告搜索推荐算法、大数据、后台,前端,面试等各个方面的学习资料,后期还会有大量的专业电子书上传,在校学生或则职场新人,后台前端转大数据和各种算法的同学可以看看哦。网址:程序员资源网 http://it.zhihang.info...

2021-07-31 20:18:46 247

Java垃圾回收机制总结

Java垃圾回收机制总结

2022-03-19

c++ 11 new feature

c++ 11 new feature

2022-03-19

deep learning 实战之 word2vec

deep learning 实战之 word2vec

2022-03-19

gbdt并行化实现 百度实现

gbdt并行化实现 百度实现

2022-03-19

openCV-python中文版

openCV-python中文版的书籍,讲了openCV的python接口调用说明,计算机视觉入门的朋友可以下下来看看。

2017-12-07

机器学习技术在python语言的商业应用

机器学习技术在python语言上的商业应用,看大公司都是如何使用python搭建机器学习平台使用开发的。

2017-12-07

机器学习从入门到bat线下活动第三次分享的PPT

主要讲了在bat这种大公司,目前在使用的机器学习都用在那些模块以及方面。

2017-12-07

大数据架构

讲解了大数据生态架构在各大互联网公司的运用和搭建方法。

2017-12-07

hadoop架构十年发展与应用实践

讲解了hadoop应用实践在十年里的发展历程,有原理,也有实战的tricks。

2017-12-07

分布式机器学习与系统设计与实现 七月算法的ppt

结合第六次公开课看,视频七月算法网站上有,这个是Ppt

2017-11-29

词向量 Word2Vec sense2vec

词向量 Word2Vector sense2vector 自然语言处理常规方法介绍。

2017-11-16

汉语问答关键技术研究 研究

汉语问答系统关键技术研究,科技文献,讲解了汉语问答系统的搭建。

2017-11-16

OpenCV官方教程中文版

openCV的官方教程,图像处理中的圣经似的书籍。图像预处理方法说明。

2017-11-16

大型电商分布式系统实践12课

大型电商的分布式系统实践,讲解架构的实现以及分布式原理。

2017-11-16

hive实现原理

hive 分布式实现原理。hive是大数据平台上构建数据仓储必须要用的。

2017-11-16

标记分布学习范式

标记分布式学习范式,分布式,基于大数据平台的学习规则。

2017-11-16

程序员数学 微积分与概率论

程序员必须要理解的数学,微积分和概率论。编程中用到的数学。

2017-11-16

python cookbook 中文版

python的入门与进阶版书籍,写的非常通俗易懂,并且深入浅出。

2017-11-16

NLP实践指南

NLP实践指南,主要讲解的自然语言处理NLP的常规流程和方法。

2017-11-15

spark streaming 在阿里的应用实践

sparkstreaming 在阿里巴巴的应用实践,讲解了spark在实际项目中的运用。

2017-11-15

淘宝数据仓库环境介绍

主要讲了淘宝网数据仓库环境的搭建,hive的使用以及架构的组成。

2017-11-15

互联网推荐系统漫谈

主要讲了读推荐系统实战作者的心得,以及系统的大概构成和评价标准。

2017-11-15

caffe 的配置文件

主要讲了caffe的使用以及配置。caffe是卷积神经网络框架,使用说明。

2017-11-15

基于大数据的全球电商系统架构性能优化

基于大数据的全球电商系统架构性能优化,详细的介绍了框架

2017-11-15

大型电商分布式系统实践

大型电商分布式系统实践,有多个课程,下面可以单独的看各个章节。

2017-11-15

搜索引擎用户行为模型的构建与应用

搜索引擎用户行为模型的构建与应用,大概的介绍建模的过程。

2017-11-15

Hadoop在大型推荐系统中的应用

hadoop大型推荐系统的实战和运用,介绍了大概的架构和基本模块。

2017-11-15

360推荐系统实践

360推荐系统实践,杨浩版,讲解了360的推荐系统大概架构。

2017-11-15

58同城推荐系统设计与实现

58同城的推荐系统设计与实现的方法,对推荐系统的整体框架介绍。

2017-11-15

图像处理与分析方法介绍

介绍了常规的图像处理方法,以及机器学习进行图像处理的基本方法。

2017-11-15

互联网运维理论与实战

大型网站的架构,互联网运维理论与实战,可以很好的对运维进行了解

2017-11-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除