自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(81)
  • 资源 (6)
  • 问答 (3)
  • 收藏
  • 关注

原创 golang 错误: code:8, msg:MarshalFail 解决

具体抛出异常的位置在哪里,也不是很清楚。底层代码没有深入研究。等以后有机会再研究一下protobuffer的 Marshal 机制。表示的是空接口类型。在go 当中任何值都满足这个接口。所以空接口可以用来保存任何值,也可以从空接口中取出原值。golang 错误: code:8, msg:MarshalFail。的时候,对 pb 进行 Marshal 的时候抛出了异常。所以,在上述代码当中传递req 和 &req 形参。原因: req 和 rsp 需要传递引用,将。

2023-08-10 15:44:07 121

原创 Transformer position encoding 的细节

在自然语言处理、语音识别和推荐系统当中,需要处理一类独特的数据:。序列数据的特点,决定了序列处理的特性。在常见的序列处理当中,我们面对的序列主要有以下几个特点。这里以情感分析为例子PositiveNegative在上面的例子当中,仅仅只是因为don‘t 位置的不同,就导致了这两个句子的情感标注一个是正向的,一个是负向的。也就是说,在自然语言处理场景中,词汇之间的顺序关系对语意十分重要。词汇的含义可以由其上下文表示。

2023-08-01 11:31:41 115

原创 Alibaba DIN模型介绍

合上论文想一下,整个论文最主要值得参考的点大概是Attention在排序中的使用。除此之外的疑问和收获就是:每个candidate ad生成一个user embedding然后和itemfeature生成的embedding做一下concat,这种情况下模型计算的复杂度在随着candidate ads个数的增大呈线性增长。例如在召回阶段如何使用Attention的方式来捕获多样兴趣?Filter和Dropout Feature看来也是用来解决细粒度特征带来的噪声数据常用的数据处理方式。

2023-07-27 20:07:13 147

原创 Transformer详解

当我们拿到现实世界当中的一个中英翻译任务的时候,我们需要怎么构建一个模型通过学习已有的数据来建立源语言(中文)和目标语言(英文)之间的关系呢?接下来,我们分两部分来介绍一个翻译任务工作的流程,包括如何构建模型输入、输出和模型优化目标的构建。

2023-07-19 20:54:10 559

原创 毕业五年了

人最大的幸运莫过于在身体和精神上都有好的支撑。

2023-07-05 21:33:58 53

原创 活着是为了讲述: 归途

我和母亲要坐上汽艇穿过沼泽地,经过一片冒泡着泡堆满死鸡的海,还有废弃的香蕉种植园,路过马孔多最后走进镇子布满死亡灵的道路。那幢老宅的门口有两棵巴旦杏树,有种满秋海棠的长廊,以及敞篷的洗浴间,还有藏着70个便盘的储物间。栗树在午后的静寂的阳光下洒落暗影,像妖,像鬼,像往昔斑驳的记忆。书的开头是马尔克斯(书中好像不是这个名字,具体的名字忘了)的母亲来找他去卖掉外公和姥姥的老宅。不知道是不是因为看了这本书的原因,今天清晨5:00左右做了一个奇怪的梦,然后惊醒,醒过来之后又看了一会儿,爬上床继续睡觉。

2023-04-13 16:24:18 74

原创 讲述是通往解脱的路

从马尔克斯自传的开头和《百年孤独》残存的记忆我大概能勾勒出马尔克斯老家的场景。通过沼泽地、然后是一片肮脏的海,在记忆里挥之不去又爱又恨的香蕉公司和惨痛的工人历史,一个叫做马孔多的种植园,午后炎热的天气。在这本书的一开头,我就能看到《百年孤独》的影子,读完之后才知道原来魔幻的现实都有出处。讲述无法承载当下场域的全部。如果讲述的目的是为了放下的话,某种意义上也许活着是为了解脱和救赎,而讲述只是通往那里的路。书的开头扉页上写着"生活不是我们活过的日子,而是我们记住的日子,我们为了讲述而在记忆中重现的日子"

2023-04-13 16:22:43 50

原创 如何绘制出漂亮的神经网络图

绘制一个简单的神经元全连接的结构, 文件命名为graph.dot。

2023-02-20 18:00:14 384

原创 去本来该去的地方

一些叨逼叨

2022-07-04 23:36:24 123

原创 动荡与不安

今天去公司的另外一个办公地点对接业务。原来和这个业务相关的大部分人应该都会被裁掉。上午对接的时候我的组长说了一句:“Spark Streaming 相关的任务就让P同事去对接吧!” 听到这句话的时候,我的心里其实有一点不舒服。因为那一瞬间,我的潜意识里觉得自己是不被信任的。当我意识到自己过于敏感的时候,我开始疯狂地开解自己。我开解的理由大概如下: 我不应该这么敏感、也不应该这么容易受到刺激,我不应该有争的心态,也没有争的必要,这个世界上的很多事情我们都改变不了。总之,中午的时候我有一大堆的话想要说,想要

2022-04-27 01:02:40 3204

原创 压力 [首发:寻沂]

我每次下完班回来总要经历一番挣扎才能暂时地放松下来。从进家门到睡觉经历的大致过程是这个样子的: 玩手机寻找心理安慰和放松、身体上挣扎寻求身体放松、然后去洗澡。洗完澡之后可能会看会儿书、或者写日记,弥补一天下来什么也没干的遗憾并追悔一下难以自控的放纵。在一切都沉寂下来之后,我会躺在床上打开潮汐或者是公司的冥想引导语音去寻找片刻的安宁。我感觉自己很难放松下来。我没有办法让自己的每个细胞都感觉到自己的存在。我总是陷入一种混沌的状态当中,脑子懵懵的、身体麻麻木木。有的时候一天下来也不知道自己干了些什么,身体上

2022-04-26 01:18:47 101

原创 当我重新开始写作

1. 为什么要写?我还是想写一些东西。因为日子太过平常,太容易忘却,会经常让我自己忘了我到底是谁。在我的心理预设里面,我是一个孤僻的人,没有什么社交活动。我希望在那些寂静无声的日子里和自己说说话,记录下一些平常的想法。我也期待着通过写作认识一些新的朋友和更多的人产生联系,甚至可以召来一群伙伴一起前行。虽然,我有很强烈的期待——期待着成为一个大V,但是成为一个大V不是我的最终目的。如果真的以亿万分之一的可能达到了这样的效果,那只是副产品。我应该只为自己而写,让自己不孤单。我希望做一...

2022-03-22 18:06:25 312

原创 独立之路:记录那些关于钱的事 #1

这是独立之路系列的第1篇文章,正常情况下每周的周末我会更新一篇,主要更新自己对钱的看法。缘起我在2020年10月的时候设置了一个财务计划并且一直在执行。当时我把这个财务计划分成5个阶段,准备通过十年的时间来完成。这个财务计划的目的是在2030年10月01日之前完成480万可投资净资产的积累,并且在南昌有一套没有贷款的房子。说一下为什么是480万,不是580万也不是180万而是480万。因为,按照6%的投资年化收益率来进行计算,480万的话年收益率是30万左右,应该够我生活。我如果在南昌还有一套房

2021-02-23 19:15:27 176 3

原创 YouTube DNN论文精读

文章目录Abstract1. Introduction2. System Overview3. Candidate Generation3.1 Recommendation as classification3.2 Model Architecture3.3 Heterogeneous Signals3.4 Label and Context Selection3.5 Experiments with Features and Depth4. RANKING4.1 Feature Representatio

2021-01-14 16:12:03 728

原创 Jupyter Notebook 添加Kernel的简单操作

我创建了一个anaconda的虚拟环境,现在想要把这个虚拟环境添加到Jupyter的Kernel里面。记录一下具体操作以便后续使用确认安装`ipykernelpip install ipykernel添加kernelsudo /data/var/nlp/anaconda3/envs/tensorflow1.14.0/bin/python -m ipykernel install ...

2020-11-26 10:28:43 548

原创 常用的Hive表命令

1. groupby将表数据通过某一列或者多个列进行聚合。example 1给定一个表grade_table如下表结构uidnameclassgrade0001张三学前一班00002李四学前二班30003王五学前二班120004赵六学前一班13这种情况下想要计算每个班的平均分,对应的sql如下:select class, avg(grade) as grade from grade_table group by class

2020-10-30 11:03:40 145 1

原创 HNSW的基本原理及使用

本文首发于:http://xzyin.top/hnsw/转载请注明出处:http://xzyin.top/相关系列文章可参考:《大规模向量相似度计算(一)——hnswlib的基本使用示例》《大规模向量相似度计算(二)——hnswlib的参数含义》关注微信公众号:【charlie_mouse】进入技术交流群。1. Small world vs. Random graph在正式的介绍NSW和HNSW之前,先来了解一下小世界和随机图的概念方便后续理解为什么NSW能够做近邻查找。1.1 Regula

2020-10-11 16:03:18 5317 1

原创

我想要再养一只猫名字就叫嘟嘟吧~国庆休假回来之后,我想要再养一只猫。这个想法萌生很久了,我一直在犹豫,没有下定决心。8月份的时候,一个住在回龙观的同事新养了一只橘猫,小小的精神的很,把人折腾得不行。8月底,去乌兰察布前一天晚上在那个同事家里面住,那只小猫瘦瘦地看着很紧张没什么安全感,总是在屋子里来回地叫唤,让人看了心疼。同事的房子是一个三居室,他住的是客厅改的隔断。晚上的时候,同事把它放在阳台玻璃门一关,那只小黄橘就趴在阳台的玻璃门上看着客厅里,凄凄惨惨地叫。大概叫了半个小时,也不知道是叫得累了还是

2020-10-04 15:16:18 206

原创 Candidate Sampling

介绍了sampling-based approach在多分类问题上的使用介绍了NCE和IS的区别,简单介绍了TensorFlow中sampled softmax的使用

2020-10-04 15:14:17 352

转载 深度学习word2vec笔记之算法篇

本文转载自《深度学习word2vec笔记之算法篇》对排版和内容作了部分调整,感谢大佬分享。PDF版本关注微信公众号:【终南樵】,回复:【word2vec】获取1. 声明该博文是Google专家以及多位博主所无私奉献的论文资料整理的。具体引用的资料请看参考文献。具体的版本声明也参考原文献本文仅供学术交流,非商用。所以每一部分具体的参考资料并没有详细对应,更有些部分本来就是直接从其他博客复制过来的。如果某部分不小心侵犯了大家的利益,还望海涵,并联系老衲删除或修改,直到相关人士满意为止。本人才疏学浅

2020-09-01 14:33:40 377

原创 财务自由第二阶段的自我目标

第二阶段财务目标的具体实现我之前在文章《十年的目标》里面,写下了自己到2030年需要完成的财务目标。其中,截止到2020年10月1日的财务目标,累计14万元资产的目标已经提前完成了。第二阶段的目标是资产累计达到30万,并且这个基金被我称为吃饭基金。也就是我需要通过这个钱产生的收益覆盖我日常的花销。截止7月30日,我的资产累计是18.5万,距离目标还差11.5万。我准备把第二阶段完成的目标提前到2021年3月。那么我每个月的平均存款大概需要在1.5万元。目前,从7月份的情况来看还是有些困难。

2020-08-07 23:03:28 502

原创 为什么工作总是一天比一天累?

大家有没有发现一个问题,就是随着年龄的增大。尤其是参加工作之后,好像越来越疲惫。有人这样问道: 为什么随着年龄的增大,越来越没有办法通过睡觉来缓解疲劳?也有人这样问道: 为什么明明很困了,但是就是睡不着?在现实情况中,我们往往同时具备上面的两种特征。一方面,没有办法通过睡眠来缓解疲劳,另一方面肉体上明明很困了,但是就是睡不着。我就是这种人!每天晚上很困了,但是睡不着并且越来越容易累,精力也没有办法全然地集中。我一直怀念小时候的下午,躺在凉席里,听着知了叫,感受这夏天的风的那种状态。可是,自从

2020-08-04 09:46:11 486

原创 怕公司的新同事超过你怎么办

不断超越自我,学会分享相互成全。

2020-08-03 22:26:48 547

原创 知识鸿沟下的自我成长

今天,接触到了一个新的概念叫做知识鸿沟。知识鸿沟,是美国明尼苏达州立大学的一个传播学研究小组在1970年提出的一项假设,并且通过不断的实验加以证明。知识鸿沟,最直观的解释就是,随着信息媒介的日益丰富,不同社会地位的人的知识差距会越来越大。在知识鸿沟的理论背景下,主要会产生两个现象:随着互联网的发展,每一个人能够获取到的信息和知识都在增长。具有更高社会地位的人能够以更快地地位获取知识,从而导致鸿沟越来越大。举个很简单的例子。就说填报志愿这件事情,城市的孩子所能够接收到的讯息和指导,就比

2020-08-01 20:24:34 257 1

原创 程序员的佛系炒股日常

0 楔子去年回家过年之前,我一个同事兴冲冲地跑过来跟我讲:阿查,我中了一个新股。我一脸杀手般无情的冷漠:“哦!中了多少手啊!““中了10手,一万二的仓位”,他显然有点兴奋,然后又补充到:“是个科技股”我抬起鼠标,打开我的代码编辑器,开始了新的单元测试,并没有及时回复他。不过他显然意犹未尽。他在我左边的空椅子上坐下,接口继续说道:“我准备不涨到80块不卖。”怀着一个价值投资者的不屑...

2020-07-28 16:37:29 1481

原创 程序员的六年风雨路

对比于其他行业来说,互联网行业无疑是一个香馍馍。虽然,每天要马不停蹄的修福报,但是工资上相对来说还是比较优厚。但是对于我们大部分人来说,并不是都能走的一帆风顺,在不同的阶段可能会经历不同的迷茫和困惑。每一个人都是一个一步脚印走过来的,慢慢地积累不断收获和成长,谨慎地选择并且追逐自己热爱的方向,这样才能不断的有所成长和收获。作为一个有着6年码龄和2年管理经验的程序员,我简单的聊一下这一路走走来经历过的迷茫和困惑。大家也可以看一下自己处于哪一个阶段。可能,我们处在不同的阶段,或者同样的阶段有不同的选择和

2020-07-28 16:36:43 1161

原创 LeetCode: 398. 随机数索引

给定一个可能含有重复元素的整数数组,要求随机输出给定的数字的索引。 您可以假设给定的数字一定存在于数组中。注意:数组大小可能非常大。 使用太多额外空间的解决方案将不会通过测试。示例:int[] nums = new int[] {1,2,3,3,3};Solution solution = new Solution(nums);// pick(3) 应该返回索引 2,3 或者 4。每...

2020-07-28 16:35:47 205

原创 躺平国历险记:两个超平面之间距离的计算

王二麻听说躺平国是一个非常神奇的地方。在躺平国里,有各种神奇的东西。比如:会说话的铁片,能够分拣垃圾的小狗,还有会唱京剧的电线杆子。王二麻的表哥张三李是一个糙汉子,他前几年在国内混不下去了,一个人去了躺平国。那是一个快乐的国度,每一个人都可以躺平,或者做自己热爱的事情。日常的事物交给特点的躺平机处理。王二麻也想去躺平国,但是在去躺平国的路上需要经历许许多多的困难。 他非常的畏惧。于是...

2020-07-28 16:35:08 1581

原创 我的docker命令小抄

文章目录1. 保存docker容器并重启2. 进入一个容器1. 保存docker容器并重启运维的同学帮忙配置好了一个docker的镜像,但是docker镜像运行的时候没有挂载我想要的目录,这个时候我需要一顿操作来满足我的要求。查看我们需要保存的镜像的CONTAINER IDsudo docker ps -aCONTAINER ID IMAGE ...

2020-07-28 11:39:58 302

原创 什么是Seq2Seq模型

前段在公司做YouTube Dnn模型的复现,然后想在YouTube Dnn里面加一下魔幻的搭配,就去了解了一下Attention。可是很多事情要更详细的了解难免追根溯源。所以,最后回溯到Seq2Seq模型,本篇主要介绍一下Seq2Seq相关的一些内容,为后面的Attention机制的了解做一下铺垫。一般我在了解一个新概念之前会先找一个稍微正经一点的资料,不要被中文资料把自己带跑偏。一般用的是维基百科。什么是Seq2Seq模型维基百科里面关于Seq2Seq的介绍:Seq2seq is a fa

2020-07-28 11:39:31 3219 2

原创 记录腾讯微视面试失败的经历

前段时间猎头给推荐了腾讯微视推荐算法工程师的岗位。Base在深圳,跟猎头沟通说这次他们是专场招聘包括:4轮技术面 + 1轮HR面简历投递之后两天,猎头说小秘书会约面试。在面试之前说一下自己的履历:毕业时间:2018年毕业学历:二本本科职位:互联网公司推荐算法工程师1. 一面电话面然后,突然某个晚上大概7点半左右接到腾讯的电话面试。因为很久没有面试的原因,这一轮的电话面试有一些紧张,语速较快。第一轮面试主要是讲述自己的项目,以及自己认为项目中有哪些点是自己觉得新颖并且突出的点。全程没有c

2020-07-28 11:39:01 1673

原创 通用近似定理

In the mathematical theory of artificial neural networks, the universal approximation theorem states[1] that a feed-forward network with a single hidden layer containing a finite number of neurons can approximate continuous functions on compact subsets of.

2020-07-28 11:38:44 1430

原创 离开的理由

离开的理由人的适应能力是很强的,一个人在一个环境里可以待很久。我从来不怀疑人的适应能力。人对环境的适应能力的强大甚至可以让人感到恐惧。当我们有理由或者下意识地想要停留在一个地方的时候,我们就会停留在这里。如果,我们被动地去适应的话,就永远在适应的过程当中。如果人改变的力量是强大的,那么我为什么不用这个力量来主动地改变呢?以下所以理由的基础都是基于我要改变,而接下来所记录的就是我为什么要改变?我想要追随着自己的想法过完这一生今年,是我的第二个本命年。我24岁,我知道一个人的生活中有很多无奈

2020-07-28 11:38:21 309

原创 模型评估:ROC曲线的绘制和AUC的计算

文章目录混淆矩阵ROC1. 什么是ROCROC和模型的评估1. ROC曲线的绘制2. ROC曲线的具体意义AUCAUC值的含义AUC值的计算资料混淆矩阵在了解ROC之前,我们首先来了解一下混淆矩阵。对于给出的一个二分类问题,在混淆矩阵中:横向表示样本对应的标签正例和负例的真实情况。纵向表示样本对应的标签正例和负例的预测情况。其中:TP: 表示predict为True, label为positive的情况。FP: 表示predict为False, label 为positive

2020-07-28 11:37:49 2903

原创 YouTube DNN在召回上的一些实验记录——负样本的选取

YouTube DNN复现的经验

2020-07-28 11:37:32 1802 4

原创 在RNN里绕蒙圈

在上次Seq2Seq的基础之上,我们聊一下RNN。什么是RNN在了解RNN的具体原理之前,我们先来看一下WIKI对RNN的介绍。A recurrent neural network (RNN) is a class of artificial neural networks where connections between nodes form a directed graph along a temporal sequence. This allows it to exhibit tempora

2020-07-28 11:36:43 249

原创 喂,那个方鸿渐

我不做英雄,那就做个滑头吧!

2020-07-28 11:36:28 263

原创 神奇的成功学法门

一种伟大的向往和企图

2020-07-28 11:36:17 202

原创 LeetCode:516. 最长回文子序列

最长回文子序列给定一个字符串s,找到其中最长的回文子序列。可以假设s的最大长度为1000。示例 1:输入:“bbbab”输出:4一个可能的最长回文子序列为 “bbbb”。示例 2:输入:“cbbd”输出:2一个可能的最长回文子序列为 “bb”。1 解法1:暴搜递归式(沙雕解法)class Solution: def longestPalind...

2020-07-28 11:35:56 332

原创 对于人生的态度,是醒着还是梦着?是面对现实还是逃避?

今天把沈复的《坎坷记愁》读完了。在《坎坷记愁》的最后一段,沈复记录了逢森(陈芸和沈复的儿子)夭者的事情。在这一节的最后一段沈复写道:呜呼!芸仅一子,不得延其嗣续耶?琢堂闻之,亦为之浩叹,赠余一妾,重入春梦。从此扰扰攘攘,又不知梦醒何时耳。《坎坷记愁》以逢森的死作为结尾。然陈芸和沈复还有一女,可是按照当时重男轻女的观念,陈芸依旧不得延嗣。这个世界上和陈芸相关的最重要的联系和明证,也在逢森的死里面断绝。沈复有重新娶了一房小妾,开始新的生活。最后,沈复留下一句:从此扰扰攘攘,又不知梦醒何时耳。

2020-07-28 10:11:25 343 1

hnsw 大规模向量检索

使用hnswlib完成大规模向量检索,一般用于推荐系统中item2item的相似计算,选取物品最近的K个召回结果,相关介绍参考本人博客。

2020-06-23

通信的数学理论.pdf

香农在1948年在《通信的数学理论》里面提出了bit用来计算信息的度量并且提出了香农熵的计算公式,在这将这篇文章分享给大家,关于信息熵的那一部分重要内容,可以参考个人博客,在博客中给出了部分摘录和补充。

2019-12-23

football数据集,带标签

football数据集,如果大家没有积分可以前往http://www-personal.umich.edu/~mejn/netdata/地址下载

2018-04-28

手写字体数据集源码

搭建一个简单的手写字体数据集,并通过tensorboard做可视化处理

2017-06-21

python决策树代码

决策树python代码的简单实现具体可以参考博客

2017-06-14

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除