自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(33)
  • 资源 (1)
  • 收藏
  • 关注

原创 ngrok 1.7搭建报错remote error: tls: bad certificate

ngrok 1.7搭建报错最近重新搭建了一遍ngrok的服务器,参考:https://zhuanlan.zhihu.com/p/33794707由于ngrok v1版本很久都没有维护了,编译完成后,启动时服务端遇到了错误:remote error: tls: bad certificate在网上搜索了半天,有人说是golang版本的问题,将golang版本从1.17降低到1.9后,仍然没有解决。偶然间发现客户端上的日志提示x509: certificate is valid for xxx, not

2021-11-13 14:36:45 4370 2

原创 Transformer并行化训练笔记

最近在看transformer,以及相关的分布式实现,发现有些问题不太明白,顺便记录下,如有错误欢迎大佬指正。在attention的介绍中(http://nlp.seas.harvard.edu/2018/04/03/attention.html),对并行化的训练给出了代码,但没有做详细的介绍,这里仔细的分析下相关代码:# Skip if not interested in multigpu.class MultiGPULossCompute: "A multi-gpu loss comput

2020-09-21 22:52:00 2135

原创 一种垂类作者特征的表示方法

在互联网各大主类的内容平台中,有很多用户专职搬运、或者原创一类视频:有些专供游戏,为游戏用户服务,有些专注食物,教大家做美食、品美食。这些定向产出内容的作者,我们称为垂类作者。一般来讲,一个优质的内容生产者,往往是一个垂类的作者。作为平台的维护和管理者,我们往往需要一种方法来识别一个作者是否是一个垂类作者,对于站外,我们可以邀请这批作者入驻;对于站内,可以为我们挖掘优质作者提供一个有效的特征。这篇文章结合我最近一段时间的工作,阐述我是如何获取YouTube上的垂类作者的。核心目标什么样的作者是垂类作者?

2020-08-30 12:43:53 1197

原创 Wide and Deep应用

Wide and Deep应用– based on Google Analytics Customer Revenue Prediction最近发现一个回归任务,目标是预测谷歌商店的收入(链接),数据是用户在商店中的浏览数据,利用传统的GBDT方式可以做出一定的预测,baseline大约在1.4285(RSME),关于数据的处理和GBDT的训练在此不在赘述,仅记录下利用tensorflow训练wide and deep深度模型的结果。wide and deep 原理deep请大家注意,在deep层

2020-08-30 12:41:52 340

原创 tensorflow下lstm的实践

lstm作为一个优秀的rnn变体,在时间序列的预测中有着优秀的运用。在了解其原理1之后,继续来了解实践中的lstm如何运用。说道LSTM,首先得了解RNN在tensorflow中的基本函数tf.nn.rnn_cell.LSTMCell,相比基本的BasicLSTMCell模块,LSTMCell中有加入一些变种的特性clipping,projection layer,peep-hole等,如果不了解可以保持默认设置。LSTM的基本设置为:tf.nn.rnn_cell.LSTMCell(num_units=

2020-08-29 23:36:36 564

原创 关于聚类类别数k的选择

如何确定聚类的类别个数由适当的阈值确定根据数据点的散布图直观地确定类的个数手肘法,利用核心指标SSE(sum of the squared errors误差平方和)在k增大时下降的斜率来判断,选取下降程度变化由剧烈到平滑的分割点,即肘部SSE=∑i=1k∑p∈Ci∣p−m∣2SSE=\sum_{i=1}^{k}\sum_{p\in C_i}|p-m|^2SSE=i=1∑k​p∈Ci​∑​∣p−m∣2轮廓系数法:轮廓系数(Silhouette Coefficient)结合了聚类的凝聚

2020-08-29 22:03:41 1784

原创 lightGBM的Exclusive Feature Bundling

互斥特征绑定(EFB),可以规约到图着色问题。先说图着色问题:图着色问题(Graph Coloring Problem, GCP)又称着色问题,是最著名的NP-完全问题之一。数学定义:给定一个无向图G=(V, E),其中V为顶点集合,E为边集合,图着色问题即为将V分为K个颜色组,每个组形成一个独立集,即其中没有相邻的顶点。独立集:给一无向图,找出一个点集,使得任意两点之间都没有连边,这个点集就是独立集。ps: 点最多的独立集,就是最大独立集。从图着色的问题来看,给定V,将V划分成K个组,对应到互斥特

2020-08-29 19:00:38 798 1

原创 FM基础

FM的特点:针对稀疏数据也能有效估计;FM复杂度是线性的,计算快;对数据数据没有严格的要求,任意的实数向量都可以。FM详细介绍FM,作为线性回归的拓展,能够挖掘特征与特征之间的联系。大家都知道,线性回归的方程为y=w0+∑i=1nwixiy=w_0+\sum_{i=1}^{n}w_ix_iy=w0​+i=1∑n​wi​xi​其中:n是特征维度,w是特征的权重。度为2的FM的方程为:y=w0+∑i=1nwixi+∑i=1n∑j=i+1n⟨vi,vj⟩xixjy=w_0+\sum_{i=

2020-08-29 18:54:29 593

原创 xgboost相关

xgboost多线程预测的不安全问题xgboost的predict_proba官网上说了,predict_proba是一个多线程不安全的方法,主要是因为预测的一个C++代码内部调用的时候有一个PredLoopSpecalize,里面对openmp的thread_temp变量作为类成员变量,在多线程会被当成公共变量修改。说白了就是有预测的内部变量是公共变量。xgboost特征重要性如何获取特征重要性:booster中有三种获取方式:Importance type can be defined as:

2020-08-29 16:41:57 282

原创 知识累积

知识累积word2vec原理核心:将词变为向量,来源是网络中每个词的参数方法:hierarchic softmax,negative sample训练:逻辑回归+极大似然文本处理方式:CBOW多对一,Skip-gram一对多参考资料:比较详细的说明:https://www.cnblogs.com/peghoty/p/3857839.html我看这个看懂的:http://www.cnblogs.com/pinard/p/7243513.html源码阅读关于Word2vec的c源码,其

2020-08-29 16:41:36 213

原创 RNN的bp

RNN的bp来源:https://zybuluo.com/hanbingtao/note/581764RNN的权重向下层输出的同时,会将权重返回到本层的输入处,和下一次的输入加和RNN只用了一个权重保存节点的状态,LSTM用了两个权重来保存,新加的状态称为单元状态(cell stat)对长程记忆和短程记忆的控制,可以参考LSTM单元来了解:LSTM用三个门来控制数据的流动:f,i,o,其中forget门控制Ct−1到Ct的C_{t-1}到C_t的Ct−1​到Ct​的量,input门控制h

2020-08-29 14:45:00 209

原创 VNC 的使用

之前一直在用teamviwer,可是最近tv毕竟是商业软件,所以我想看看有没有什么免费的远程控制软件,发现之前在树莓派上搭建的vnc还不错于是在每个电脑上装了一个VNC server安装各个平台的软件大同小异,其中linux平台有:tightvnc,vnc4server,realvncwindows平台有:tightvnc,realvncIOS平台我没多看,就下了realvnc的客户端其中realvnc做的比较好,但是免费版只支持5个电脑,我担心出现和teamviwer一样的情况,就用了tigh

2020-08-29 14:44:10 546

原创 Python的多进程多线程整理

Python的多进程多线程整理最近利用python跑多线程的任务,遇到了很多问题,在这里整理一下。第一个问题是在用from multiprocessing.dummy import Pool的线程池时发现的,有这样一个程序:from multiprocessing.dummy import Poolimport threadclass A(): def __init__(self,i): # super(A, self).__init__() self.

2020-08-29 14:42:44 130

原创 python的unicode、str、byte的关系

目录python的unicode、str、byte的关系Python3中的编码方式总结python3的特点**str表示字符串,byte表示字节串**Python2中的编码方式Python2的隐式转换总结python2的特点奇特的unicode_escape与string_escape总结python的unicode、str、byte的关系作为一个用惯了python3的人,在python2如此操蛋的编码问题中,不得不整理一下python2中字符串和字节串之间的关系。先说一个原理,python中字节串可

2020-08-28 23:27:02 953

原创 attention笔记

在看attention is all you need这篇论文时,对其中的描述理解不透彻,结合代码,详细的跑下整体的流程,总结了几个问题,记录下来。为什么attention在Q∗KTQ*K^TQ∗KT之后需要除一个dk\sqrt{d_k}dk​​?attention有加法atttention(NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE, 2014):、点乘attention,其中,点乘的效率要高于加法

2020-07-01 13:53:33 942

原创 腾讯广告算法大赛2020

搭了个架子,有训练和上传代码,baseline 0.8https://github.com/lkjie/txad20

2020-05-09 16:55:49 3447 3

原创 利用N2N内网穿透,并实现直连

利用N2N内网穿透,并实现直连简介在内网穿透中,N2N做为一个点对点的穿透工具,非常适合用来远程办公。原版的n2n github地址为:https://github.com/ntop/n2n,一个较好的维护版本是:https://github.com/meyerd/n2n。n2n设计的初衷,是为了通过中心节点的牵线搭桥,建立连接以后,不再依靠中心节点的帮助,让连接的两端直接通讯,此种状态叫住...

2019-04-24 20:11:42 17533 1

原创 超微主板BIOS Product key IPMI LICENSE

这里写自定义目录标题超微主板BIOS Product key IPMI LICENSE超微主板BIOS Product key IPMI LICENSE最近入手了一块超微: X9DRI-LN4F+的主板,在利用IPMI管理服务器的时候,发现里面有个Bios更新的功能,但是需要Product key,同时超微推出了一款软件Supermicro Update Manager (SUM)来管理bio...

2019-04-22 11:57:56 10632 1

原创 自编码器python实现

自编码器自编码器是一种非常通用的神经网络工具。主要思想是通过一个编码器,将原始信息编码为一组向量,然后通过一个解码器,将向量解码为原始数据。通过衡量输入与输出的差别,来对网络参数进行训练。主要可以用来进行信息压缩。最进在了解GAN方向的应用,发现很多GANs类似与自编码器的思想,在条件GAN中,生成器类似于自编码器中的解码器。都是通过给定一组输入,来得到相应的图片。我比较好奇自编码器产生的编码...

2019-04-15 11:53:51 6273 10

原创 P106魔改1060

P106魔改1060也是最近听到这个消息说矿渣P106能改成1060,于是手痒痒就入了一块准备试试,如果不行还可以跑跑伸进网络。原理大概就是改掉n卡驱动的inf文件,让P106能适配,然后在win10 1803版本系统中利用核显输出画面,P106做图形计算。下面仔细说下教程:安装教程首先把主板显示输出设定为核显优先,然后把P106插到主板上,开机把系统上的N卡驱动卸载干净,这一步需要下载...

2018-12-14 12:25:56 29769 3

原创 论文翻译小工具

因为自己在看论文,同时需要翻译,但是论文里面的换行实在是太蛋疼了,于是写了个小工具帮助自己提高看论文的效率,各位老哥需要的也可以用用https://github.com/lkjie/paper-translation复制了论文到剪切板就能出结果...

2018-11-06 16:33:27 1853

原创 SVD的数学解释,We Recommend a Singular Value Decomposition

http://www.ams.org/samplings/feature-column/fcarc-svd

2017-06-28 17:43:20 323

原创 oracle名词解释

用户和模式表和表空间实例和数据库实例名和服务名1.SID:一个数据库可以有多个实例(如RAC),SID是用来标识这个数据库内部每个实例的名字,就好像一个部门里,每个人都有一个自己的名字。2.SERVICE_NAME:是这个数据库对外宣称的名字,外面的人要想连接我这个数据库,你就在客户端的连接串里写上service_name。它就像一个部门的名字,

2016-12-13 14:34:05 1138

转载 linux bash的$ !

$0           当前shell程序的名字$1 ~ $9   命令行上的第一到第九个参数$#           命令行上的参数个数$*           命令行上的所有参数$@         分别用双引号引用命令行上的所有参数$$           当前进程的进程标识号(PID)$?           上一条命令的退出状态$

2016-05-09 15:40:37 493

原创 ssh 免密码登陆仍要密码的解决方法

~/.ssh权限设置为700chmod 700 ~/.ssh~/.ssh/authorized_keys的权限设置为600chmod 600~/.ssh/authorized_keys这是linux的安全要求,如果权限不对,自动登录将不会生效

2016-05-09 14:39:14 455

原创 synchronized 在单例singleton模式中的应用

在单例模式中:double checked locking模式下做同步需要锁住代码段方法如下:public static DoubleCheckSingleton getInstance(){    if(instance == null){        synchronized(DoubleCheckSingleton.class){            if(ins

2016-04-01 10:55:13 507

原创 Intellij IDEA 使用小技巧

foreach循环 tab快速代码补全iter Iterate (for each..in) itin Iterate (for..in) itli Iterate over a Listitar Iterate elements of array ritar Iterate elements of array in reverse order

2016-03-24 13:26:52 499

转载 Git怎样撤销一次分支的合并Merge

最近用git,merge之后写的代码全没了,瞬间懵逼,找到这个解决办法,靠谱,先记下来如果确定放弃这次合并的提交,假如是 merge 了错误的分支到 master,先通过 git reflog 或者 gitg、gitk、qgit 等工具确定你 merge 之前 master 所在的 commit,然后在 master 分支上使用 git reset --hard  重置头指针。

2016-03-24 13:24:00 15616

转载 c语言 圆周率代码

01: #include 02: 03: const int DIGITS = 2400; // must: DIGITS % LEN == 004: const int BASE = 10000; // BASE == 10 ** LEN05: const int LEN = 4;06: const int TIMES = 14;07: 08: int

2016-03-14 23:06:44 3001

原创 【scrapy】使用记录

CREATE TABLE po (`id` INT(11) UNSIGNED NOT NULL AUTO_INCREMENT ,`title` VARCHAR(100) NULL,`origin` VARCHAR(20) NULL,`posttime` TIMESTAMP(14) NULL DEFAULT 0,`pulltime` TIMESTAMP(14) NULL DEFA

2016-02-28 15:51:14 370

原创 【scrapy】xpath

想要爬取一个网站,这个网站的不同网页的正文部分的xpath是不一样的,比如: 有个页面的正文部分是://*[@id='postmessage_32199'] 另一个是://*[@id='postmessage_32153'] ...... 它们的格式是postmessage_xxxxx,x为数字。我的问题是:xpath中可以使用用正则表达式吗?如果不能那怎么匹配这么多不同的xpath?ps

2016-02-28 15:50:05 675

转载 WHAT IS ILT(INCREMENTAL LINK TABLE)?

http://mocheng.wordpress.com/2006/07/17/what-is-ilt%EF%BC%88incremental-link-table/WHAT IS ILT(INCREMENTAL LINK TABLE)?07月 17, 2006, 9:49 am Filed under: 技术体会这两天研究了一下DLL的import/export原理,

2014-09-23 22:56:47 592

转载 SQL Server 2008 R2 安装出错:Could not open key

安装Sql Server 2008 R2 企业版出现错误提示无法继续安装,错误提示为: Could not open key: UNKNOWN\Components\7ABFE44842C12B390AF18C3B9B1A1EE8\000021599B0090400100000000F01FEC. Verify that you have sufficient access to that

2013-11-23 14:51:01 4043 1

《最优化理论与算法》(第2版)-陈宝林

《最优化理论与算法》(第2版)-陈宝林

2016-11-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除