自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(105)
  • 资源 (4)
  • 收藏
  • 关注

原创 awk 合并2个文件

awk 'NR==FNR{a[$1]=$1;next} {if($1 in a){}else {print $0}}' positive_have_feature_md5oaid_18w.txt positive_data_19w.txt.md5.result >positive_not_have_feature.txt

2024-04-08 18:12:51 62

原创 hive 字段是sting,string中存储 的是 一个json数组,如何解析

其中:__items 是string类型,里面存储的内容是 json字符串数组。

2023-07-14 17:30:42 187

原创 用户增长的道与术

1)首先计算真实的cpc,看看是不是 cpc提高了,理论上cpc会提高的,如果不提高可能要查一下是哪里的问题。1.2 如果提高了出价,量级也提升了,但是cac 没有提高或者反而降低了是因为什么?2)提升ctcvr(为什么不是cvr,因为提高出价,可能会影响ctr)2)计算真实cvr。大概率此时cvr 提高了。因为 cac = cpc/cvr。1.base 是cpc出价。1.1 想提升量级方法。

2023-06-16 20:51:24 94

原创 shell find xargs grep 用法

查查当前目录下所有 python中,包含 “pack_item_attr”的python 文件。

2023-05-22 09:53:54 141

原创 RTA和RTB的区别

主要是用来根据 用户价值、人群划分定向等的判断,决定是拒投 还是 出价 几倍(base值无法决定)。广告内容和广告素材 都是媒体测决定。当然 广告素材(广告关键词、广告创意、图片)等,是可以提前 离线的 上传到 媒体测的平台的。主要是:自己来预估 CTR,CVR,来给出出价的金额。rtb的结算可以是:cpm(主要)\cpc,不可以是cpa。rta的结算可以是:cpa、cpm、cpc。输出是:出价具体金额、广告素材等。RTB:输入是:设备\oadi + 广告位。RTA:输入是:设备id\oaid等。...

2022-08-17 17:16:44 1787

原创 Tensorflow.keras 常用方法总结

1.tensor连接tensorflow.keras.layers.Concatenate。2.全链接tensorflow.keras.layers.Dense。

2022-08-01 11:06:16 231

原创 tensorflow-keras-Concatenate的理解

由于每个数组都是一维度,所以合并应该用axis=-1或者axis=0,不然就报错。tensorflow.keras.layers.Concatenate的理解。这个是做两个数组的合并,到底是合并那一列?axis=-1表示倒数第一维。axis=0表示第一维度。......

2022-08-01 09:54:22 899

原创 python- numpy中的shape的理解

shape

2022-08-01 09:39:47 1044

原创 pandas-处理csv常用命令

1.读取文件的前2列并导出import pandas as pdcampaign_df = pd.read_csv('all.csv', sep='\t', encoding='gb18030')campaign_df.head()#查看第一列的相信信息campaign_df.iloc[0]#只看其中2列df = campaign_df[['campaignId', 'campaignName']]#导出df.to_csv('tmp.csv', header=False, i

2021-10-21 16:44:15 295

原创 xgboost 和 gbdt的对比

xgboost 是gbdt的具体实现方案之一1.gbdt的损失函数:1.1 回归损失函数: 均方损失函数、绝对值损失函数、huber损失函数(是均方损失函数 和 绝对值损失函数的折中)、分位数损失函数1.2 分类损失函数:对数损失函数、指数损失函数指数损失函数又分:二元分类和 多元分类2.gbdt的正则化:2.1 学习率,learning rate 在0到1之间2.2 采样比例:subsample 取值范围是(0,1], 采样是无放回的采样,一般取值(0.5,0.8).子采样是为

2021-01-25 15:25:25 2103

原创 pytorch常用的函数

1.nn.Linear 全连接https://www.jianshu.com/p/c6eabe6f69b12. nn.Conv2d 卷积https://blog.csdn.net/sunny_xsc1994/article/details/82969867https://www.jianshu.com/p/45a26d2784733.nn.MaxPool1d

2021-01-07 12:32:40 104

原创 textcnn 的例子 用 Pytorch

1. 抽取训练数据 和 验证集 5:12. 生产词表:0 开始 ;同时统计每个句子的term数量3. kernel_size= {2,3,4} 就是3个模板,分布式 2* n,3 *n, 4*n4.kernel_num 是卷积输出channel数

2021-01-04 16:28:00 200

原创 团-搜索-面20201230

团-搜索-面文本分类:样本失衡,如何解决focalloss的原理是什么?具体使用如何做?向量召回 :一般有哪些方法?facebook的 faiss的原理是什么?bert 为什么比lstm好?selfattention的原理bert 比 transform还多哪些东西?完形填空部分,训练的是什么?...

2020-12-31 11:19:19 80

原创 美团外卖/滴滴20201225面试

1. ANN的原理,即向量召回的原理2. gbdt的原理,最好能涉及到公式的维度3. gbdt 如何优化变快4.

2020-12-25 19:05:07 127

原创 kuai手搜索广告面试题20201214

1. 数组的排列组合输出,譬如数组的值为123,那么输出为:123 132 213 231 321 3122. 编辑距离的算法 这个要用到 动态规划,需要多看看3. Top K的问题,当有一个数组 里面有很多值N个,我希望选出top K个值。 3.1 思路 先排序,这样可以,不过时间复杂度很高 3.2 建立小堆。 3.2.1 给N个值建立 小堆,此时时间复杂度是 K * logN。 3.2.2 给前面K个值建立小堆,然后 N-K的数字依次进入这个小堆,...

2020-12-15 16:52:28 145

原创 2020-数据挖掘面试题

1. 大数据方向1.1 hive 的技巧: 小表放在前面,大表放在后面,这叫 mapjoin,与其对应的是 common join1.2 当出现 数据倾斜,怎么解决 a.出现数据倾斜的原因: 在map阶段相同的key 会放在一个reducer中,此时可以说一下 shuffle b.如何解决? 可以通过增加随机数,让相同的key 分配到不同的reduce上;也可以通过其它方法https://blog.csdn.net/anshuai_aw1/article/deta...

2020-11-30 18:14:45 104

原创 GBDT的使用例子

1.需要按照numpy 和 sklearn,安装的时候会有各种包的依赖。建议安装 anaconda3,这样就全部安装好了。安装地址:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/2.python3的代码如下(和python2差不多)3.训练速度特别快,100W的训练数据不到5分钟。# -*- coding:utf-8 -*-import numpy as npimport codecsimport picklefrom skl.

2020-06-10 10:18:45 1205

原创 二叉树的左视图-Python

import Queueclass TreeNode(): def __init__(self,value,leftNode=None,rightNode=None): self.value = value self.leftNode = leftNode self.rightNode = rightNode1个问句 TreeView....

2020-01-19 17:51:11 521 1

原创 二叉树的左视图-java

问题描述:二叉树,从左边看,输出从左边看到的节点。二叉树的左视图两个java类1.TreeNode.javapublic class TreeNode {int val;TreeNode left;TreeNode right;TreeNode(int x){ this.val = x;}}2.Views.javapublic class Views...

2020-01-19 16:06:56 937

原创 Nlp面试题-互联网

微信,头条,快手的nlp面的问题1 lstm 是为了解决rnn的什么问题而提出的,他是如何解决的?2 模型优化器 都有哪些?最好的是哪个?它好在哪里? Adam 动态调节学习率3 序列标注里面的 crf是用来干嘛的?它的作用是什么?它是为了解决哪一类case 而出现的?4 loss ,尝试过修改loss 吗?5 attention的原理是什么?它学的是什么?...

2020-01-09 22:47:08 389

原创 GPU查看几个卡在运行

nvidia-smi -l

2019-12-23 17:25:19 1731

原创 Linux cat file |python a.py 乱码

当cat 文件进入python程序的时候,出现乱码问题时:vi /etc/profile在最底层加入:export LANG="C.UTF-8"

2019-12-23 16:23:53 426

原创 深度模型包括什么

深度模型=模型结构+优化器+损失函数+超参

2019-12-21 08:43:25 606

原创 LR推导

GHPL

2019-12-03 11:22:13 84

原创 dnn反向传播推导

手工推导如下

2019-10-10 16:33:03 124

原创 python中module和class的区别

在python里面经常会出现 module_name 和 class_name其实区别很简单module_name 就是python文件的名字在python文件里面可以定义多个 class,当然大多数其实只定义一个。所以 module 和 class的关系是从属的关系,同时 module:class = 1:n...

2019-09-04 16:44:12 4371

原创 正则化-L1-L2

为了防止训练的模型过拟合,则提出了一种结局办法,就是损失函数里面加入正则化正则化有2个:L1 = ||Wj|| 相加L2=||Wj的平方||相加对比:1.L1容易产生稀疏矩阵,所谓参数变得更稀疏 是指会有更多的参数变为0,这样可以达到类似特征选取的功能2.L1 不可导,计算更复杂;L2可导,计算更加简洁。在实践中,这两个可以一起使用...

2019-07-16 17:49:21 98

原创 机器学习常见的损失函数

1.均方差MSE主要用于回归问题。2.交叉熵损失函数 L = -(y*log(y) + (1-y)* log(1-y)) 主要用于:分类问题。它是分类问题中使用比较广的一种损失函数,因为 交叉熵刻画了2个概率分布之间的距离。 主要用于神经网络,在计算梯度的时候,如果用平方差后面会非常缓慢的去收敛...

2019-07-12 20:26:13 183

原创 复杂的shell脚本

for i in `ls -al|grep "6019"|grep -E "^d" |awk '{print $NF}'`;do echo $i;cat $i/final_result_combine/100.pass.result >>ff.log;done;awk -F"\t" '{print $2}' ff.log |awk '!a[$0]++' > all_zhidao_...

2019-07-05 11:37:24 1038

原创 模型学习的套路

我的学习套路(lstm做文本分类为例)0. 下载github代码git clone gihub地址先把代码下载到本地1. 数据有哪些?2. 目标有哪些?3. 数据input 是什么样的,一个batch 怎么获取。3.1 数据预处理:其实就是 切词形成高频词表,把停用词去掉。3.2 把训练数据顶一个最长的长度限制,超过截取。然后把每个句子变成词典id序列。同时把每个词(te...

2019-07-03 17:58:41 126

原创 bert参数-max_seq_length的含义解释

bert里面有个max_seq_length。就是字数的个数在bert里面的函数 _truncate_seq_pair增加了 tokens_a 和 tokens_b的length函数发现:1.当len(tokens_a) + len(tokens_b)> max_seq_length:会循环:把长度大的那个截断一个字符,指导小于。2.汉字算一个,英文的话,一个单词算一个,一个...

2019-07-01 16:53:26 13454 2

原创 hive里面的 null 和 空

hive里面的 null 和 空 是两个不同的东西如果想 查某个字段 a 不为空或者 null应该这样写: a  is not null and a

2017-06-12 11:03:22 1222

原创 linux 上 自动生成wget地址的脚步

function wpwd {mname=$(uname -a|awk -F" " '{print $2}')pdir=$(pwd)echo 'wget '${mname}':'${pdir}'/'$1}把上面这个增加到 ~/.bashrc 中然后 source ~/.bashrc

2017-06-02 16:07:47 1098

原创 HIVE的一些常用命令和语法

1.当某表中的字段里面是NULL,null,空格时候,如何查询   name is null 表示:NULL

2014-10-22 16:23:25 442

原创 Hive 命令

1. hive - e “select * from A where createtime>='2014-09-22' ”2.desc tablename   查看表结构3.show tables like '*user*'  查找到 包含user的table

2014-09-22 18:28:52 408

转载 Java构造和解析Json数据的两种方法详解一

Java构造和解析Json数据的两种方法详解一      在www.json.org上公布了很多JAVA下的json构造和解析工具,其中org.json和json-lib比较简单,两者使用上差不多但还是有些区别。下面首先介绍用json-lib构造和解析Json数据的方法示例。      用org.son构造和解析Json数据的方法详解请参见我下一篇博文:Java构造和解析Json数据的两种

2014-09-02 11:19:42 454

转载 Java构造和解析Json数据的两种方法详解二

Java构造和解析Json数据的两种方法详解二         在www.json.org上公布了很多JAVA下的json构造和解析工具,其中org.json和json-lib比较简单,两者使用上差不多但还是有些区别。下面接着介绍用org.json构造和解析Json数据的方法示例。      用json-lib构造和解析Json数据的方法详解请参见我上一篇博文:Java构造和解析Jso

2014-09-02 11:19:12 1604

原创 Http状态代码

200 ok 成功201 created 已创建204 No Content 没有内容304

2014-08-28 20:17:07 380

转载 使用Gson进行json数据转换(list to json 和json to list)

哇,原来我已经潜水2年多了,还是需要养成习惯写写东西啊。最近在做一个java web service项目,需要用到jason,本人对java不是特别精通,于是开始搜索一些java平台的json类库。发现了google的gson,因为之前对于protocolbuf有一些了解,带着一些好奇心,我开始使用了gson。经过比较,gson和其他现有java json类库最大的不同时gson需要序

2014-05-16 13:59:31 565

原创 单点登录 sso 免费产品CAS

CAS

2014-05-05 14:52:01 2557

json2.js文件

json2.js 将对象JSON化: JSON.stringify(value, [replacer], [space]) 例子: $(document).ready(function () { $("#update").click(function () { var employee = { EmployeeName: $("#EmployeeName").val(), Address: $("#Address").val() }; $.ajax({ url:"/Employee/Edit", type: "POST", data:JSON.stringify(employee), dataType:"json", contentType:"application/json;charset=utf-8", success:function(){$("#message").html("Employee Saved").fadeIn();}, error:function(){$("#message").html("Error Occurred").fadeIn();} }); return false; }); });//end ready

2014-03-05

经典JAVA EE企业应用实战基于WEBLOGIC JBOSS的JSF+EJB 3+JPA整合开发

经典JAVA EE企业应用实战基于WEBLOGIC JBOSS的JSF+EJB 3+JPA整合开发 PDF 书籍 本书介绍了Java EE规范的三大主要规范JSF、EJB 3和JPA,其中JSF是Sun公司提供的JSF RI;EJB 3部分则包含Session Bean、Message Driven Bean的详细介绍。本书内容主要包括三部分,第一部分介绍Java EE开发的基础知识,以及如何搭建开发环境;第二部分详细讲解了JSF RI、EJB 3的Session Bean等Java EE知识;第三部分提供了一个JSF+EJB 3+ JPA整合开发的项目:电子拍卖系统。

2014-02-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除