cyong888-CSDN博客

原创 awk 合并2个文件

awk 'NR==FNR{a[$1]=$1;next} {if($1 in a){}else {print $0}}' positive_have_feature_md5oaid_18w.txt positive_data_19w.txt.md5.result >positive_not_have_feature.txt

2024-04-08 18:12:51 62

原创 hive 字段是sting，string中存储的是一个json数组，如何解析

其中：__items 是string类型，里面存储的内容是 json字符串数组。

2023-07-14 17:30:42 187

原创用户增长的道与术

1）首先计算真实的cpc，看看是不是 cpc提高了，理论上cpc会提高的，如果不提高可能要查一下是哪里的问题。1.2 如果提高了出价，量级也提升了，但是cac 没有提高或者反而降低了是因为什么？2）提升ctcvr（为什么不是cvr，因为提高出价，可能会影响ctr）2）计算真实cvr。大概率此时cvr 提高了。因为 cac = cpc/cvr。1.base 是cpc出价。1.1 想提升量级方法。

2023-06-16 20:51:24 94

原创 shell find xargs grep 用法

查查当前目录下所有 python中，包含 “pack_item_attr”的python 文件。

2023-05-22 09:53:54 141

主要是用来根据用户价值、人群划分定向等的判断，决定是拒投还是出价几倍(base值无法决定）。广告内容和广告素材都是媒体测决定。当然广告素材(广告关键词、广告创意、图片)等，是可以提前离线的上传到媒体测的平台的。主要是：自己来预估 CTR，CVR，来给出出价的金额。rtb的结算可以是：cpm(主要)\cpc，不可以是cpa。rta的结算可以是：cpa、cpm、cpc。输出是：出价具体金额、广告素材等。RTB：输入是：设备\oadi + 广告位。RTA：输入是：设备id\oaid等。...

2022-08-17 17:16:44 1787

原创 Tensorflow.keras 常用方法总结

1.tensor连接tensorflow.keras.layers.Concatenate。2.全链接tensorflow.keras.layers.Dense。

2022-08-01 11:06:16 231

原创 tensorflow-keras-Concatenate的理解

由于每个数组都是一维度，所以合并应该用axis=-1或者axis=0，不然就报错。tensorflow.keras.layers.Concatenate的理解。这个是做两个数组的合并，到底是合并那一列？axis=-1表示倒数第一维。axis=0表示第一维度。......

2022-08-01 09:54:22 899

原创 python- numpy中的shape的理解

shape

2022-08-01 09:39:47 1044

原创 pandas-处理csv常用命令

1.读取文件的前2列并导出import pandas as pdcampaign_df = pd.read_csv('all.csv', sep='\t', encoding='gb18030')campaign_df.head()#查看第一列的相信信息campaign_df.iloc[0]#只看其中2列df = campaign_df[['campaignId', 'campaignName']]#导出df.to_csv('tmp.csv', header=False, i

2021-10-21 16:44:15 295

原创 xgboost 和 gbdt的对比

xgboost 是gbdt的具体实现方案之一1.gbdt的损失函数：1.1 回归损失函数：均方损失函数、绝对值损失函数、huber损失函数（是均方损失函数和绝对值损失函数的折中）、分位数损失函数1.2 分类损失函数：对数损失函数、指数损失函数指数损失函数又分：二元分类和多元分类2.gbdt的正则化：2.1 学习率，learning rate 在0到1之间2.2 采样比例：subsample 取值范围是（0，1], 采样是无放回的采样，一般取值（0.5，0.8）.子采样是为

2021-01-25 15:25:25 2103

原创 pytorch常用的函数

1.nn.Linear 全连接https://www.jianshu.com/p/c6eabe6f69b12. nn.Conv2d 卷积https://blog.csdn.net/sunny_xsc1994/article/details/82969867https://www.jianshu.com/p/45a26d2784733.nn.MaxPool1d

2021-01-07 12:32:40 104

原创 textcnn 的例子用 Pytorch

1. 抽取训练数据和验证集 5：12. 生产词表：0 开始；同时统计每个句子的term数量3. kernel_size= {2,3,4} 就是3个模板，分布式 2* n,3 *n, 4*n4.kernel_num 是卷积输出channel数

2021-01-04 16:28:00 200

原创团-搜索-面20201230

团-搜索-面文本分类：样本失衡，如何解决focalloss的原理是什么?具体使用如何做？向量召回：一般有哪些方法？facebook的 faiss的原理是什么？bert 为什么比lstm好？selfattention的原理bert 比 transform还多哪些东西？完形填空部分，训练的是什么？...

2020-12-31 11:19:19 80

原创美团外卖/滴滴20201225面试

1. ANN的原理，即向量召回的原理2. gbdt的原理，最好能涉及到公式的维度3. gbdt 如何优化变快4.

2020-12-25 19:05:07 127

原创 kuai手搜索广告面试题20201214

1. 数组的排列组合输出，譬如数组的值为123，那么输出为：123 132 213 231 321 3122. 编辑距离的算法这个要用到动态规划，需要多看看3. Top K的问题，当有一个数组里面有很多值N个，我希望选出top K个值。 3.1 思路先排序，这样可以，不过时间复杂度很高 3.2 建立小堆。 3.2.1 给N个值建立小堆，此时时间复杂度是 K * logN。 3.2.2 给前面K个值建立小堆，然后 N-K的数字依次进入这个小堆，...

2020-12-15 16:52:28 145

原创 2020-数据挖掘面试题

1. 大数据方向1.1 hive 的技巧：小表放在前面，大表放在后面，这叫 mapjoin，与其对应的是 common join1.2 当出现数据倾斜，怎么解决 a.出现数据倾斜的原因：在map阶段相同的key 会放在一个reducer中，此时可以说一下 shuffle b.如何解决？可以通过增加随机数，让相同的key 分配到不同的reduce上；也可以通过其它方法https://blog.csdn.net/anshuai_aw1/article/deta...

2020-11-30 18:14:45 104

原创 GBDT的使用例子

1.需要按照numpy 和 sklearn，安装的时候会有各种包的依赖。建议安装 anaconda3，这样就全部安装好了。安装地址：https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/2.python3的代码如下（和python2差不多）3.训练速度特别快，100W的训练数据不到5分钟。# -*- coding:utf-8 -*-import numpy as npimport codecsimport picklefrom skl.

2020-06-10 10:18:45 1205

原创二叉树的左视图-Python

import Queueclass TreeNode(): def __init__(self,value,leftNode=None,rightNode=None): self.value = value self.leftNode = leftNode self.rightNode = rightNode1个问句 TreeView....

2020-01-19 17:51:11 521 1

原创二叉树的左视图-java

问题描述：二叉树，从左边看，输出从左边看到的节点。二叉树的左视图两个java类1.TreeNode.javapublic class TreeNode {int val;TreeNode left;TreeNode right;TreeNode(int x){ this.val = x;}}2.Views.javapublic class Views...

2020-01-19 16:06:56 937

原创 Nlp面试题-互联网

微信，头条，快手的nlp面的问题1 lstm 是为了解决rnn的什么问题而提出的，他是如何解决的？2 模型优化器都有哪些？最好的是哪个？它好在哪里？ Adam 动态调节学习率3 序列标注里面的 crf是用来干嘛的？它的作用是什么？它是为了解决哪一类case 而出现的？4 loss ，尝试过修改loss 吗？5 attention的原理是什么？它学的是什么？...

2020-01-09 22:47:08 389

原创 GPU查看几个卡在运行

nvidia-smi -l

2019-12-23 17:25:19 1731

原创 Linux cat file |python a.py 乱码

当cat 文件进入python程序的时候，出现乱码问题时：vi /etc/profile在最底层加入：export LANG="C.UTF-8"

2019-12-23 16:23:53 426

原创深度模型包括什么

深度模型=模型结构+优化器+损失函数+超参

2019-12-21 08:43:25 606

原创 LR推导

GHPL

2019-12-03 11:22:13 84

原创 dnn反向传播推导

手工推导如下

2019-10-10 16:33:03 124

原创 python中module和class的区别

在python里面经常会出现 module_name 和 class_name其实区别很简单module_name 就是python文件的名字在python文件里面可以定义多个 class，当然大多数其实只定义一个。所以 module 和 class的关系是从属的关系，同时 module:class = 1:n...

2019-09-04 16:44:12 4371

原创正则化-L1-L2

为了防止训练的模型过拟合，则提出了一种结局办法，就是损失函数里面加入正则化正则化有2个：L1 = ||Wj|| 相加L2=||Wj的平方||相加对比：1.L1容易产生稀疏矩阵，所谓参数变得更稀疏是指会有更多的参数变为0，这样可以达到类似特征选取的功能2.L1 不可导，计算更复杂；L2可导，计算更加简洁。在实践中，这两个可以一起使用...

2019-07-16 17:49:21 98

原创机器学习常见的损失函数

1.均方差MSE主要用于回归问题。2.交叉熵损失函数 L = -(y*log(y) + (1-y)* log(1-y)) 主要用于：分类问题。它是分类问题中使用比较广的一种损失函数，因为交叉熵刻画了2个概率分布之间的距离。主要用于神经网络，在计算梯度的时候，如果用平方差后面会非常缓慢的去收敛...

2019-07-12 20:26:13 183

原创复杂的shell脚本

for i in `ls -al|grep "6019"|grep -E "^d" |awk '{print $NF}'`;do echo $i;cat $i/final_result_combine/100.pass.result >>ff.log;done;awk -F"\t" '{print $2}' ff.log |awk '!a[$0]++' > all_zhidao_...

2019-07-05 11:37:24 1038

原创模型学习的套路

我的学习套路(lstm做文本分类为例)0. 下载github代码git clone gihub地址先把代码下载到本地1. 数据有哪些？2. 目标有哪些？3. 数据input 是什么样的，一个batch 怎么获取。3.1 数据预处理：其实就是切词形成高频词表，把停用词去掉。3.2 把训练数据顶一个最长的长度限制，超过截取。然后把每个句子变成词典id序列。同时把每个词(te...

2019-07-03 17:58:41 126

原创 bert参数-max_seq_length的含义解释

bert里面有个max_seq_length。就是字数的个数在bert里面的函数 _truncate_seq_pair增加了 tokens_a 和 tokens_b的length函数发现：1.当len(tokens_a) + len(tokens_b)> max_seq_length：会循环：把长度大的那个截断一个字符，指导小于。2.汉字算一个，英文的话，一个单词算一个，一个...

2019-07-01 16:53:26 13454 2

原创 hive里面的 null 和空

hive里面的 null 和空是两个不同的东西如果想查某个字段 a 不为空或者 null应该这样写： a is not null and a

2017-06-12 11:03:22 1222

原创 linux 上自动生成wget地址的脚步

function wpwd {mname=$(uname -a|awk -F" " '{print $2}')pdir=$(pwd)echo 'wget '${mname}':'${pdir}'/'$1}把上面这个增加到 ~/.bashrc 中然后 source ~/.bashrc

2017-06-02 16:07:47 1098

原创 HIVE的一些常用命令和语法

1.当某表中的字段里面是NULL，null，空格时候，如何查询 name is null 表示：NULL

2014-10-22 16:23:25 442

原创 Hive 命令

1. hive - e “select * from A where createtime>='2014-09-22' ”2.desc tablename 查看表结构3.show tables like '*user*' 查找到包含user的table

2014-09-22 18:28:52 408

转载 Java构造和解析Json数据的两种方法详解一

Java构造和解析Json数据的两种方法详解一在www.json.org上公布了很多JAVA下的json构造和解析工具，其中org.json和json-lib比较简单，两者使用上差不多但还是有些区别。下面首先介绍用json-lib构造和解析Json数据的方法示例。用org.son构造和解析Json数据的方法详解请参见我下一篇博文：Java构造和解析Json数据的两种

2014-09-02 11:19:42 454

转载 Java构造和解析Json数据的两种方法详解二

Java构造和解析Json数据的两种方法详解二在www.json.org上公布了很多JAVA下的json构造和解析工具，其中org.json和json-lib比较简单，两者使用上差不多但还是有些区别。下面接着介绍用org.json构造和解析Json数据的方法示例。用json-lib构造和解析Json数据的方法详解请参见我上一篇博文：Java构造和解析Jso

2014-09-02 11:19:12 1604

原创 Http状态代码

200 ok 成功201 created 已创建204 No Content 没有内容304

2014-08-28 20:17:07 380

转载使用Gson进行json数据转换（list to json 和json to list）

哇，原来我已经潜水2年多了，还是需要养成习惯写写东西啊。最近在做一个java web service项目，需要用到jason，本人对java不是特别精通，于是开始搜索一些java平台的json类库。发现了google的gson，因为之前对于protocolbuf有一些了解，带着一些好奇心，我开始使用了gson。经过比较，gson和其他现有java json类库最大的不同时gson需要序

2014-05-16 13:59:31 565

原创单点登录 sso 免费产品CAS

CAS

2014-05-05 14:52:01 2557

json2.js文件

json2.js 将对象JSON化： JSON.stringify(value, [replacer], [space]) 例子： $(document).ready(function () { $("#update").click(function () { var employee = { EmployeeName: $("#EmployeeName").val(), Address: $("#Address").val() }; $.ajax({ url:"/Employee/Edit", type: "POST", data:JSON.stringify(employee), dataType:"json", contentType:"application/json;charset=utf-8", success:function(){$("#message").html("Employee Saved").fadeIn();}, error:function(){$("#message").html("Error Occurred").fadeIn();} }); return false; }); });//end ready

2014-03-05

经典JAVA EE企业应用实战基于WEBLOGIC JBOSS的JSF+EJB 3+JPA整合开发

经典JAVA EE企业应用实战基于WEBLOGIC JBOSS的JSF+EJB 3+JPA整合开发 PDF 书籍本书介绍了Java EE规范的三大主要规范JSF、EJB 3和JPA，其中JSF是Sun公司提供的JSF RI；EJB 3部分则包含Session Bean、Message Driven Bean的详细介绍。本书内容主要包括三部分，第一部分介绍Java EE开发的基础知识，以及如何搭建开发环境；第二部分详细讲解了JSF RI、EJB 3的Session Bean等Java EE知识；第三部分提供了一个JSF+EJB 3+ JPA整合开发的项目：电子拍卖系统。

2014-02-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人