xzx1232010-CSDN博客

原创 docker + tensorflow serving + tensorflow-gpu jupyter 部署

1.在此记录下测试步骤，方便以后查询，tensorflow serving可以解决模型生产部署问题，在使用之前先安装docker，参考官方文档安装即可，如果需要使用gpu的话，还得安装nvidia-docker，且tensorflow serving的镜像得是对应cuda的版本，例如tensorflow serving:1.12.0-gpu对应最高的cuda版本是9，cudnn版本为7；2.d...

2019-11-13 16:24:27 511

原创 pyspark在pycharm、spyder的配置

1.在mac中，pycharm配置anconda环境。在python解释器选择system interpreter，不要选择第二个conda，因为在安装conda时，已经修改系统的默认python环境。解释器路径选择下图所示的那个。2.在pycharm配置pyspark环境。在“Edit Configurations”中的环境变量中添加两个路径，记得pip install py4j，不然会...

2019-09-05 14:44:19 1191

原创 ubuntu 搭建外部smtp发送邮件及在阿里云搭建高可匿IP代理

1.安装命令：sudo apt-get install heirloom-mailx2.在/etc/s-nail.rc文件下，在底部添加如下信息set [email protected] #邮箱set smtp=smtps://smtp.163.comset [email protected] #用户名set smtp-auth-...

2019-07-29 14:57:59 1745

原创 selenium ubuntu(无图形界面) 安装chrome

1.ubuntu server 版本命令行安装chromesudo apt-get install libxss1 libappindicator1 libindicator7wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.debsudo dpkg -i google-chrome*.d...

2019-07-29 14:47:38 2550

原创 hadoop完全分布式、spark(Standalone)搭建笔记

1.环境：主机为win10，三台ubuntu16.04-server虚拟机，一台作为master节点，两台slave节点。配置都为内存2G，硬盘50G。IP地址master:192.168.80.11node1:192.168.80.12node2:192.168.80.132.虚拟机安装：在搭建ubuntu系统时，注意得将IP地址固定下来。步骤将VM的网络适配器进行调整。将网络模...

2019-06-15 20:08:54 293

原创 mongo分片

1.搭建mongo分片式集群主要是用来处理用户行驶的gps数据信息。gps集合的字段有member_id，order_id，longitude，latitude，reporttime这5个数据字段。搭建方式：https://jeremyxu2010.github.io/2018/10/mongodb高可用集群部署/#启用用户认证登录，可以参考mongo中文社区和官方文档。2.片键及片键选择...

2019-05-28 11:43:34 316

原创 supervisord监控python脚本

1.前沿：因为项目需要，得实时获取车辆的gps信息，但是一碰到意外情况，例如服务器崩溃，导致脚本挂掉，无法自启，会丢失很多数据，目前五一期间就挂掉一次，深表痛心，所以借空闲时间，赶紧用supervisord来监控脚本，一旦进程挂掉，也能自启。2.supervisord服务器环境是ubuntu16.04，用命令：sudoapt-get install supervisor安装super...

2019-05-22 17:19:59 918

原创聚类指标

1.轮廓系数（聚类的内部评价指标）。在sklearn里，有个函数silhouette_score可以使用，silhouette_score返回的是所有样本点轮廓系数的平均值。silhouette 是一个衡量一个结点与它属聚类相较于其它聚类的相似程度。取值范围-1到1，值越大表明这个结点更匹配其属聚类而不与相邻的聚类匹配。silhouette 可以根据任意距离度量，如Euclidean dista...

2019-05-21 11:40:48 5711

原创合理定义用户流失

1.一个用户流失在与用户多久时间长度没有和产品进行交叉（比如消费，浏览网站之类的），主要问题在于怎么合理的去定义用户流失时间段长度的问题。有个指标叫做回访用户：指的是用户指流失之后再次访问网站的用户，即用户曾经流失过，满足流失时间期限内完全没有访问、登录网站、消费之类的条件，但之后重新访问、登录网站、消费。这样就可以计算出回访率：回访人数/流失用户数。回访用户率的数值大小间接地可以验证对用户流...

2019-05-16 10:27:17 1698

原创 AHP层次法

1.问题：最近因为用到了无监督聚类，在通过轮廓系数确定最佳类别数后，对判断哪个簇具体属于哪个业务对应的簇出现了一点问题，如果单单通过将每类的中心点进行相加，按得分排序来对应业务，觉得太粗暴，如果做到加权求和的话，就会显的比较合理，但是因为不清楚哪一列的字段属性权重值是多少，所以导致无法进行加权求和，所以这边引入了AHP层次求解各数据字段权重的方法。2.AHP层次法这篇文章写的很详细，可...

2019-04-16 11:59:14 418

原创记录下git的一些注意点

1.为GitLab帐号添加SSH keys并连接GitLaba.输入命令：ls -al ~/.ssh，查看是否有id_rsa.pub或者id_dsa.pub存在。b.如果存在，用vi命令打开id_rsa.pub或者id_dsa.pub，并且复制里面的所有内容，打开gitlab里的SSH Keys，粘贴到key的文本框里即可。c.如果没有，输入命令：ssh-keygen -t rsa -...

2019-03-29 16:02:06 150

原创用户画像的理解

1.简单的用户画像阐述在产品研发和营销活动的过程当中，确立目标用户是首要目标。不同类型的用户需求不同，甚至这些需求还会冲突，而一款产品或着一个营销活动是不能满足所有用户的需求的，这种情况建立用户画像体系，可以让我们了解用户都是属于什么类型的用户，我们就可以针对这类用户去做产品或着营销活动。例子：在租车行业里，因为产品单一，只有租凭车子这个选择。但是租车用户也有很多类型，按租车目的分，有节假...

2019-03-12 15:53:52 1539

原创 docker的commit和push到阿里云镜像仓库

因项目需要，需要将制作好的web接口部署到docker里，方便管理，所以借此机会了解下docker的机制，以及为啥docker那么火。1.docker安装（宿主机为ubuntu16.04）。官方文档：https://docs.docker.com/install/linux/docker-ce/ubuntu/。 a.sudo apt-get remove docker docker-...

2019-03-07 17:18:13 1980

原创时序数据处理

一.移动平均法分为两种：简单移动平均和加权移动平均。当时间序列的数值由于受周期变动和随机波动的影响，起伏较大，不易显示出事件的发展趋势时，使用移动平均法可以消除这些因素的影响，显示出事件的发展方向与趋势（即趋势线），然后依趋势线分析预测序列的长期趋势。简单移动平均：各元素的权重都相等。加权移动平均：给固定跨越期限内的每个变量值以不...

2019-03-07 16:45:39 1208

原创用户画像中常用的用户模型

促销敏感度模型1.对于租凭公司平台而言，全范围的促销投放和对所有用户发放优惠券之类的，的确可以得到不错的效果，比如2019年的春节，公司通过对所有老用户发放优惠券，成功争取到了1000多订单。但是如果想进一步提高销售额的话，就需要公司对消费者进行更精细化的运营，对不同促销敏感度的用户，进行精确的营销，差别化发放优惠券，促销效果必然会事半功倍。就像公司里，春节时期，即使都是处于满租情况，但是如果...

2019-02-19 16:11:59 12520 2

原创深度学习框架paddle(GPU版本)安装

1.环境：ubuntu16.04 LTS版，CUDA9.0，CUDNN7.0，安装的paddle版本是v1.2.0。官网安装地址：http://staging.paddlepaddle.org/documentation/docs/zh/1.2/beginners_guide/install/install_Ubuntu.html2.安装好显卡驱动，CUDA9.0和CUDNN7.0后，我用...

2019-02-13 11:54:24 8602 2

原创 dlib+nvidia+cuda+cudnn(GPU环境)

记录下最新的坑，因为项目需要，需要用到开源dlib人脸库，且是配置GPU环境下的。网上说的都是坑，太坑了（期间我碰到各种问题，黑屏，循环启动，low 模式，dlib编译时找不到cudnn，都是泪，以前配cuda8.0环境时，都没那么麻烦），还是得按照官网给的guide来安装，以后一切对接官网guide。环境：ubuntu16.04（desktop版本，不是server版） + cuda9.0 ...

2019-01-29 17:05:55 2480 2

原创安装python库的error

1.安装spyder安装失败： error: command 'x86_64-linux-gnu-gcc' failed with exit status 1原因及解决方法：sudo apt install libssl-dev2.ubuntu清华源https://mirror.tuna.tsinghua.edu.cn/help/ubuntu/sudo gedit ...

2019-01-06 19:03:48 500 1

原创用户评论观点抽取

1.目的：从用户的订单评论里，抽取观点，进行标签化，此标签可以用来作一些辅助决策或者填充到用户画像体系里。其实评论挖掘的主要有两个部分，观点抽取和情感判断，主要的作用还是间接或直接引导用户购买意向，像淘宝，京东类似的智能展示。而评论的主语都是商家，但如果平台即是商家的话，展示评论观点就会显得比较鸡肋，因为不可能展示对自身不好的评论。因此在这种情况下，评论挖掘的意义更在于知道用户对商家的反馈，建...

2019-01-03 17:11:20 9100 5

原创 NLP一些知识点

1.word2vec(两种模式的优劣)a.在skip-gram里面，每个词在作为中心词的时候，实际上是 1个学生 VS K个老师，K个老师（周围词）都会对学生（中心词）进行“专业”的训练，这样学生（中心词）的“能力”（向量结果）相对就会扎实（准确）一些，但是这样肯定会使用更长的时间；b.cbow是 1个老师 VS K个学生，K个学生（周围词）都会从老师（中心词）那里学习知识，但是老师（中心...

2019-01-03 16:10:10 376

原创挖掘分析春节用户消费特征

前沿：因为公司的需求，需要分析在春节下单和不下单的老客户的消费情况，然后找出这两类用户的最大不同特征，然后根据这些特征，做一些活动藩篱，简单说就是挖掘出来的这些特征，做出来的活动，可以刺激那些不下单的老客户在春节消费，而这些优惠活动又不会引起其他客户的不满或反感。数据处理：筛选2017年的订单数据，去掉在17年和18年春节下单的订单，然后分别统计这两类用户的消费状况，注意去掉噪点数据。解决...

2018-12-18 11:45:52 364

原创 django+uwsgi+nginx

记录下部署车牌识别web接口的过程，方便以后查看。最好用python的虚拟开发环境来开发，用virtualenv可以建立多个python独立虚拟开发环境。1.virtualenv。pip3 install virtualenv(安装)，virtualenv --version(测试安装)，virtualenv project_env(为一个工程项目创建一个虚拟开发环境，这边是以系统默认的pyt...

2018-12-09 21:23:29 241

原创深度学习技巧统计--tensorflow

1.使用ADAM优化器，搭配ReLU激活函数。 2.使用方差缩放初始化。在Tensorflow中，该方法写作tf.contrib.layers.variance_scaling_initializer()。这种初始化方法比常规高斯分布初始化、截断高斯分布初始化及Xavier初始化的泛化/缩放性能更好。粗略地说，方差缩放初始化根据每一层输入或输出的数量来调整初始随机...

2018-10-29 14:47:38 320

原创特征选择--IV和WOE方法

因为之前看到有关WOE特征编码的方式，比较好奇，就去研究下，偶然之间看到一博客文章，写的是真好，链接如下，https://blog.csdn.net/kevin7658/article/details/50780391。这篇文章清晰表明了IV和WOE的关系，也说清楚了根据IV值的高低，去选择筛选特征，之后我们可以将筛选出来的特征去做其他方式的编码。 ...

2018-10-12 16:27:34 3417

原创特征哈希编码及哈希算法

前言在特征处理中，可以利用笛卡尔乘积的方法来构造组合特征。这种方法虽然简单，但麻烦的是会使得特征数量爆炸式增长。比如一个可以取N个不同值的类别特征，与一个可以去M个不同值的类别特征做笛卡尔乘积，就能构造出N*M个组合特征。特征太多这个问题在具有个性化的问题里尤为突出。如果把用户id看成一个类别特征，那么它可以取的值的数量就等于用户数。把这个用户...

2018-10-12 14:47:19 12534 1

原创 BEYOND ONE-HOT: AN EXPLORATION OF CATEGORICAL VARIABLES

categorical-encoding库项目地址：https://github.com/scikit-learn-contrib/categorical-encodingStar：494Fork：115 这个库扩展了很多实现 scikit-learn 数据转换器接口的分类编码方法，并实现了常见的分类编码方法，例如单热编码和散列编码，也有更利基的编码方法，如基本编码和目...

2018-10-10 17:06:01 175

xzx1232010的博客