自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Lloyd-He

~~~~

  • 博客(19)
  • 收藏
  • 关注

原创 数据挖掘十大经典算法笔记

主要总结一下数据挖掘十大经典算法,包括各自优缺点, 适用数据场景,做个小笔记,分享一下数据挖掘主要分为分类算法,聚类算法和关联规则三大类,这三类基本上涵盖了目前商业市场对算法的所有需求。而这三类里又包含许多经典算法。用简单的大白话来介绍数据挖掘十大经典算法原理算法分类连接分析:PageRank关联分析:Apriori分类算法:C4.5,朴素贝叶斯,SVM,KNN,Adaboost,CART聚类算法:K-Means,EM一、PageRank推荐:https://www.cnblogs.com

2020-11-18 16:55:49 1168

原创 微信朋友圈 Lookalike 算法

朋友圈的广告推送原理今天做点笔记,简单记录一下Lookalike是做什么的通常广告主投放广告,通过提交广告需求,后台圈定一部分潜在用户,这称为Lookalike模块一般Lookalike的做法:1、显性定位,广告主根据用户标签直接定位,比如说通过年龄、性别、地域这样的标签来直接圈定一部分用户进行投放。技术支持用户画像的挖掘。缺点: 不够精准,通过标签指定的用户量大,需要精准筛选2、机器学习来定位广告主的潜在用户。重点在于问题怎么转化成一个机器学习的模型呢?学习样本是什么? 优化目标是什么?广告

2020-11-17 10:03:48 1650

原创 CDH6.3.2详细安装

纪念一下全绿状态

2020-07-31 14:19:59 9617 1

原创 学习笔记:中文分词原理及实现意义

最近研究NLP的技术,搞了掘金小册子入个门,随手做个笔记,记录记录背景自然语言处理基础技术自然语言处理应用技术基础知识中文分词的四大难题N-Gram切词法解决中文分词歧义问题解决未登录词问题进阶知识HMM-隐马尔可夫模型CRF-条件随机场业务案例关键词挖掘文本相似度自动摘要自然语言处理基础技术词法分析:分词、词性标注、实体识别词向量表示:语义...

2019-12-12 12:12:53 2430

转载 Linux命令大全

转 https://www.cnblogs.com/yjd_hycf_space/p/7730690.html系统信息arch 显示机器的处理器架构(1)uname -m 显示机器的处理器架构(2)uname -r 显示正在使用的内核版本dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI)hdparm -i /dev/hda 罗列一个磁盘的架构特性hdparm...

2019-07-01 11:13:18 128

原创 HDFS权限问题:Permission denied

报错如下:Permission denied: user=root, access=EXECUTE, inode= “/user/yarn”: yarn:supergroup:drxw–org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkFsPermission(FSPermissionChecker.java:271...

2019-04-04 11:01:33 5176

转载 查询Linux端口是否占用

方法一、lsof -ilsof -i 用以显示符合条件的进程情况,lsof(list open files)是一个列出当前系统打开文件的工具。以root用户来执行lsof -i命令,如下图linux如何查看端口被哪个进程占用?二、lsof -i:端口号lsof -i:端口号,用于查看某一端口的占用情况,比如查看22号端口使用情况,lsof -i:22linux如何查看端口被哪个进程占用...

2019-03-13 13:58:22 282

原创 错误libstdc++.so.6: version `GLIBCXX_3.4.21' not found

由于Linux的glibcxx库版本较旧,安装完Tensorflow,打开python,import tensorflow as tf ,结果报错anaconda包含大量的科学包,而且各种不同版本的python可以共存所以,改用anaconda的python安装anaconda3,linux下安装anaconda3,用root用户,安装路径在/usr/local/anaconda3...

2019-03-06 16:46:55 2018

原创 集群分发文件简单shell脚本

由于集群机器比较多,一个个scp比较麻烦,所以写一个脚本,统一分发步骤如下:1、建立sh脚本 vim rsync_single_web.sh2、编写内容!/bin/shwebnode=(集群ip172.16.88.123172.16.88.456172.16.88.789)for host in ${webnode[@]}dorsync -avz /hom...

2019-02-16 14:31:27 1134

原创 Linux下安装升级Java(JDK8)

1、下载java安装包地址 http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html![](https://img-blog.csdnimg.cn/20190214165620400.png?x-oss-process=image/watermark,type_ZmFuZ3poZW...

2019-02-14 16:56:54 4996

原创 CDH集群启动时报ERROR Failed to connect to previous supervisor

报错如下:MainThread agent ERROR Failed to connect to previous supervisor.Traceback (most recent call last):File “/opt/cm-5.7.1/lib64/cmf/agent/build/env/lib/python2.6/site-packages/cmf-5.7.1-...

2019-02-13 09:27:04 5875 2

原创 cloudera-scm-server start failed

最近想把集群的spark服务升级为spark2,用spark on hive功能,在安装的时候service cloudera-scm-server restart 报failed查看日志cloudera-scm-server.log日志没有刷新,但看到cloudera-scm-server.out的时间有刷新,打开看一下仅仅一行的日志,但看到/var/log/secure日志时间也刷新了...

2019-01-31 14:40:41 2668

原创 Hue错误 Note: you are a Hue admin but not a HDFS superuser StandbException

Hue查看HDFS文件报错原因:查看的hdfs目录不支持备用状态HDFS起了HA功能,两个NameNode,一个激活状态,一个备用状态所以,在Hue的配置当中,HDFS Web界面角色 要打开对应活动状态的NameNode ok,问题解决  ...

2019-01-30 10:25:23 1238

原创 错误 version `GLIBC_2.18' not found

遇到报错如下:升级GLIBC有风险,系统可能瘫痪:https://www.cnblogs.com/dartagnan/archive/2013/04/25/3042105.html看到一个比较好的帖子:https://blog.csdn.net/sole_cc/article/details/51415940产生原因由于Linux系统的glibc版本太低,而软件编译时使用了...

2019-01-29 17:59:16 31608 9

原创 Linux系统Anaconda环境的安装/创建/激活/删除/管理

Anaconda的好处就不多说了直接干货#下载安装包官网:https://www.anaconda.com/download/#linux选好操作系统复制链接wgethttps://repo.continuum.io/archive/Anaconda3-2018.12-Linux-x86_64.sh直接运行 ./Anaconda3-2018.12-Linux-x8...

2019-01-29 11:46:41 11718

原创 Spark连接JDBC

项目之前用cloudera manager配好了spark on yarn集群,要求连接JDBC,markdown一下既然是要jdbc连接mysql,必然少不了jar包,下载好jar包:mysql-connector-java-5.1.41-bin.jar位置随大家喜欢,我放到了spark下的lib路径:/opt/cloudera/parcels/CDH-5.12.1-1.cdh5.12....

2018-09-30 15:41:08 2543

原创 实例分割总结 Instance Segmentation Summary

实例分割:机器自动从图像中用目标检测方法框出不同实例,再用语义分割方法在不同实例区域内进行逐像素标记借一个浅显的说法:语义分割不区分属于相同类别的不同实例。例如,当图像中有多只猫时,语义分割会将两只猫整体的所有像素预测为“猫”这个类别。与此不同的是,实例分割需要区分出哪些像素属于第一只猫、哪些像素属于第二只猫基本思路 目标检测+语义分割。SDS->HyperColumns-&gt...

2018-04-03 00:58:46 57524 6

原创 语义分割总结 Semantic Segmentation Summary

图像语义分割: 机器自动从图像中分割出对象区域,并识别其中的内容Object detection的输入是图像,输出是一个结果,或者说是一个值,一个概率值。Semantic Segmentation所追求的是,输入是一张图片是,输出也是一张图片,学习像素到像素的映射目前用于语义分割研究的两个最重要数据集是VOC2012和MSCOCO语义分割的发展:FCN->SegNet-&g...

2018-04-02 18:32:19 2619

原创 目标检测总结 Object Detection Summary

最近研究CV,看了几篇颇为重要的论文: RCNN->SPPnet->Fast RCNN->Hyper Net->Faster RCNN->R-FCN->Mask RCNN看了很多文章,分析得非常透彻,现在就这几篇总结一下,同时给自己顺下思路(观点雷同敬请谅解,如有侵权请联系) RCNN算法流程SS+wrap+VGG16+SVM+BBox步...

2018-04-01 20:56:01 1768

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除