自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 资源 (1)
  • 收藏
  • 关注

原创 python3.5.3安装步骤(linux centos)

安装python3.5可能使用的依赖yum install openssl-devel bzip2-devel expat-devel gdbm-devel readline-devel sqlite-devel到python官网找到下载路径, 用wget下载wget https://www.python.org/ftp/python/3.5.3/Python-3.5.3.tgz解压t...

2019-09-02 19:12:15 713

原创 centos7.5误删python2.7之后,导致yum和Python命令无法使用(问题解决)

原微博地址:https://www.cnblogs.com/sueyyyy/p/10410832.html问题描述最近想要将服务器上的Python2.7升级成3.x的版本时。使用了如下命令: 1 2 3 4 5 (1)强制删除已安装python及其关联 # rpm -qa|grep python|xargs rpm -...

2019-09-02 18:51:50 835

转载 解决crontab运行python脚本不生效

https://blog.csdn.net/weixin_33933118/article/details/86897719

2019-07-16 19:58:27 1273

原创 windows开发环境运行正常,打包jar到linux系统出现,java.io.FileNotFoundException: xxx.jar! xxx.txt (没有文件或目录)

解决:1.利用流的方式读取文件ImputStream inputStream2 = this.getClass.getClassLoader.getResourceAsStream(“dict/xxx.txt”)BufferedReader reader2 = new BufferedReader(new InputStreamReader(inputStream2,"UTF-8"))...

2019-07-16 15:18:31 1822

原创 fake_useragent.errors.FakeUserAgentError: Maximum amount of retries reached (fake_useragent代理获取失败)

fake_useragent 具体github地址:https://github.com/hellysmile/fake-useragent1.下载最新版本json文件(网页拉到最低保存为json文件(fake_useragent.json))https://fake-useragent.herokuapp.com/browsers/0.1.11 (地址需要翻墙) 地址...

2019-05-23 20:31:53 1829

原创 echarts 点击事件 传参数 自定义参数(利用ajax将参数传入后台)

//echarts里面点击事件myChart.on('click', function (params) {//mychart调用下面kmeansyun方法,并传入参数 kmeansyun(params.name)});//点击事件触发方法 方法内其他参数省略 function kmeansyun(name) { var worldCloudcharts=echarts...

2019-04-02 16:42:40 8216 1

原创 spark scala dataframe 窗户函数Window的应用 实现row_number() over(partition by , order by )

需要引入的包:import org.apache.spark.sql.expressions.Windowimport org.apache.spark.sql.functions._ //scala实现row_number() over(partition by , order by ) val w = Window.partitionBy($"prediction").o...

2019-04-02 14:47:43 3742

原创 推荐系统评估方式

1.线下评估(一些学术研究或商业)RMSE和MAE  recall 和 precision例如:     recall = 6/10       precision = 6/50 F1 score :F越大代表推荐系统越好 2.线上评估(商业)     A/B testing CTR: click throught rateCR:conv...

2018-12-13 18:56:41 1403

原创 协同过滤和基于内容的推荐系统优缺点

系统过滤优点:根据各个用户的历史信息推荐商品,跟商品的内容属性无关。缺点:冷启动,gray sheep(没有相似的用户),商品用户越多协同过滤越复杂,同义词影响,shilling attack。基于内容优点:不存在商品冷启动问题,根据商品的属性进行推荐。缺点:需要透彻的内容分析,存在用户冷启动问题,不能给用户带来惊喜(只是推荐内容相似的商品)。...

2018-12-13 17:26:13 10231

原创 机器学习回归和分类

回归和分类的区别:   回归的预测结果是连续的,分类的预测结果是离散的。     线性回归:     自变量和因变量之间存在线性关系,例如:线性相关系数(皮尔逊相关系数)...

2018-12-09 01:11:09 258

原创 机器学习基础笔记

1.机器学习是大数据技术的核心。机器学习的方法:1.统计机器学习。2.BP神经网络。3深度学习。机器学习的种类:     1.监督学习:学习一个模型,使模型能够对任意给定的输入做出相应的预测。形式 :(x,y)数据对。     2.无监督学习:学习一个模型,使用的数据是没有被标记过的数据,自己默默的学习隐含的特征,寻找模型与规律。           输入数据形式只有x,例如 ...

2018-12-02 00:31:47 146

原创 Maven笔记

1.maven只编译项目中的单个模块 commonlib  mvn clean install -pl commonlib -am -Dmaven.test.skip=true(跳过测试类的编译和运行)

2018-11-21 15:02:58 111

原创 linux命令笔记

让Mac OS X下的终端像Linux那样拥有丰富多彩的颜色显示:参考地址:https://www.linuxidc.com/Linux/2015-12/125917.htm1.chmod +x :  给文件添加执行权限。如:chmod +x ./start.sh参考地址:https://blog.csdn.net/u012106306/article/details/80436911...

2018-11-21 14:47:38 104

原创 UTC时间和CST时间

UTC时间:世界协调时间(UTC)是世界上不同国家用来调节时钟和时间的主要时间标准。               :也就是零时区的时间CST时间:中央标准时间            Central Standard Time (USA) UT-6:00(美国cst时间:零区时减6个小时)            Central Standard Time (Australia) UT+9...

2018-11-01 11:28:57 54746

原创 streamsets简介

streamsets(官网地址:https://streamsets.com/)    由Informatica前首席产品官Girish Pancha和Cloudera前开发团队负责人Arvind Prabhakar于2014年创立的公司,总部设在旧金山。streamsets产品做大数据ETL工具,支持包括结构化和半/非结构化数据源,拖拽式的可视化数据流程设计界面。streamsets的产...

2018-10-31 20:06:37 8401 4

原创 jolt transform (json to json) 嵌套数组进行json格式转换

 输入的json格式:[ { "status": "success", "result": [ { "cashierUid": 1111, "items": [ { "name&qu

2018-08-30 17:45:37 2540

原创 枚举算法 实现背包问题

package meiju;import java.util.Scanner;/** * 1)设计一个枚举算法,解决如下背包问题:设有4个物体,其重量和价值分别如下所示:物体 重量 价值1 7 422 3 123 4 404 5 25现在,有一个承重最多10的背包,请设计算法,输出背包中价值最高的物体组合时的物体编号,以及价值总和。例如:C:\>_按照编号、重量、价值输入:1,7,422,3...

2018-06-10 20:38:20 1687

原创 贪婪算法,解决装箱问题

package meiju;import java.util.ArrayList;import java.util.Arrays;import java.util.List;public class TanXin { /** * 2)设计一个贪婪算法,解决如下装箱问题:设每个箱子容量为10,7个物品的容量分别是[8,7,5,4,3,2,1]。 * 请使用贪婪算法(Best Fit)用最少的箱子...

2018-06-10 20:22:17 2208 1

原创 crontab -e 实现每隔20秒执行一次

crontab -e :*/1 * * * * /home/hadoop/data/project/generator_log.sh*/1 * * * * sleep 20 && /home/hadoop/data/project/generator_log.sh*/1 * * * * sleep 40 && /home/hadoop/data/proje...

2018-06-09 22:16:56 10173

原创 将本地开发好的大数据程序打包到linux服务端运行

1.去掉本地代码中setMaster("local[5]")2.用maven在本地编译代码:     maven clean package -DskipTests3.服务端运行  spark-submit --master local[5]\       //本地模式启动spark--jars $(echo /home/hadoop/app/hbase-1.2.0-cdh5.7.0/lib/*....

2018-06-06 15:11:57 396

原创 Hbase插入表数据异常: RetriesExhaustedWithDetailsException: Failed 1 action: tableName: 1 time

<hbase.version>1.2.0-cdh5.7.0</hbase.version><!-- HBase 依赖--><dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId

2018-06-05 19:56:40 5262 1

转载 kafka.cluster.BrokerEndPoint cannot be cast to kafka.cluster.Broker

参考地址:https://blog.csdn.net/zhangjunbaodbd/article/details/80398053

2018-05-31 14:20:36 839

原创 idea开发工具无法导入maven内包含包

1.idea  排除掉了此包2.自己定义的包名是否跟系统的冲突

2018-05-31 10:24:20 377

原创 (kafka java API 无法连接远程主机)FailedToSendMessageException: Failed to send messages after 3 tries.

出现以下异常:Exception in thread "main" kafka.common.FailedToSendMessageException: Failed to send messages after 3 tries. at kafka.producer.async.DefaultEventHandler.handle(DefaultEventHandler.scala:91)...

2018-05-24 09:34:47 726

原创 IDEA新建scala项目无法新建xxx.scala文件 (new 没有 scala class)

1.先idea确认有没有安装Scala sdk,如果没有先在idea中下载scala插件。参考地址:https://blog.csdn.net/iamlihongwei/article/details/72783459?locationNum=10&fps=12.安装完插件还是看不到 scala class  选上scala SDK...

2018-04-18 21:12:00 10629

原创 eclipse操作hdfs,连接不上hdfs系统的原因

1.linux系统中hosts配置文件的ip地址和主机名是否对应。(不能为127.0.0.1  格式)2.linux的防火墙是否关闭。(centos关闭防火墙:  systemctl stop firewalld)

2018-04-10 13:11:04 1725

原创 大数据 HDFS系统基本操作命令(centos)

1. hadoop fs -ls  /     文件查找    hadoop fs -ls -R  /    递归查看  hadoop fs -put  文件名  /     将文件传到根节点  hadoop fs  -cat  /hello.txt    查看根节点hello.txt文件内容(hadoop fs -text  作用相同)  hadoop fs -mkdir  /test/  创建...

2018-04-10 12:44:41 722

原创 Linux下启动mysql数据库5.7,出现找不到mysqld.pid 或无法创建删除pid

mysqld.pid用途: 记录的是当前 mysqld 进程的 pid,pid 亦即 Process ID。1.如果启动mysql服务,显示没有找到pid.可以自己手动创建pid文件。    /var/lib/mysqld/mysqld.pid  最后为此路径  (如果为/var/run/mysqld/mysqld.pid ,下次重启动mysql服务,pid文件会被清除)  2.如果pid文件的放...

2018-04-09 18:40:10 22949

原创 tomcat出现内存溢出 (java.lang.OutOfMemoryError)

文章原地址:http://www.haoplay.top/tiezi/10_1_1.htmltomcat中日志中报错:     org.apache.catalina.core.ApplicationDispatcher.invoke Servlet.service() for servlet springmvc threw exception java.lang.OutOfMemoryError...

2018-04-09 18:35:31 181

原创 Java语言 浏览器下载文件时没有进度条和预计文件大小

文章地址:http://www.haoplay.top/tiezi/11_1_1.html解决方案:   在代码中添加:      response.setHeader("Content-Length", ""+file.length());

2018-04-09 18:32:37 5637 3

原创 在linux(ubuntu)上搭建hadoop分布式集群配置步骤

原地址:http://www.haoplay.top/tiezi/3_1_1.html文章参考:http://www.linuxidc.com/Linux/2016-02/128149.htm 在vmware上安装多个ubuntu系统     登录ubuntu系统修改机器名称:             修改文件/etc/hostname里的值即可,修改成功后用hostname命令查看当前主机名是否...

2018-04-09 18:29:06 509

nifi 入门英文文档

大数据分析工具nifi 英文入门文档。This book gives you an overview of NiFi, why it s useful, and some common use cases with technical information to help you et started, debug, and manage your own dataflows

2018-09-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除