自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(136)
  • 资源 (4)
  • 收藏
  • 关注

原创 Boosting、XGBoost、Lightgbm算法

Boosting算法Lightgbm算法Lightgbm基本原理介绍Lightgbm中文文档XGBoost算法及使用XGBoost解读

2020-03-07 00:01:25 348

原创 中文独立博客列表

中文独立博客列表LUOLEI(超赞)桑弧蓬矢射四方

2019-11-03 18:22:05 445

原创 Flink学习资源

Flink China 中文视频教程Flink1.9官方文档zhisheng、zhisheng17(github代码)Apache Flink官方样例代码Apache Flink 中文官网及案例Jark's Blog心泽Flink初探-为什么选择基于Flink实现的商品实时推荐系统...

2019-09-24 15:40:23 260

原创 PySpark学习资源

环境搭建及基础:子雨大数据及Spark入门教程(Python版)Apache Spark中国技术社区Spark Structured StreamingStructured Streaming using Python DataFrames API(超赞)Structured Streaming Programming Guide官方文档:pyspark2.4.4公众号:S...

2019-09-16 10:42:04 409

原创 PyTorch、TensorFlow深度学习框架学习

Pytorch: 深度学习与pytorch入门 pytorch动态神经网络(莫烦Python教学) 莫烦Python PyTorch中文网 Pytorch中文文档TensorFlow: 深度学习框架tensorflow学习与应用 TensorFlow...

2019-06-09 17:18:28 659

原创 Elasticsearch-head 查询按某字段去重后命中数量

代码//需要在地址栏指明: http://ip:port/索引/_search 并使用post方法{ "query": { "match": { "facedbId": "xxx" //指定facedbId='xxx'查询条件 } }, "size": 0, "aggs": { "labelId_aggs": { "cardinality": { "field": "labelId" //指定查询结果按label

2020-06-19 14:25:37 2058

原创 Pyspark 统计DF对象某字段的最大值、最小值及读取csv文件时忽略字段内前后空格

实现from pyspark.sql.functions import *#df_tmp为DF对象,包含列“captureTime”df_tmp.agg(min(col("captureTime")),max(col("captureTime"))).show()结果

2020-05-13 17:14:15 2636

原创 Shell命令判断hdfs上某个路径是否存在

背景Azkaban定时调度程序需要读取以日期为前缀的文件进行处理,但运行之前需要判断路径是否存在。方法命令行内查看路径是否存在,可以使用*通配符。echo $? ->获取上一条shell命令的返回,0代表路径存在,1代表路径不存在sh脚本文件查看hdfs路径是否存在:#!/bin/bash#$(date -d '-1 day' '+%Y%m%d') ->输出昨日...

2020-05-08 16:40:52 2231

原创 Pyspark消费kafka集群某一topic中json数据并保存到hdfs上

需求对于进入到Kafka中的实时数据可以通过Flume从Kafka中消费并输出保存到hdfs上。但对于Kafka中历史数据,Flume不起作用了,可以通过spark streaming从头消费Kafka主题中json数据,并将数据以json形式保存到hdfs上。查看json数据#执行pyspark进入交互界面,执行以下代码查看从kafka中读到的json数据,#topic:dl_f...

2020-05-07 18:17:49 1643 5

原创 Pyspark groupBy()分组自定义udf函数

原文链接可见,groupBy()后生成数据含有两列:"card_id"及"min(time)"

2020-04-29 18:04:35 3455

原创 记:pyspark读取嵌套json字段并使用startswith统计

from pyspark.sql import SparkSessionfrom pyspark.sql import SQLContextspark = SparkSession.builder.appName('face_history').enableHiveSupport().getOrCreate()sc = spark.sparkContextsqlContext = ...

2020-04-28 14:40:30 833

原创 记:CSV文件编码问题

csv使用excel查看乱码右击csv->打开方式->记事本->文件->另存为->编码方式(ANSI),即可解决乱码。csv文件导入ubuntu虚拟机,提示:“File was loaded in the wrong encoding:'UTF-8'”,并显示乱码右击csv->打开方式->记事本->文件->另存为->编码方式...

2020-04-08 20:37:09 592

原创 Kafka: 分布式集群创建并查询主题

//创建主题face,分区数为1,副本数为1bin/kafka-topics.sh --create --topic face --zookeeper hadoop01:2181 --partitions 1 --replication-factor 1//查询主题bin/kafka-topics.sh --zookeeper hadoop01:2181 --list//删除主...

2020-04-02 17:59:35 727

原创 解决: java.lang.ClassNotFoundException: org.springframework.kafka.transaction.KafkaAwareTransactionMan

问题Springboot2.1.4集成Kafka时提示ERROR:org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'org.springframework.boot.autoconfigure.kafka.KafkaAnnotationDrivenConfigur...

2020-04-02 16:35:32 6740

原创 解决:Your ApplicationContext is unlikely to start due to a @ComponentScan of the default package

问题启动springboot2程序时,提示ERROR:** WARNING ** : Your ApplicationContext is unlikely to start due to a @ComponentScan of the default package.2020-04-01 13:20:06.583 WARN 17620 --- [ main]...

2020-04-01 13:32:06 866

原创 Shell批量、顺序执行py脚本

测试内容python1.py#!/usr/bin/env python3# -*- coding: utf-8 -*-# @Time: 2020/3/27 16:47# @Author: Damon# @Software: PyCharmimport timeprint("测试1运行......")for i in range(6,10): print(i)...

2020-03-30 15:19:24 8622

原创 Pyspark实现RDD与DataFrame转换

https://stackoverflow.com/questions/32742004/create-spark-dataframe-can-not-infer-schema-for-type-type-float

2020-03-26 22:51:37 2347

转载 Jupyter notebook快捷键

转自《关于Jupyter notebook快捷键》Jupyter Notebook 有两种键盘输入模式。编辑模式,允许你往单元中键入代码或文本;这时的单元框线是绿色的。命令模式,键盘输入运行程序命令;这时的单元框线是灰色。命令模式(按键ESC开启)Enter: 转入编辑模式 Shift-Enter: 运行本单元,选中下个单元 Ctrl-Enter: 运行本单元 Alt-En...

2020-03-22 11:27:25 118

原创 解决:TypeError: strptime() argument 0 must be str, not NoType 类型错误

问题python3代码转换时间字符串->时间戳(秒级)时报错如上,代码如下:#time_stamp:"2019-09-01 12:12:12"def get_timestamp(time_string): t = time.strptime(time_string, "%Y-%m-%d %H:%M:%S") # 将时间元组转时间戳 timestamp = ...

2020-03-20 23:07:22 8932

原创 Python时间字符串与时间戳的转换

时间字符串->时间戳#!/usr/bin/env python3# -*- coding: utf-8 -*-# @Time: 2020/3/20 17:22# @Author: Damon# @Software: PyCharmimport timetime_string="2019-09-01 17:14:33"t=time.strptime(time_stri...

2020-03-20 17:48:00 2118

原创 Hadoop学习资源

大数据技术原理与应用HDFS编程实践

2020-03-20 13:05:57 119

转载 PySpark实现给DataFrame对象添加一列值

作用lit(“haha”)->返回的字面值haha方法:# df.withColumn(“time”,“201905”) 会报错,说没有引用其他列值from pyspark.sql.functions import *df=df.withColumn("time",lit("201905")) #这样就增加一列time,值全为201905字符串了...

2020-03-19 16:26:21 3202 6

原创 解决:Idea 中maven不能下载到 spring-jdbc:5.1.6.RELEASE

问题pom.xml中使用maven自动下载依赖,但无法下载spring-jdbc:5.1.6.RELEASE。解决由于只缺乏一个jar包,所以采用手动导入。下载spring-jdbc依赖包。导入jar包到项目:file->Project Structure ->Project Settings->Modules->Dependencies->选“+...

2020-03-17 15:20:20 2288 1

原创 Docker: 启动指定MySQL容器

问题先前在Centos7中创建了MYSQL的容器,而后使用Navicat通过指定IP和端口号连接MYSQL数据库时,提示:原因MYSQL未启动。解决登入Centos7系统,依次执行以下命令:docker ps -a #查看所有的容器docker start mysql容器的id #启动该容器navicat即可连接成功。...

2020-03-17 11:50:21 1294 1

原创 解决:Activiti7与SpringBoot整合时,默认生成的activiti数据库中只有17张表,无另外8张历史表

问题Activiti7与SpringBoot整合时,默认生成的activiti数据库中只有17张表,无另外8张历史表。原因Activiti默认关闭了历史表的使用。解决在连接数据库的application.yml配置文件中,开启即可,配置文件内容如下。spring: datasource: url: jdbc:mysql://localhost:3306/act...

2020-03-02 15:45:09 2544 1

转载 解决:Access denied for user 'root'@'localhost' (using password:YES)

环境Win10+MySQL 5.5问题管理员权限运行cmd命令行:mysql -uroot -p,并输入密码:root 时提示ERROR:ERROR 1045 <28000>: Access denied for user 'root'@'localhost' (using password: YES) 解决打开MySQL 5.5\my.ini,在[mysql...

2020-02-20 18:08:54 400

原创 IDEA2019 安装Activiti 7插件

问题在Ideal2019 Settings->Plugins中可以搜索到其他插件,但搜索不到actiBPM插件。解决下载actiBPM(3.E-8),进入Settings->Plugins,点击齿轮图标,选择如下图选项,找到下载好的actibpm.jar包,然后按照要求重启IDEA即可。...

2020-02-20 15:44:55 2421

原创 解决:UserBehavior is already defined as case class UserBehavior

问题运行Flink scala程序时,提示如下错误,但仔细检查UserBehavior样例类的确仅定义了一次。解决右击重新编译代码,再运行。至于原因还不清楚。...

2020-02-18 15:40:21 1432

原创 解决:no implicits found for parameter evidence$8:Typeinformation[ApacheLogEvent]

问题scala编写Flink程序,transform转换数据时提示信息:no implicits found for parameter evidence$8:Typeinformation[ApacheLogEvent]解决添加如下:import org.apache.flink.api.scala._...

2020-02-17 13:50:24 1510

原创 Flink实战:用户行为分析之热门商品TopN统计

环境ubuntu14、flink1.7.2、scala2.11、kafka2.3.0、jdk1.8、idea2019步骤抽取出业务时间戳,告诉 Flink 框架基于业务时间做窗口 过滤出点击行为(pv)数目 按一小时的窗口大小,每 5 分钟统计一次,做滑动窗口聚合(Sliding Window) 按每个窗口聚合,输出每个窗口中点击量前 N 名的商品实现创建maven项目,命...

2020-02-16 23:54:52 1154 1

原创 pytorch实战之Win10下安装pytorch1.2及cuda10.0

环境Win10+Anaconda3+python3.7安装cuda10.0下载cuda10.0选择window、local版本下载,下载完成后按照默认提示安装,安装前貌似必须关闭掉nvidia显卡(因为我开着网游安装时,在兼容性检查时一直提示缺失部分文件,关闭游戏及显卡后安装就成功了)验证cudacuda默认安装路径:C:\Program Files\NVIDIA GPU ...

2020-02-14 17:52:22 5853 8

转载 解决:java.lang.ClassNotFoundException: org.apache.flink.api.common.serialization.DeserializationSchema

问题运行Flink1.7消费kafka主题消息示例程序时,需要将消息的key-value使用string反序列化,提示Error如下:Error: A JNI error has occurred, please check your installation and try againException in thread "main" java.lang.NoClassDefFou...

2020-01-19 17:48:58 19307 3

原创 github: 提高github下载速度

win系统中在配置在“C:\Windows\System32\drivers\etc\hosts”中添加如下代码:151.101.72.133 assets-cdn.github.com 151.101.73.194 github.global.ssl.fastly.net 192.30.253.113 github.com11.238.159.92 git.node5.mirror....

2020-01-16 17:18:32 228

转载 Flink1.7:Linux安装及IDEA运行WordCount累积计数

环境ubuntu16、jdk1.8、scala2.11、hadoop2.7、ideaIU-2019.2.3、maven3.2.5安装下载flink-1.7.2-bin-hadoop27-scala_2.11.tgz到~/.Downloads/下(~代表本用户目录)解压:tar zxvf flink-1.7.2-bin-hadoop27-scala_2.11.tgz -C /u...

2020-01-16 10:38:10 544

原创 Elasticsearch:7.5版本安装及入门示例

RESTful介绍1.REST起源表述性状态转变,基于HTTP、URI、XML、JSON等标准和协议,支持轻量级、跨平台、跨语言的架构设计。是Web服务的一种新的架构风格(一种思想)。 轻量级:耦合性越低,越轻量。2.REST架构主要原则对网络上所有资源都有一个资源标志符 对资源的操作不会改变标识符 同一资源有多种表现形式(xml、json) 所有操作都是无状...

2020-01-07 14:29:13 643

原创 Kibana: 7.5版本安装、配置文件说明、访问及创建索引模式

介绍Kibana是一个旨在与Elasticsearch一起使用的开源分析和可视化平台,可以使用Kibana搜索,查看和与Elasticsearch索引中存储的数据进行交互。您可以轻松地执行高级数据分析,并在各种图表,表格和地图中可视化数据。其简单的基于浏览器的界面使您能够快速创建和共享动态仪表板,以实时显示对Elasticsearch查询的更改。安装需要node.js二进制文件支持。K...

2020-01-06 17:35:19 4015

转载 推荐系统经典论文

原文链接点这!下面提供的论文,可以说基本都是经典中的经典。读完这些论文,相信对推荐系统的认识肯定会有质的飞越:(不够再找我。O(∩_∩)O~)综述类:1、Towards the Next Generation of Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions。最经典的推荐算法...

2020-01-05 13:49:22 618

转载 推荐系统论文及源代码

大写的原文在这,感谢!1.Metric Factorization: Recommendation beyond Matrix Factorization论文:https://www.researchgate.net/publication/325570047_Metric_Factorization_Recommendation_beyond_Matrix_Factorization...

2020-01-05 13:38:37 1532 1

翻译 Elasticsearch:elasticsearch.yml配置文件内容解析

尽管ES要求很少的配置,但投入生产环境前仍有许多需要考虑的配置。 path.data和path.logs 位置:./config/elasticsearch.yml中参数,如果使用的.zip(对应于wins系统)或.tar.gz(对应linux系统)解压安装ES的方式,data和logs是ES安装目录的子目录,若在生产环境中使用默认路径存放data(es数据)、logs(日志),则在ES...

2020-01-03 16:22:29 1968

原创 Elasticsearch:修改network时的问题

环境ubuntu16 、elasticsearch7.5、jdk1.8问题原本能正常启动的ES,为了能其他主机访问ES服务,修改network.host为0.0.0.0(其他主机访问形式:es服务所在ip:端口),报错如下:ERROR: [3] bootstrap checks failed[1]: max file descriptors [4096] for elastic...

2020-01-03 13:57:12 1432 1

mnist_10k_sprite.rar

用于tensorboard可视化工程的数字图片资源,该图片中包含了诸多数字

2019-05-24

vs2017安装包+opencv3.4压缩包+win10环境配置方法

win10环境下,vs2017安装包及opencv3.4(c++版本),以及安装配置方案。收1个积分吧,希望不要再好心帮忙提升积分数额了................

2019-03-30

dom4j-2.0.2.jar+jaxen-1.1.2.jar组合

dom4j-2.0.2.jar+jaxen-1.1.2.jar组合使用:可用于eclipse的java web开发时,xml文件的内容解析 。收取1个积分,谢谢~

2018-12-15

使用py36的opencv3-3.1.0

使用linux下Anaconda3 python36环境的opencv3 ,亲测可用 收取1个积分谢谢~~

2018-12-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除