追枫萨-CSDN博客

原创 Boosting、XGBoost、Lightgbm算法

Boosting算法Lightgbm算法Lightgbm基本原理介绍Lightgbm中文文档XGBoost算法及使用XGBoost解读

2020-03-07 00:01:25 348

原创中文独立博客列表

中文独立博客列表LUOLEI（超赞）桑弧蓬矢射四方

2019-11-03 18:22:05 445

原创 Flink学习资源

Flink China 中文视频教程Flink1.9官方文档zhisheng、zhisheng17(github代码)Apache Flink官方样例代码Apache Flink 中文官网及案例Jark's Blog心泽Flink初探-为什么选择基于Flink实现的商品实时推荐系统...

2019-09-24 15:40:23 260

原创 PySpark学习资源

环境搭建及基础：子雨大数据及Spark入门教程(Python版)Apache Spark中国技术社区Spark Structured StreamingStructured Streaming using Python DataFrames API（超赞）Structured Streaming Programming Guide官方文档：pyspark2.4.4公众号：S...

2019-09-16 10:42:04 409

原创 PyTorch、TensorFlow深度学习框架学习

Pytorch: 深度学习与pytorch入门 pytorch动态神经网络(莫烦Python教学) 莫烦Python PyTorch中文网 Pytorch中文文档TensorFlow: 深度学习框架tensorflow学习与应用 TensorFlow...

2019-06-09 17:18:28 659

原创 Elasticsearch-head 查询按某字段去重后命中数量

代码//需要在地址栏指明： http://ip:port/索引/_search 并使用post方法{ "query": { "match": { "facedbId": "xxx" //指定facedbId='xxx'查询条件 } }, "size": 0, "aggs": { "labelId_aggs": { "cardinality": { "field": "labelId" //指定查询结果按label

2020-06-19 14:25:37 2058

原创 Pyspark 统计DF对象某字段的最大值、最小值及读取csv文件时忽略字段内前后空格

实现from pyspark.sql.functions import *#df_tmp为DF对象，包含列“captureTime”df_tmp.agg(min(col("captureTime")),max(col("captureTime"))).show()结果

2020-05-13 17:14:15 2636

原创 Shell命令判断hdfs上某个路径是否存在

背景Azkaban定时调度程序需要读取以日期为前缀的文件进行处理，但运行之前需要判断路径是否存在。方法命令行内查看路径是否存在，可以使用*通配符。echo $? ->获取上一条shell命令的返回，0代表路径存在，1代表路径不存在sh脚本文件查看hdfs路径是否存在：#!/bin/bash#$(date -d '-1 day' '+%Y%m%d') ->输出昨日...

2020-05-08 16:40:52 2231

原创 Pyspark消费kafka集群某一topic中json数据并保存到hdfs上

需求对于进入到Kafka中的实时数据可以通过Flume从Kafka中消费并输出保存到hdfs上。但对于Kafka中历史数据，Flume不起作用了，可以通过spark streaming从头消费Kafka主题中json数据，并将数据以json形式保存到hdfs上。查看json数据#执行pyspark进入交互界面，执行以下代码查看从kafka中读到的json数据,#topic:dl_f...

2020-05-07 18:17:49 1643 5

原创 Pyspark groupBy()分组自定义udf函数

原文链接可见，groupBy()后生成数据含有两列："card_id"及"min(time)"

2020-04-29 18:04:35 3455

原创记：pyspark读取嵌套json字段并使用startswith统计

from pyspark.sql import SparkSessionfrom pyspark.sql import SQLContextspark = SparkSession.builder.appName('face_history').enableHiveSupport().getOrCreate()sc = spark.sparkContextsqlContext = ...

2020-04-28 14:40:30 833

原创记：CSV文件编码问题

csv使用excel查看乱码右击csv->打开方式->记事本->文件->另存为->编码方式(ANSI)，即可解决乱码。csv文件导入ubuntu虚拟机，提示：“File was loaded in the wrong encoding:'UTF-8'”,并显示乱码右击csv->打开方式->记事本->文件->另存为->编码方式...

2020-04-08 20:37:09 592

原创 Kafka: 分布式集群创建并查询主题

//创建主题face,分区数为1，副本数为1bin/kafka-topics.sh --create --topic face --zookeeper hadoop01:2181 --partitions 1 --replication-factor 1//查询主题bin/kafka-topics.sh --zookeeper hadoop01:2181 --list//删除主...

2020-04-02 17:59:35 727

原创解决： java.lang.ClassNotFoundException: org.springframework.kafka.transaction.KafkaAwareTransactionMan

问题Springboot2.1.4集成Kafka时提示ERROR:org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'org.springframework.boot.autoconfigure.kafka.KafkaAnnotationDrivenConfigur...

2020-04-02 16:35:32 6740

原创解决：Your ApplicationContext is unlikely to start due to a @ComponentScan of the default package

问题启动springboot2程序时，提示ERROR:** WARNING ** : Your ApplicationContext is unlikely to start due to a @ComponentScan of the default package.2020-04-01 13:20:06.583 WARN 17620 --- [ main]...

2020-04-01 13:32:06 866

原创 Shell批量、顺序执行py脚本

测试内容python1.py#!/usr/bin/env python3# -*- coding: utf-8 -*-# @Time: 2020/3/27 16:47# @Author: Damon# @Software: PyCharmimport timeprint("测试1运行......")for i in range(6,10): print(i)...

2020-03-30 15:19:24 8622

原创 Pyspark实现RDD与DataFrame转换

https://stackoverflow.com/questions/32742004/create-spark-dataframe-can-not-infer-schema-for-type-type-float

2020-03-26 22:51:37 2347

转载 Jupyter notebook快捷键

转自《关于Jupyter notebook快捷键》Jupyter Notebook 有两种键盘输入模式。编辑模式，允许你往单元中键入代码或文本；这时的单元框线是绿色的。命令模式，键盘输入运行程序命令；这时的单元框线是灰色。命令模式(按键ESC开启)Enter: 转入编辑模式 Shift-Enter: 运行本单元，选中下个单元 Ctrl-Enter: 运行本单元 Alt-En...

2020-03-22 11:27:25 118

原创解决：TypeError: strptime() argument 0 must be str, not NoType 类型错误

问题python3代码转换时间字符串->时间戳(秒级)时报错如上，代码如下：#time_stamp:"2019-09-01 12:12:12"def get_timestamp(time_string): t = time.strptime(time_string, "%Y-%m-%d %H:%M:%S") # 将时间元组转时间戳 timestamp = ...

2020-03-20 23:07:22 8932

原创 Python时间字符串与时间戳的转换

时间字符串->时间戳#!/usr/bin/env python3# -*- coding: utf-8 -*-# @Time: 2020/3/20 17:22# @Author: Damon# @Software: PyCharmimport timetime_string="2019-09-01 17:14:33"t=time.strptime(time_stri...

2020-03-20 17:48:00 2118

原创 Hadoop学习资源

大数据技术原理与应用HDFS编程实践

2020-03-20 13:05:57 119

转载 PySpark实现给DataFrame对象添加一列值

作用lit(“haha”)->返回的字面值haha方法：# df.withColumn(“time”,“201905”) 会报错，说没有引用其他列值from pyspark.sql.functions import *df=df.withColumn("time",lit("201905")) #这样就增加一列time，值全为201905字符串了...

2020-03-19 16:26:21 3202 6

原创解决：Idea 中maven不能下载到 spring-jdbc:5.1.6.RELEASE

问题pom.xml中使用maven自动下载依赖，但无法下载spring-jdbc:5.1.6.RELEASE。解决由于只缺乏一个jar包，所以采用手动导入。下载spring-jdbc依赖包。导入jar包到项目：file->Project Structure ->Project Settings->Modules->Dependencies->选“+...

2020-03-17 15:20:20 2288 1

原创 Docker: 启动指定MySQL容器

问题先前在Centos7中创建了MYSQL的容器，而后使用Navicat通过指定IP和端口号连接MYSQL数据库时，提示：原因MYSQL未启动。解决登入Centos7系统，依次执行以下命令：docker ps -a #查看所有的容器docker start mysql容器的id #启动该容器navicat即可连接成功。...

2020-03-17 11:50:21 1294 1

原创解决：Activiti7与SpringBoot整合时，默认生成的activiti数据库中只有17张表，无另外8张历史表

问题Activiti7与SpringBoot整合时，默认生成的activiti数据库中只有17张表，无另外8张历史表。原因Activiti默认关闭了历史表的使用。解决在连接数据库的application.yml配置文件中，开启即可，配置文件内容如下。spring: datasource: url: jdbc:mysql://localhost:3306/act...

2020-03-02 15:45:09 2544 1

转载解决：Access denied for user 'root'@'localhost' (using password:YES)

环境Win10+MySQL 5.5问题管理员权限运行cmd命令行：mysql -uroot -p,并输入密码:root 时提示ERROR：ERROR 1045 <28000>: Access denied for user 'root'@'localhost' (using password: YES) 解决打开MySQL 5.5\my.ini，在[mysql...

2020-02-20 18:08:54 400

原创 IDEA2019 安装Activiti 7插件

问题在Ideal2019 Settings->Plugins中可以搜索到其他插件，但搜索不到actiBPM插件。解决下载actiBPM(3.E-8)，进入Settings->Plugins，点击齿轮图标，选择如下图选项，找到下载好的actibpm.jar包，然后按照要求重启IDEA即可。...

2020-02-20 15:44:55 2421

原创解决：UserBehavior is already defined as case class UserBehavior

问题运行Flink scala程序时，提示如下错误，但仔细检查UserBehavior样例类的确仅定义了一次。解决右击重新编译代码，再运行。至于原因还不清楚。...

2020-02-18 15:40:21 1432

原创解决：no implicits found for parameter evidence$8:Typeinformation[ApacheLogEvent]

问题scala编写Flink程序，transform转换数据时提示信息：no implicits found for parameter evidence$8:Typeinformation[ApacheLogEvent]解决添加如下：import org.apache.flink.api.scala._...

2020-02-17 13:50:24 1510

原创 Flink实战：用户行为分析之热门商品TopN统计

环境ubuntu14、flink1.7.2、scala2.11、kafka2.3.0、jdk1.8、idea2019步骤抽取出业务时间戳，告诉 Flink 框架基于业务时间做窗口过滤出点击行为(pv)数目按一小时的窗口大小，每 5 分钟统计一次，做滑动窗口聚合(Sliding Window) 按每个窗口聚合，输出每个窗口中点击量前 N 名的商品实现创建maven项目，命...

2020-02-16 23:54:52 1154 1

原创 pytorch实战之Win10下安装pytorch1.2及cuda10.0

环境Win10+Anaconda3+python3.7安装cuda10.0下载cuda10.0选择window、local版本下载，下载完成后按照默认提示安装，安装前貌似必须关闭掉nvidia显卡(因为我开着网游安装时，在兼容性检查时一直提示缺失部分文件，关闭游戏及显卡后安装就成功了)验证cudacuda默认安装路径：C:\Program Files\NVIDIA GPU ...

2020-02-14 17:52:22 5853 8

转载解决：java.lang.ClassNotFoundException: org.apache.flink.api.common.serialization.DeserializationSchema

问题运行Flink1.7消费kafka主题消息示例程序时，需要将消息的key-value使用string反序列化,提示Error如下：Error: A JNI error has occurred, please check your installation and try againException in thread "main" java.lang.NoClassDefFou...

2020-01-19 17:48:58 19307 3

原创 github: 提高github下载速度

win系统中在配置在“C:\Windows\System32\drivers\etc\hosts”中添加如下代码：151.101.72.133 assets-cdn.github.com 151.101.73.194 github.global.ssl.fastly.net 192.30.253.113 github.com11.238.159.92 git.node5.mirror....

2020-01-16 17:18:32 228

转载 Flink1.7：Linux安装及IDEA运行WordCount累积计数

环境ubuntu16、jdk1.8、scala2.11、hadoop2.7、ideaIU-2019.2.3、maven3.2.5安装下载flink-1.7.2-bin-hadoop27-scala_2.11.tgz到~/.Downloads/下(~代表本用户目录)解压:tar zxvf flink-1.7.2-bin-hadoop27-scala_2.11.tgz -C /u...

2020-01-16 10:38:10 544

原创 Elasticsearch：7.5版本安装及入门示例

RESTful介绍1.REST起源表述性状态转变，基于HTTP、URI、XML、JSON等标准和协议，支持轻量级、跨平台、跨语言的架构设计。是Web服务的一种新的架构风格（一种思想）。轻量级：耦合性越低，越轻量。2.REST架构主要原则对网络上所有资源都有一个资源标志符对资源的操作不会改变标识符同一资源有多种表现形式(xml、json) 所有操作都是无状...

2020-01-07 14:29:13 643

原创 Kibana: 7.5版本安装、配置文件说明、访问及创建索引模式

介绍Kibana是一个旨在与Elasticsearch一起使用的开源分析和可视化平台,可以使用Kibana搜索，查看和与Elasticsearch索引中存储的数据进行交互。您可以轻松地执行高级数据分析，并在各种图表，表格和地图中可视化数据。其简单的基于浏览器的界面使您能够快速创建和共享动态仪表板，以实时显示对Elasticsearch查询的更改。安装需要node.js二进制文件支持。K...

2020-01-06 17:35:19 4015

转载推荐系统经典论文

原文链接点这！下面提供的论文，可以说基本都是经典中的经典。读完这些论文，相信对推荐系统的认识肯定会有质的飞越：（不够再找我。O(∩_∩)O~）综述类:1、Towards the Next Generation of Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions。最经典的推荐算法...

2020-01-05 13:49:22 618

转载推荐系统论文及源代码

大写的原文在这，感谢！1.Metric Factorization: Recommendation beyond Matrix Factorization论文：https://www.researchgate.net/publication/325570047_Metric_Factorization_Recommendation_beyond_Matrix_Factorization...

2020-01-05 13:38:37 1532 1

翻译 Elasticsearch：elasticsearch.yml配置文件内容解析

尽管ES要求很少的配置，但投入生产环境前仍有许多需要考虑的配置。 path.data和path.logs 位置：./config/elasticsearch.yml中参数，如果使用的.zip(对应于wins系统)或.tar.gz(对应linux系统)解压安装ES的方式，data和logs是ES安装目录的子目录，若在生产环境中使用默认路径存放data(es数据)、logs(日志)，则在ES...

2020-01-03 16:22:29 1968

原创 Elasticsearch：修改network时的问题

环境ubuntu16 、elasticsearch7.5、jdk1.8问题原本能正常启动的ES，为了能其他主机访问ES服务，修改network.host为0.0.0.0(其他主机访问形式：es服务所在ip:端口)，报错如下：ERROR: [3] bootstrap checks failed[1]: max file descriptors [4096] for elastic...

2020-01-03 13:57:12 1432 1

mnist_10k_sprite.rar

用于tensorboard可视化工程的数字图片资源，该图片中包含了诸多数字

2019-05-24

vs2017安装包+opencv3.4压缩包+win10环境配置方法

win10环境下，vs2017安装包及opencv3.4(c++版本)，以及安装配置方案。收1个积分吧，希望不要再好心帮忙提升积分数额了................

2019-03-30

dom4j-2.0.2.jar+jaxen-1.1.2.jar组合

dom4j-2.0.2.jar+jaxen-1.1.2.jar组合使用:可用于eclipse的java web开发时，xml文件的内容解析。收取1个积分，谢谢~

2018-12-15

使用py36的opencv3-3.1.0

使用linux下Anaconda3 python36环境的opencv3 ,亲测可用收取1个积分谢谢~~

2018-12-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人