自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(57)
  • 收藏
  • 关注

原创 Neo4j 基本语法

() 代表节点。

2023-09-07 20:27:01 1108

原创 MySQL修改表:新增自增主键

【代码】MySQL修改表:新增自增主键。

2023-03-21 11:43:14 226

原创 redis cli命令

redis cli命令

2022-10-14 14:46:06 224

原创 StarRocks|Doris业内工程实践整理

1、理想汽车 x StarRocks:为 Hive 数据查询插上极速之翼!https://www.modb.pro/db/3948982、阿里云强力贡献:如何让 StarRocks 做到极速数据湖分析https://www.modb.pro/db/3943353、众安保险 x StarRocks | 全新实时分析能力开启数字化经营新局面https://www.modb.pro/db/3912944、从ClickHouse到StarRocks,携程大住宿智能数据平台的应用https://w

2022-04-18 17:08:43 807

原创 优质大数据技术博文摘录

一、关于数据倾斜1、实战 | Hive 数据倾斜问题定位排查及解决_五分钟学大数据的技术博客_51CTO博客

2022-04-14 15:05:12 110

原创 JVM虚拟机相关知识

一、常用JDK监控和故障的处理工具命令 用途 jps 显示指定系统内所有的虚拟机进程 jstat 用于收集虚拟机各方面的运行数据 jinfo 显示虚拟机配置信息 jmap 生成虚拟机快照 jhat 用于分析heapdump文件,会建立一个http/html服务器,可以在浏览器上查看分析结果 jstack 显示虚拟机快照 二、常用 JVM 参数:参数 说明 -Xms 初始堆大小,默认为物理内存的1/64(&l

2022-04-12 16:32:25 1294

原创 Python技术摘记

Python中如何将数组转为Json格式数据?更新时间:2020-10-09 来源:黑马程序员 浏览量:4140在Python中将数组转为Json数据存储时需要用到将json模块中的json.dumps()或者json.dump()方法。·json.dumps()方法用法使用json.dumps( )方法将Python数组转为json格式数据# 导入json模块import json# 定义Python数组py_list = [{'JavaEE': "http://j..

2021-04-08 13:43:43 137

原创 Python常见问题

一、报错:ValueError: cannot convert float NaN to integerValueError: cannot convert float NaN to integer说明:NaN是一个特殊的浮点标记值,表示“不是数字”。一般来说,Python更喜欢引发异常而不是returnNaN,因此诸如sqrt(-1)和log(0.0)通常会引发而不是return的事情NaN。但是,您可能会从其他库中获得此​​值。一个很好的例子可能是尝试从电子表格中的字符串单元格提取数字值.

2021-03-11 10:42:39 5327

原创 Hive资源调优

一、OOMBuffer OOM堆栈溢出Caused by: java.lang.OutOfMemoryError: Java heap spaceat org.apache.hadoop.hive.serde2.WriteBuffers.nextBufferToWrite(WriteBuffers.java:261)at org.apache.hadoop.hive.serde2.WriteBuffers.write(WriteBuffers.java:237)at org.apache.h

2021-01-21 20:45:25 889 1

原创 Hadoop命令汇总

一、hadoop fs 命令1、hadoop fs –fs [local | <file system URI>]:声明hadoop使用的文件系统,如果不声明的话,使用当前配置文件配置的,按如下顺序查找:hadoop jar里的hadoop-default.xml->$HADOOP_CONF_DIR下的hadoop-default.xml->$HADOOP_CONF_DIR下的hadoop-site.xml。使用local代表将本地文件系统作为hadoop的DFS。如果传递ur

2020-07-30 16:05:16 284

原创 Spark技术栈整理

一、当Spark on Hive时,Spark读不到hive的数据。刷新Spark的 缓存:REFRESH TABLE test.dws_d_driver

2020-07-28 20:46:27 626

原创 HiveSQL 整理

一、COALESCE() // [ˌkəʊəˈles]结合;联合COALESCE是一个函数, (expression_1, expression_2, ...,expression_n)依次参考各参数表达式 -- 遇到非null值即停止并返回该值。如果所有的表达式都是空值,最终将返回一个空值。使用场景:1)假如某个字段默认是null,你想其返回的不是null,而是比如0或其他值,可以使用这个函数SELECT COALESCE(field_name,0) as valu...

2020-07-21 11:25:38 991

原创 Linux中【不解压Jar包】【修改jar包内配置文件】

1)查询出目标文件在jar包中的目录使用jar tvf jar名称 | grep 目标文件名Eg:jar tvf service-0.0.1-SNAPSHOT.jar |grep application.yml2)将目标文件及所在jar包中的目录解压到当前路径使用jar xvf jar名称 目标文件名(copy上面查出的全路径)Eg:jar xvf service-0.0.1-SNAPSHOT.jar BOOT-INF/classes/application.yml3)修改.

2020-07-18 16:16:54 1040

原创 Presto 整理

一、Presto SQL:(1) show CATALOGS; (2) show tables from hive.dwd; 查看数据库中所有的表

2020-07-13 16:00:08 218

原创 Linux命令汇总

1.开启端口号:/sbin/iptables -I INPUT -p tcp --dport 8123 -j ACCEPT

2020-06-17 20:28:14 134

原创 Mybatis批量新增并根据主键更新

<insert id="insertPlayerItemData" parameterType="java.util.List"> INSERT INTO lost_player_item_info ( player_id, func_id, item_id, item_num) VALUES <foreach collection ="li..

2020-06-08 18:38:43 1428

原创 Shell 脚本高级使用汇总

一、grep反向查找grep -vE '(Frame|WebDelay|ResourceUpdate)' /data/htdocs/lostWeb/action_log/act_2020-05-02.log|wc -l-v:反向查找,显示不包含匹配文本的所有行。-E 使用扩展正则表达式

2020-05-09 14:36:27 634

原创 crontab摘录

一、查看用户设置的cron定时任务列表:crontab -l -uusername例:

2020-05-06 13:29:39 132

原创 ClickHouse安装

一、按照官网步骤:https://clickhouse.tech/#quick-startCentOS:sudo yum install yum-utilssudo rpm --import https://repo.clickhouse.tech/CLICKHOUSE-KEY.GPGsudo yum-config-manager --add-repo https://repo.cl...

2020-04-26 23:14:16 345

原创 Mysql 摘记

一 查询表大小;SELECT table_schema AS '数据库', table_name AS '表', sum(table_rows) AS '记录数', sum(truncate(data_length/1024/1024, 2)) AS '数据容量(MB)', sum(truncate(index_length/1024/1024, 2)...

2020-04-26 21:23:59 185

原创 Canal报错整理

一、报错:com.alibaba.otter.canal.protocol.exception.CanalClientException: something goes wrong with reason: something goes wrong with channel:[id: 0x184cf2a7, /172.31.23.66:49436 => /172.31.23.66:11...

2020-04-24 15:10:11 3408

原创 SVN报错

一、Skipped '/xx/xx.php' -- Node remains in conflictAt revision 8915.Summary of conflicts:Skipped paths: 1解决:svn revert --depth=infinity/xx/xx.php然后重新up: svn up/xx/xx.php...

2020-04-14 11:47:39 418

原创 Azkaban 3.x 实战部署整理

一、Azkaban服务部署模式(1)solo-server模式使用的DB是azkaban包自带一个内嵌的H2库,Web Server和Executor Server运行在同一个进程里。这种模式包含Azkaban的所有特性,但一般用来学习和测试。(2)two-server模式DB使用的是MySQL,MySQL支持master-slave架构,Web Server和Execut...

2020-03-02 17:05:16 257

原创 GitHub:机器学习汇总

一、刘建平博客机器学习配套GitHub代码博客:http://cnblogs.com/pinardGitHub:https://github.com/ljpzzz/machinelearning

2020-02-09 16:24:33 451

原创 数据集:谭松波--酒店评论语料、人脸68位关键点、WIDE Face数据集

一、谭松波--酒店评论语料链接:https://pan.baidu.com/s/1oObY4A_Ovo1CY00UrgbBKg提取码:kth7二、300WLP人脸识别-关键点定位-68位关键点定位数据集链接:https://pan.baidu.com/s/1qzS4MRChcvxVdg_NUFLKHA提取码:1lo6三、人脸识别-WIDE Face数据集链接:h...

2020-02-08 21:23:25 3955 8

原创 Flink【优质】面试题摘录

一、概念和基础篇1. 简单介绍一下FlinkFlink核心是一个流式的数据流执行引擎,其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。基于流执行引擎,Flink提供了诸多更高抽象层的API以便用户编写分布式任务:DataSet API, 对静态数据进行批处理操作,将静态数据抽象成分布式的数据集,用户可以方便地使用Flink提供的各种操作符对分布式数据集进行处理,...

2020-02-06 10:25:32 2334

原创 GitHub:NLP学习

一、fighting41love/funNLPNLP民工的乐园: 几乎最全的中文NLP资源库词库 工具包 学习资料https://github.com/fighting41love/funNLP二、nlpinaction/learning-nlp自然语言处理算法与实战本书主要是面向初学者,介绍了一些基础的入门知识和概念,同时提供一些偏向于实战的代码供给读者练习,这里...

2020-02-01 23:13:04 743

原创 Mahout用户推荐 学习笔记

一、Mahout推荐的推荐系统引擎是模块化的,分为5个主要部分组成:数据模型,相似度算法,近邻算法,推荐算法,算法评分器。二、选择UserCF,ItemCF,SlopeOne的 3种推荐算法,进行7种组合的测试。userCF1: LogLikelihoodSimilarity + NearestNUserNeighborhood + GenericBooleanPrefUserBas...

2020-01-30 16:56:32 192

原创 GitHub:TensorFlow

一、FlinkML/flink-tensorflowflink-tensorflow - TensorFlow support for Apache Flinkhttps://github.com/FlinkML/flink-tensorflow

2020-01-29 21:45:41 238

原创 GitHub: ML/AI/DL collection

一、hoya012/deep_learning_object_detectionDescription:A paper list of object detection using deep learning.https://github.com/hoya012/deep_learning_object_detection

2020-01-29 17:27:46 221

原创 Clickhouse实战笔记

一、数据删除ALTER TABLE table_name DELETE where date = '2020-01-08'二、行转列三、REPLACE() 对字段内容进行替换select REPLACE('7654,7698,7782,7788', ',' ,'_') from table limit 5...

2020-01-08 10:15:50 1763

原创 文本分类机器学习算法摘记

一、 KMeans的优劣优点: 1.是解决聚类问题的一种经典算法,简单、快速 2.对处理大数据集,该算法保持可伸缩性和高效率 3.当结果簇是密集的,它的效果较好缺点 1.必须事先给出k(要生成的簇的数目),而且对初值敏感,对于不同的初始值,可能会导致不同结果。 2.对躁声和孤立点数据敏感二、召回率召回率是指检索出的 相关文档数 和 文档...

2019-12-26 17:44:47 316

原创 SQL:查询每科目前三名学生及分数

一、创建得分表-- 创建student_score表CREATE TABLE student_score( name varchar(20), subject varchar(20), score int);二、插入数据-- 插入数据INSERT INTO student_score(name, subject, score)VALUES ('张三...

2019-12-19 14:34:55 4467

原创 国内开源项目镜像服务

一、北京理工大学:http://mirror.bit.edu.cnhttp://mirror.bit.edu.cn/apache/sqoop/1.99.7/sqoop-1.99.7-bin-hadoop200.tar.gz

2019-12-12 11:14:22 207

原创 机器学习竞赛汇总

一、竞赛|数据竞赛Top解决方案开源整理https://mp.weixin.qq.com/s/_4QG0dWhh784lF0n1wymcw二、复盘所有NLP比赛的TOP方案https://github.com/zhpmatrix/nlp-competitions-list-review三、CDCS 中国数据竞赛优胜解集锦https://github.com/geek...

2019-12-05 15:21:53 1579 1

原创 GitHub:大数据生态架构【源码解读】汇总(按照GitHub的star排倒序)

一、Spark源码系列1、酷玩 Spark: Spark 源代码解析、Spark 类库等https://github.com/lw-lin/CoolplaySpark2、Spark源码剖析https://github.com/weibin0516/spark-sourcecodes-analysis3、spark ml 算法原理剖析以及具体的源码实现分析https:...

2019-12-05 15:02:59 446

原创 GItHub:【大数据实战项目】汇总

一、Spark1、《Spark 大型电商项目实战》* 用户访问session分析* 页面单跳转化率统计* 热门商品离线统计博客地址:http://blog.csdn.net/u012318074/article/category/6744423GitHub地址:https://github.com/Erik-ly/SprakProject2、基于spark stream...

2019-12-05 14:18:27 4826

原创 LayUI前端开发实战记录

一、使用弹出框完成页面遮罩layer.msg('加载中......', {icon: 16, shade: [0.5, '#f5f5f5'], scrollbar: false, offset: 'auto', time: 2000});二、弹出框设置显示时间layer.msg('修改成功!',{time:500});三、时间控件一)只可选择分秒【时间格式:mm:ss...

2019-11-20 17:51:04 738

原创 模型评估指标

1.回归评估指标RMSE、MAE、MSE、决策系数;2.分类评估指标精准率、召回率、准确率、F值、PRC3.聚类评估指标兰德指数、互信息、轮廓系数

2019-10-11 18:22:34 250

原创 机器学习 | 英文单词拾记

一、【专业术语缩写】1. ALS (Alternating Least Squares)协同算法:交替最小二乘法2. LDA两种缩写:【Latent Dirichlet allocation】 主题模型【Linear Discriminate Analysis】 线性判别分析单词注解: latent /ˈleɪtnt/adj. 潜在的;潜伏的;隐藏的...

2019-10-11 18:13:39 305

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除