- 博客(49)
- 收藏
- 关注
转载 IDEA关联Scala源代码并查看Scala方法源码
1、关联Scala源码在IDEA中查看Scala源码首先需要关联一下1、先下载Scala源代码下载链接https://www.scala-lang.org/download/all.html选择所需要的版本,(版本的选择是根据你的Scala插件版本决定的),点进去找到源代码下载项。我的idea中scala是2.11.8下载后并解压2、在intellij idea设置指向源代码在intellij中打开File –> Project Structure,快捷键(Ctrl + Alt
2021-12-02 14:32:54 2250
转载 Hive性能调优之合理调整Map与Reduce数量
合理设置map数量map阶段主要涉及两个问题:小文件太多或者大文件过于负责。对应的解决方案就是减少map数量与增加map数量。减少map数就是增加每个map处理的文件数量,用于处理大量小文件,间接加快速度。-- CombineHiveInputFormat有对小文件合并的处理,hive2.X已经默认使用CombineHiveInputFormatset hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
2021-06-10 10:53:58 664
转载 记录Spark 笛卡尔积问题
因为要上线一个需求,有改到spark sql。 在改之前我一般习惯把生产原逻辑跑一边理解下(需求赶,都是边读业务边写)但奇怪的是,在生产上已经跑了24个账期的代码,拉到自己环境跑却报了 两者的版本都是2.XDetected cartesian product for INNER join between logical plans的错误。这个错误很明显,笛卡尔积。国内所有的解决方案都是抄袭的设置 配置spark.conf.set("spark.sql.crossJoin.enable..
2021-03-12 17:02:14 957
转载 Spark如何处理数据倾斜
什么是数据倾斜数据倾斜是指我们在并行进行数据处理的时候,由于数据Spark的单个Partition)的分布不均,导致大量的数据集中分不到一台或者某几台计算节点上,导致处理速度远低于平均计算速度,从而拖延导致整个计算过程过慢,影响整个计算性能数据倾斜的危害单个或者某几个task拖延整个任务运行时间,导致整体耗时过大 单个task处理数据过多,很容易导致oom Executor Kill lost,Shuffle error数据倾斜的产生数据倾斜容易产生在两个过程,本身数据源读的倾斜,..
2020-10-09 17:22:50 482
转载 各大公司的大数据质量监控平台
在这个信息化时代,你用手机打开微信聊天、打开京东app浏览商品、访问百度搜索、甚至某些app给你推送的信息流等等,数据无时无刻不在产生。数据,已经成为互联网企业非常依赖的新型重要资产。数据质量的好坏直接关系到信息的精准度,也影响到企业的生存和竞争力。Michael Hammer(《Reengineering the Corporation》一书的作者)曾说过,看起来不起眼的数据质量问题,实际上是拆散业务流程的重要标志。 数据质量管理是测度、提高和验证质量,以及整合组织数据的方法等一套处理准则,而体量大、
2020-08-04 15:21:31 1776
转载 【数仓】数据仓库的建设(二)
前言:前文说了一些数据仓库的基础概念和模型,本文继续往下说吧!【数仓】数据仓库的思考(一):https://blog.csdn.net/lsr40/article/details/1055760471、数仓的目标(能完成什么事情)当工作中遇到以下的事情:-1.数据分层混乱,不知道从何查起-2.数据指标维度不统一,业务/数据分析部门要数据,只能找数据开发口口相传-2.数据建设缺乏规范,表结构字段定义不统一,字段含义模糊,数据任务、数据表维护成本高。-3.重复计算同一个数据.
2020-08-01 09:18:44 290
转载 【数仓】数据仓库的思考(一)
前言:对于数仓的概念非常大非常广泛,而且也并没有绝对正确的架构,只是有一定的方法论,一定的前人总结留下来的理论,所以我也不知道我这个系列会更多久,会更多少,反正我就把我现在对于数仓的想法记录下来,以后如果有更深的理解,再说吧~1、什么是数据仓库这个百度也能找到答案,但是我想说的是我的观点。数仓应该是一种数据整合,数据治理,将数据做成一种服务,对外提供。什么叫数据整合,大家应该听过数据孤岛/烟囱这个概念,大概意思就是说:一家公司,数据开发各做各的,数据相互之间不能打通,数据情况掌握在不同.
2020-08-01 09:17:52 342
转载 记一次Scrapy进程卡死的Debug过程
发现问题日常巡查数据入库情况时,发现最新数据的入库时间停在了凌晨。立刻登录远程服务器,尝试定位问题。 定时任务是否正常工作,是否有报错信息 crontab -l 经检查发现,定时任务工作正常,也没有运行报错的记录。 查看系统进程,采集程序是否运行 ps -ef | grep xxxappspider 输出信息如下 可以看到进程在凌晨 01:40 成功启动了,但是一直没有执行完成,推测是代码出现了死锁等问题?查看日志也没有记录到有用的信息。 检查
2020-07-26 14:21:05 1072
转载 HBase读写的几种方式(二)spark篇
1. HBase读写的方式概况主要分为:纯JavaAPI读写HBase的方式; Spark读写HBase的方式; Flink读写HBase的方式; HBase通过Phoenix读写的方式;第一种方式是HBase自身提供的比较原始的高效操作方式,而第二、第三则分别是Spark、Flink集成HBase的方式,最后一种是第三方插件Phoenix集成的JDBC方式,Phoenix集成的JDBC操作方式也能在Spark、Flink中调用。注意:这里我们使用HBase2.1.2版本,spar.
2020-07-16 10:50:41 571
转载 Spark SQL中外连接查询中的谓词下推规则
SparkSqlSparkSql是架构在spark计算框架之上的分布式Sql引擎,使用DataFrame和DataSet承载结构化和半结构化数据来实现数据复杂查询处理,提供的DSL可以直接使用scala语言完成sql查询,同时也使用thrift server提供服务化的Sql查询功能。SparkSql提供了Data Source API,用户通过这套API可以自己开发一套Connector,直接查询各类数据源,包括NoSql、RDBMS、搜索引擎以及HDFS等分布式FS上的文件等。和SparkSql类似
2020-07-14 19:31:21 290
转载 mysql之自定义函数
本文内容:什么是函数 函数的创建 函数的调用 函数的查看 函数的修改 函数的删除首发日期:2018-04-18什么是函数:函数存储着一系列sql语句,调用函数就是一次性执行这些语句。所以函数可以降低语句重复。【但注意的是函数注重返回值,不注重执行过程,所以一些语句无法执行。所以函数并不是单纯的sql语句集合。】 mysql函数有自己的自定义函数(已经定义好了的函数),想了解更多的可以参考我的另一篇博文:mysql之常用函数 这里主要介绍如何自定义函数。补...
2020-07-14 18:59:28 127
转载 Kafka消费者手动提交消息偏移
生产者每次调用poll()方法时,它总是返回由生产者写入Kafka但还没有消费的消息,如果消费者一致处于运行状态,那么分区消息偏移量就没什么用处,但是如果消费者发生崩溃或者有新的消费者加入群组,就会触发再均衡,完成再均衡之后,每个消费可能分配到新的分区,而不是之前处理的那个,为了能够继续之前的工作,消费者需要读取每个分区最后一次提交的偏移量,然后从偏移量制定的地方开始工作。消费者会往一个__consumer_offser的主题发送消息,消息里包含每个分区的偏移量。1.同步提交import o...
2020-07-14 11:09:48 463
转载 Scala调用Kafka的生产者和消费者Demo,以及一些配置参数整理
Scala调用Kafka的生产者和消费者Demo,以及一些配置参数整理kafka简介Kafka是apache开源的一款用Scala编写的消息队列中间件,具有高吞吐量,低延时等特性。Kafka对消息保存时根据Topic进行归类,发送消息者称为Producer,消息接受者称为Consumer,此外kafka集群有多个kafka实例组成,每个实例(server)称为broker。无论是kafka集群,还是producer和consumer都依赖于zookeeper集群保存一些meta信息,来保证系
2020-07-14 11:07:40 759
转载 SparkStreaming 整合kafka Demo
SparkStreaming 整合kafka Demo这里使用的是低级API,因为高级API非常不好用,需要繁琐的配置,也不够自动化,却和低级API的效果一样,所以这里以低级API做演示你得有zookeeper和kafka我这里是3台节点主机架构图与高级API的区别,简单并行(不需要创造多个输入流,它会自动并行读取kafka的数据),高效(不会像receiver数据被copy两次),一次性语义(缺点:无法使用zookeeper的监控工具)1.创建maven工程首先..
2020-07-13 20:46:05 294
转载 IDEA-Maven的环境配置及使用
IDEA-Maven的环境配置及使用一、Maven的下载IDEA的往期下载地址:https://www.jetbrains.com/1.点击进入 1.往期的下载地址:http://www.apache.org/ 操作步骤:我们点击进入Projects---->如图(1) 、(2)、 (3)、(4)、(5)、解压后我们可以看到这个目录(6)、解压文件后,我们要新增两个环境变量 1.M2_HOME-...
2020-07-09 18:57:49 206
转载 python–multiprocessing多进程总结
python–multiprocessing多进程总结由于GIL的存在,python中的多线程其实并不是真正的多线程,如果想要充分地使用多核CPU的资源,在python中大部分情况需要使用多进程。Python提供了非常好用的多进程包multiprocessing,只需要定义一个函数,Python会完成其他所有事情。借助这个包,可以轻松完成从单进程到并发执行的转换。multiprocessing支持子进程、通信和共享数据、执行不同形式的同步,提供了Process、Queue、Pipe、Lock等组件。mu
2020-06-15 14:35:22 184
转载 Django学习笔记(四十三):使用redis进行页面数据缓存和更新缓存数据
Django学习笔记(四十三):使用redis进行页面数据缓存和更新缓存数据在开发过程中会遇到一些页面的数据是很长时间才进行更新的,不使用缓存的情况下,用户每次访问这些都需要先去数据库中获取这些数据,当访问量较大时,这样获取数据的方式就会降低页面的访问速度,影响效率,这时就可以使用redis将这些数据保存起来,通过判断是否生成过获取以及是否更新过数据来生成新的缓存数据具体操作如下:在settings.py里添加缓存设置Django的缓存配置CACHES = { "default": {
2020-05-08 20:31:29 432 1
转载 scrapy遇到Couldn't bind: 24: Too many open files.错误的解决
现象为爬虫日志报出Couldn't bind: 24: Too many open files.错误,netstat -natep | grep 代理端口 或爬虫进程ID,有大量ESTABLISHED的连接。Socket error 10024,具体错误信息就是Too many open files 。由于爬虫使用了代理,每次请求切换一次代理IP,代理连接有时会发生异常,在爬虫高并发的情况...
2020-02-27 09:53:37 518
转载 mysql用户debian-sys-maint
参考地址:http://usidcbbs.com/read-htm-tid-49.htmlhttp://zhidao.baidu.com/question/177611601.html刚安装了MySQL发现有个用户debian-sys-maint,是不是后门,能否删除?这是系统自动生成的mysql用户,debian和ubuntu系统都会这样做,debian-s...
2020-02-18 15:20:48 1505
转载 前端ui框架layui——layer弹出层-弹出框方法
——————————弹出框方法—————————————————1.layer.open(options) - 原始核心方法基本上是露脸率最高的方法,不管是使用哪种方式创建层,都是走layer.open(),创建任何类型的弹层都会返回一个当前层索引,上述的options即是基础参数,另外,该文档统一采用options作为基础参数的标识例子:layer.open ({...
2019-06-22 10:06:10 7021
转载 js去除字符串空格(空白符)
使用js去除字符串内所带有空格,有以下三种方法:( 1 ) replace正则匹配方法 去除字符串内所有的空格:str = str.replace(/\s*/g,""); 去除字符串内两头的空格:str = str.replace(/^\s*|\s*$/g,""); 去除字符串内左侧的空格:str = str.replace(/^\s*/,""); 去除字符串内右侧的空...
2019-06-13 18:07:29 123
转载 input只能输入数字并限制长度和大小
input只能输入数字并限制长度限制长度(字符数)<input type="number" oninput="if(value.length>11)value=value.slice(0,11)" />限制大小(最大值、最小值)//限制最大值30<input type="number" oninput="if(value>30)value=...
2019-06-13 13:48:28 4622
转载 python3.7安装 win10为例
到2019年初,Python3已经更新到了Python3.7.3,Python有两个大版本Python2和Python3,Python3是现在和未来的主流。本文介绍Python3.7.3的安装步骤.一、下载Python3.7.31.百度搜索Python,找到Python官网,点击进入https://www.python.org/2.点击Python官网的Downlo...
2019-06-11 23:08:03 1601 2
转载 virtualenvwrapper配置报错
1. 安装virtualenvsudo pip install virtualenv2. 安装virtualenvwrappersudo pip install virtualenvwrapper默认会将virtualenvwrapper安装到/usr/local/bin目录下,需要在用户的.bsharc文件中增加如下配置:# 1. Create a directory to hol...
2019-04-10 20:32:34 211
转载 ubunut python2 和python 3 同时存在 pip指向问题
因为python2和python3版本不兼容的原因,所以很多系统上避免不了转python2 和python3. pip 很容易指向同一个。在我的电脑上,pip和pip3 都指向了python3. 为了让pip指向python2, pip3 指向python3.需要做一些简单的修改;命令如下:which pip一般情况下会显示:/usr/local/bin/pip然后 vim /us...
2019-01-09 13:27:59 306
原创 收集免费快递查询接口
百度-快递100接口:改为Kuai_Di_URL = 'http://baidu.kuaidi100.com/query?type={快递公司b编号}&postid={快递单号}&id=4'参考网址:https://blog.csdn.net/fighting_tl/article/details/79277699...
2019-01-08 20:04:08 601 1
转载 $().click()和$().on('click','要选择的元素',function(){})的区别
$(选择器).click(function(){}):页面中已经存在的DOM。$(ducument).on(‘click’,‘要选择的元素’,function(){}):动态创建的元素也能触发事件,且ducument在页面已经存在,而不是动态添加的。on方法包含很多事件,点击,双击等等事件。下面举例子说明://CSS可忽略<!doctype html><h...
2018-11-29 15:11:10 14591 1
原创 scrapy晋级---------处理返回状态码异常,ip超时
简单粗暴些,利用scrapy 框架原理自定义middleware 处理状态码异常,ip 超时的异常,重现发送请求,这里需要重写scrapy 内置的中间件 RetryMiddleware,middlewares.pyclass Process_Proxies(RetryMiddleware): logger = logging.getLogger(__name__) ...
2018-10-31 15:48:14 2716 1
转载 ubuntu 16.04 爬虫分布式部署--遇到的redis 问题
打开保存失败,权限不足,我的redis是apt-get 安装的,解决方式:您需要将以下内容添加到/ etc / systemd / system / redis-server单元文件中: ReadWriteDirectories=-/var/lib/redis 请注意,这/var/lib/redis是默认设置,但如果在您/etc/redis/redis.conf设置了不同的dir配...
2018-10-22 19:31:55 291
原创 mysql 报错 1055, this is incompatible with sql_mode=only_full_group_by
这是mysql版本的问题,网上有很多同仁给出了解决办法,但还是会有不少坑,解决方法:ubuntu: mysql - V ,查看mysql 版本 连接mysql 输入 select @@sql_mode //查出sql_mode的值 修改my.cnf,把上一步查出的sql_mode复制过来,去掉only_full_group_by 输入 mysql --help | ...
2018-10-20 16:47:20 199
原创 ubuntu 设置 crondtab 定时任务
一 ,出现错误 cron: can’t lock /var/run/crond.pid, otherpid may be 2699: Resource temporarily unavailable ubuntu 在执行crond restart 时提示cron: can’t lock /var/run/crond.pid, otherpid may be 2699: Resource t...
2018-10-20 15:13:54 590
原创 django 利用kindeditor 前端上传图片
项目使用django写的,要在前端结合完成富文本上传图片的功能,代码,如下:首先建立js文件,config.js 里面写kindeditor的配置// 实例化编辑器$(function(){ var title = $('#lan').text(); KindEditor.ready(function(K) { K.create('#editor_id', {...
2018-09-17 19:31:39 811
原创 jquery 动态添加元素,动态删除元素
$('#input').change(function () { console.log($('#add')); value = this.value; if (this.value){ $('#add').append("<a name='key' class='btn btn...
2018-09-07 17:13:22 4692
原创 jquery 发送图片,表格
$('form').submit(function (event) { var formdata = new FormData(); event.preventDefault(); console.log($('#add').children()); var count = 0; ...
2018-09-07 17:10:34 172
原创 django queryset相加和筛选
1、集合相加a = {1,2,3}b = {3,4,5}print(type(a))print(a|b)2、queryset 符合条件的筛序projects = Project_models.objects.filter(user=request.user).order_by('id')projects = projects.filter(bad_numbers__gt=...
2018-09-06 18:49:41 1934
原创 django 上传xls表格,下载xls表格
from django.shortcuts import render,HttpResponsefrom django.views import Viewimport xlrdfrom .forms import UploadExcelFormfrom .models import *from xlwt import *import osfrom io import StringI...
2018-08-15 17:37:58 846 2
原创 requests 发送post请求,调用百度API语言分析测试
import requestsimport jsonfrom BaiduSpider.settings import TOKENclass Emotion(object): """ "sentiment":2, //表示情感极性分类结果 "confidence":0.40, //表示分类的置信度 "po...
2018-08-06 17:56:50 801
原创 python 操作redis基础 一(key过期设置)
设置 redis key 过期时间,过期自动清除import hashlib"""MD5加密"""url = 'https://www.baidu.com'h1 = hashlib.md5()h1.update(url.encode())print('MD5加密前为 :' + url)print('MD5加密后为 :' + h1.hexdigest())r.lpush('url...
2018-07-26 16:58:01 3583
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人