Furys-CSDN博客

原创解决：import pyspark报错：AttributeError: module ‘os‘ has no attribute ‘add_dll_directory‘

环境Apache-flink1.12.0Pyspark3.0.0Python 3.8.0a2动作import pysparkBUGFile “C:\opt\client\python3\Python38\lib\site-packages\numpy_config_.py”, line 13, in os.add_dll_directory(extra_dll_dir)AttributeError: module ‘os’ has no attribute ‘add_dll_directo

2022-03-12 22:55:54 13376 7

原创解决:ImportError: cannot import name ‘Literal’ from ‘typing’ (PYTHON_HOME\lib\typing.py

环境Python 3.8.0a2Pip 18.1动作Pip升级pip 22.0.4pip install --upgrade pipBUG升级后使用pip命令报错：File “C:\opt\client\python3\Python38\lib\site-packages\pip_vendor\rich\console.py”, line 36, in from typing import Literal, Protocol, runtime_checkableImportError:

2022-03-12 22:05:53 15520 19

原创误删/dve/loop0文件解决方法!

loop0文件的属性之前应该是这样的应该是属于disk组的…解决:mknod -m 666 /dve/loop0 b 7 0666是访问权限b是文件类型,就是图片的第一个字母后面的7和0对应日期前面的数据其他的/dev/中的文件被误删了也可以用类似的方法恢复老板解决了问题就给点个赞呗~_~...

2020-06-18 11:26:56 690 2

原创 hadoop中的MapReduce,详解(带自己画的图 )

写在前面: 如果本文有错误的地方还望大佬指出,小弟不胜感激.MapReduce的框架介绍1.1. 说道mapreduce不得不说一下他的设计思想MapReduce的核心思想就是 “分而治之” 那什么是分而治之呢?举个例子: 就比如说古代皇帝要去管理一整个国家,但是他一个人肯定是管理不过来的,然后就有了宰相,大臣等,但是这些人也管理不过来,于是就继续往下分,就有了县官等等. 由县官将每个县的问题上报给大臣,然后又有大臣上报给宰相或者皇帝.这里我们可以理解成两个mapreduce,县官到大臣的过程中,

2020-05-17 17:22:58 711

转载学习Python:安装Anaconda遇到的问题

写在前面: 今天突然对python感兴趣了,于是来学习一下她,然后我就遇到了第一个霸哥.问题: 我想去修改jupyter默认的工作空间,但是我搜索了一下没有jupyter_notebook_config.py配置文件?(黑人问号)…然后就折腾到了第二天,也就是现在写下了这篇博客.解决: 在cmd中定位到(Scripts文件夹)D:\software\implemental\Anaconda3\Scripts然后执行: jupyter notebook --generate-config这样就会在用户

2020-05-15 00:23:12 318

原创 hadoop的写流程,详解(带自己画的图)

写在前面: 不考虑HA和Federation架构,如果本文有错误的地方还望大佬指出,小弟不胜感激.1.客户端通过shell命令的方式传输文件到HDFS上(申请上传)hdfs dfs -put a.txt /tmp#如果添加了-f就会覆盖掉hdfs上/tmp/a.txt文件2.namenode检查文件夹是否存在,检查文件是否存在,如果文件夹不存在是肯定不能上传的,如果文件存在就要看有没有覆盖写入了3.返回允许上传通知1-3步图片4.判断文件的大小,然后切割文件,默认按照128m去切割(had

2020-05-11 00:26:38 833 4

原创 hive中的几种排序方式详解(附带具体数据)

数据:1、order by 会对输入做全局排序，因此只有一个 reducer，会导致当输入规模较大时，需要较长的计算时间。演示:selectid,score,subjectfrom score1 order by score;结果图:2、sort by 不是全局排序，其在数据进入 reducer 前完成排序。因此，如果用 sort by 进行排序，并且设置 mapred.r...

2020-05-01 18:46:01 1803

原创 Kafka的配置文件说明

Server.properties配置文件说明#broker的全局唯一编号，不能重复broker.id=0#用来监听链接的端口，producer或consumer将在此端口建立连接port=9092#处理网络请求的线程数量num.network.threads=3#用来处理磁盘IO的线程数量num.io.threads=8#发送套接字的缓冲区大小socket.send....

2020-04-26 23:27:15 175 1

原创用Flink实现反爬虫

前提看点: 我只是对同一IP进行了统计,没有解决IP代理问题.实现思路:1. 从kafka中获取一条日志2. 使用LogParsing框架解析日志3. 发送给kafka4. 从kafka获取解析后的日志5. 对日志进行ip提取,使用窗口聚合6. 对聚合后的数据进行过滤7. 将过滤得到的结果存入mysql中在码云上的代码...

2020-04-25 22:14:34 623

转载拉链表详解!

https://blog.csdn.net/u014770372/article/details/77069518

2020-04-05 21:05:50 465

转载集合/数据结构

https://blog.csdn.net/weixin_40247263/article/details/80765564

2020-03-30 02:12:52 110

转载 Azkaban中的一些坑

我这里用的是two-server模式部署的第一个坑启动坑在启动时我们一般都进入到bin下面去启动,但是azkaban只能在根目录下启动,如果是在bin下面启动会闪退并且在logs日志中会有一个错误2020/03/13 16:41:05.906 +0800 ERROR [StdOutErrRedirect] [Azkaban] com.google.inject.ProvisionExcep...

2020-03-13 21:25:45 1438 1

原创学习sqoop二:sqoop导出hadoop数据到mysql和sqoop的job任务

1.sqoop导出hadoop数据到mysql前提: 将数据从Hadoop生态体系导出到RDBMS数据库导出前，目标表必须存在于目标数据库中。

2020-03-13 15:50:46 322

原创 sqoop导入hive相关操作

1.全量导入mysql一张表数据到hive1.1第一种方法先复制表结构后导入数据#导入表结构bin/sqoop create-hive-table \--connect jdbc:mysql://node01:3306/test \--table tmp \--username root \--password 123456 \--hive-table test.ods_tmp...

2020-03-09 23:58:22 324

原创 sqoop的三个常见错误!!!

错误1: java.lang.NoClassDefFoundError: org/json/JSONObject :原因:找不到类: org/json/JSONObject缺包: org/json/JSONObject解决方案:将这个java-json的包上传到 sqoop的lib的目录下错误2: java.lang.ClassNotFoundException: org.apa...

2020-03-09 17:17:34 559 1

转载 Phoenix创建二级索引遇到的问题

创建二级索引:create local index “idx_tel” on “employee”(“family”.“tel”);报错:Error: ERROR 102 (08001): Malformed connection url. ERROR 102 (08001): ERROR 102 (08001): Malformed connection url. :node01:2181...

2020-02-29 16:53:12 556

原创异步io实现实时数据表拉宽

Async I/O 是阿里巴巴贡献给社区的一个呼声非常高的特性，于1.2版本引入。主要目的是为了解决与外部系统交互时网络延迟成为了系统瓶颈的问题。**场景:**流计算中因原来的表字段不够,需要扩宽,这样我们就需要查询外部数据库关联以获取额外的字段,通常,我们的实现方式是向数据库发送用户a的查询请求,然后等待返回结果,在这之间我们无法发送用户b的查询请求。这是一种同步访问的模式,如下图左边所示。...

2020-02-27 19:55:26 604 1

原创引入公共模块common报错问题

1.如果是父模块下有多个子模块,common模块在子模块中,pom文件中应有如下内容:common模块的pom.xml<parent> <artifactId>praent</artifactId> <groupId>域名</groupId> <version>1.0-SNAPSHOT</version>...

2020-02-24 22:52:58 4344

原创 SQLyog导入大数据包时报错!!!

错误内容如下:Error occured at:2020-02-23 23:56:59Line no.:143Error Code: 2006 - MySQL server has gone awayError occured at:2020-02-24 00:00:56Line no.:678Error Code: 1418 - This function has none of ...

2020-02-24 00:24:39 697

原创 spark报错ERROR history.FsHistoryProvider

错误内容:spark的logs日志20/02/23 15:28:14 ERROR history.FsHistoryProvider: Exception encountered when attempting to load application log hdfs://node01:9000/sparklog/local-1577264935490org.apache.hadoop.hd...

2020-02-23 16:40:54 955

new_Xxx的博客