勇敢607-CSDN博客

原创 python中pandas用法整理

1、首先导入pandas库，一般都会用到numpy库，所以我们先导入备用：importnumpyasnpimport pandasaspd2、导入CSV或者xlsx文件：df=pd.DataFrame(pd.read_csv('name.csv',header=1))df=pd.DataFrame(pd.read_excel('name.xlsx'))3、用pandas创建数据表：df=pd.DataFrame({"id":[1001,1002,1003,1004,...

2021-04-20 10:13:00 1396

原创大数据相关组件答疑

1、 HDFS文件读流程？（1）客户端通过调用FileSystem的open方法获取需要读取的数据文件，对HDFS来说该FileSystem就是DistributeFileSystem（2）DistributeFileSystem通过RPC来调用NameNode，获取到要读的数据文件对应的bock存储在哪些NataNode之上（3）客户端先到最佳位置（距离最近）的DataNode上调用FSDataInputStream的read方法，通过反复调用read方法，可以将数据从DataNode传递到客

2021-04-08 09:04:28 184

原创 spark sql核心API整理

核心API:sparkSession: spark入口统一封装SparkConf,SparkContext,SQLContext, 配置运行参数,读取文件,创建数据,使用SQLDataset:统一Dataset接口,其中DataFrame==Dataset[Row]基本实现了类似RDD的所有算子column: Dataset的列对象包括对列操作的基本函数ROW : DataFrame的行对象包括对行操作的基本函数Encoder : 序列化支持常用的数据...

2021-03-22 12:20:03 533

原创 kafka 命令行工具常用命令行操作

1 数据命令1.1 启动kafka服务zookeeper：主要设置clientPort（使用kafka自带的zookeeper）bin/zookeeper-server-start.sh config/zookeeper.properties bin/zookeeper-server-start.sh config/zookeeper.propertiesstart kafka server:bin/kafka-server-start.sh config/server.prope...

2021-01-06 16:11:41 324

原创 shell 截取字符串的几种方式

Shell 截取字符串通常有两种方式：从指定位置开始截取和从指定字符（子字符串）开始截取。从指定位置开始截取这种方式需要两个参数：除了指定起始位置，还需要截取长度，才能最终确定要截取的字符串。既然需要指定起始位置，那么就涉及到计数方向的问题，到底是从字符串左边开始计数，还是从字符串右边开始计数。答案是 Shell 同时支持两种计数方式。1) 从字符串左边开始计数如果想从字符串的左边开始计数，那么截取字符串的具体格式如下：${string: start :length}其中，.

2020-09-17 12:05:58 1699

原创 Linux sed用法总结(个人)

sed在处理文本时是逐行读取文件内容，读到匹配的行就根据指令做操作，不匹配就跳过。一 sed总体概述sed是Linux下一款功能强大的非交互流式文本编辑器，可以对文本文件进行增、删、改、查等操作，支持按行、按字段、按正则匹配文本内容，灵活方便，特别适合于大文件的编辑。本文主要介绍sed的一些基本用法，并通过shell脚本演示sed的使用实例。1.sed的使用方法，调用sed 命令的语法有两种：1)在命令行指定sed指令对文本进行处理：sed +选项 ‘指令’ 文件2) 先将sed...

2020-09-17 12:01:52 203

原创 Hive中文乱码

解决思路:主要从hive meta_store的元数据hive库进行编码设置1 mysql -u root -p 输入相关密码进入mysql ;2 切换到hive 数据>>use hive;3 在mysql命令行，执行以下5条SQL语句3.1 修改表字段注解和表注释alter table COLUMNS_V2 modify column COMMENT varch...

2019-03-05 17:53:54 1257

原创 Hadoop hdfs操作的一些常用命令

概述本文档介绍Hadoop hdfs系统的一些常用命令。操作hdfs系统可以使用hadoop fs 也可以使用 hdfs dfs ,两者效果一样。(hadoop dfs命令已不再建议使用)参考: http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html常用命令一、had...

2019-03-01 14:54:37 462

转载建设数据仓库需要考虑的因素

1.系统分析，确定主题建立数据仓库的第一个步骤就是通过与业务部门的充分交流，了解建立数据仓库所要解决的问题的真正含义，确定各个主题下的查询分析要求。业务人员往往会罗列出很多想解决的问题，信息部门的人员应该对这些问题进行分类汇总，确定数据仓库所实现的业务功能。一旦确定问题以后，信息部门的人员还需要确定一下几个因素：·操作出现的频率，即业务部门每隔多长时间做一次查询

2016-10-09 17:01:54 2487

转载 oracle 索引的（创建、简介、技巧、怎样查看）

oracle 索引的（创建、简介、技巧、怎样查看）一、索引简介1、索引相当于目录2、索引是通过一组排序后的索引键来取代默认的全表扫描检索方式，从而提高检索效率。3、索引的创建要适度，多了会影响增删改的效率，少了会影响查询的效率，索引最好创建在取值分散的列上，避免对同一张表创建过多的索引4、索引的使用对用户来说是透明的，由系统来决定什么时候使用索引。5、Oracle支持多种类

2016-10-09 16:59:36 673

转载浅谈数据清洗的一些要素

预处理阶段预处理阶段主要做两件事情：一是将数据导入处理工具。通常来说，建议使用数据库，单机跑数搭建MySQL环境即可。如果数据量大（千万级以上），可以使用文本文件存储+Python操作的方式。二是看数据。这里包含两个部分：一是看元数据，包括字段解释、数据来源、代码表等等一切描述数据的信息；二是抽取一部分数据，使用人工查看方式，对数据本身有一个直观的了解，并且初步发现一些问题，为之后的处

2016-09-22 13:45:49 55564

转载浅谈Linux IO 性能监控

Linux系统出现了性能问题，一般我们可以通过top、iostat、free、vmstat等命令来查看初步定位问题。其中iostat可以给我们提供丰富的IO状态数据。基本使用$iostat -d -k 1 10参数 -d 表示，显示设备（磁盘）使用状态；-k某些使用block为单位的列强制使用Kilobytes为单位；1 10表示，数据显示每隔1秒刷新一次，共显示10次

2016-09-06 22:06:14 9012

原创 oracle 限制用户密码输入错误次数

一、限定用户输入密码错误次数，错误输入超过指定次数后锁定该用户一定时间。如：指定scott用户最多可错误输入密码3次，超过3此错误输入后锁定该用户2天sql>create profile myprofile limit failed_login_attempts 3 password_lock_time 2;sql>alter user scot profile

2016-09-06 22:05:06 4680

转载 oracle 监控表空间使用情况常用SQL整理

查看表空间使用情况select upper(f.tablespace_name) "表空间名",d.tot_grootte_mb "表空间大小(m)",d.tot_grootte_mb - f.total_bytes "已使用空间(m)",to_char(round((d.tot_grootte_mb - f.total_bytes) / d.tot_grootte_mb * 10

2016-09-04 13:59:40 1463

原创浅谈oracle的关闭方式

对于oracle的关闭，有几种模式，各有不同。现将oracle的关闭方式做一些总结。 1 关闭数据库大概有以下过程1.1 关闭数据库1. 把高速缓冲区和重做日志缓冲区中的内容分别写入数据文件和联机日志文件,2. 关闭所有联机数据文件和日志文件此时控制文件仍处于打开状态.1.2 卸载数据库1. 从一个实例卸装数据库2. 关闭控制文件此时实例依然存在。1.3 关

2016-09-03 10:36:54 615

原创 oracle 新增表空间的几种方法

方法1：给表空间增加数据文件ALTER TABLESPACE test_data ADD DATAFILE'D:\ORACLE\PRODUCT\10.2.0\ORADATA\EDWTEST\APP03.DBF' SIZE 50M; 方法2：新增数据文件，并且允许数据文件自动增长ALTER TABLESPACE test_data ADD DATAFILE'D:\ORACLE

2016-09-02 13:00:18 766 1

原创 Oracle中查看表字段和注释的方法

select table_namefrom user_tables;//当前用户拥有的表 select table_namefrom all_tables;//所有用户的表 select table_name from dba_tables;//包括系统表select table_name from dba_tableswhere owner='用户

2016-09-01 22:15:38 2342

转载 linux系统性能监控常用命令

一、Linux服务器性能关注点1)CPU-> load:表示cpu在一段时间内正在处理以及等待处理的任务之和统计信息，简单可理解为cpu正处理的线程数和能同时处理的线程数的比值。一般认为load值的安全上限为cpu的个数-> run queue:表示cpu维护的线程运行队列。在多核系统中，每个cpu都将维护这么一个队列，其长度值越大表明cpu负载越高，load指标便基于此统计而来-

2016-09-01 19:32:44 288

转载 Linux 常用的命令汇总集

一、硬件篇1、cpu相关lscpu #查看CPU的统计信息cat /proc/cpuinfo #查看CPU详细信息，如每个CPU的型号等2、内存相关free -m #概要查看内存情况，这里的单位是MBcat /proc/meminfo #查看内存详细信息3、磁盘相关lsblk

2016-09-01 19:25:39 238

原创 oracle中如何修改process(进程)

oracle中修改process 在 oracle中，要经常查看process(进程数):查看ORACLE最大进程数：SQL> select count(*) from v$session #连接数SQL> Select count(*) from v$session where status='ACTIVE'　#并发连接数SQL> show parameter proces

2016-08-29 10:37:38 19757

转载 oracle分区表详解

一. 分区表理论知识Oracle提供了分区技术以支持VLDB(Very Large DataBase)。分区表通过对分区列的判断，把分区列不同的记录，放到不同的分区中。分区完全对应用透明。Oracle的分区表可以包括多个分区，每个分区都是一个独立的段（SEGMENT），可以存放到不同的表空间中。查询时可以通过查询表来访问各个分区中的数据，也可以通过在查询时直接指定分区的方法来进行查询。

2016-08-22 10:36:01 616

勇敢前行,一路向前