自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(33)
  • 资源 (13)
  • 收藏
  • 关注

原创 Python基础知识练习题(一)

#!/usr/bin/env python# -*- coding:utf-8 -*-# Python基础知识练习题(一)#1、使用while循环输入1 2 3 4 5 6 8 9 10a = 0while a < 10: a += 1 if a ==7: print("【我是小七,我会隐身,你看不到我】",end=" ") c...

2018-07-13 10:26:28 830

原创 Python字符串格式化和集合

#!/usr/bin/env python# -*- coding:utf-8 -*-#format字符串格式化tpl = "i am {name}, age {age}, really {name}".format(name="seven", age=18)print(tpl)# 运行结果:i am seven, age 18, really seventpl = "i am {n...

2018-07-09 15:48:56 225

原创 Python列表、元祖、字典的常用方法

#######################################灰魔法: list类中提供的方法 ######################################## li = [11, 22, 33, 22, 44]# 参数# 1. 原来值最后追加# 对象.方法(..) # li对象调用append方法# li.append(5)# li.append...

2018-07-04 17:07:41 261

原创 Python基本数据类型常用方法

#!/usr/bin/env python# -*- coding:utf-8 -*-#基本数据类型#查看数据类型print("1、")a = "123"print(type(a),a)#将字符串转换为数字print("2、")b = int(a)print(type(b),b)#将num转换为16进制数print("3、")num = "b"v = int(n...

2018-07-02 14:46:45 230

原创 Python编程入门学习笔记(十)

python学习笔记(十)<h1 style="text-align:center">泰坦尼克数据处理与分析 </h1>![](http://www.allengao.cn/wp-content/uploads/2018/06/Titanic.jpg)```pythonimport pandas as pd%matplotlib inline```##...

2018-06-22 08:41:54 314

原创 Python编程入门学习笔记(九)

python学习笔记(九)## Python第四课### 新的数据格式:CSV- 纯文本,使用某个字符集,比如ACSII,Unicode,EBCDIC或GB2312(简体中文环境)等;- 由记录组成(典型的是每行一条记录);- 每条记录被分隔符(英语:Delimiter)分隔为字段(英语:Field(computer science))(典型分隔符有逗号、分号或制表符;有时分隔符可以包...

2018-06-20 17:14:26 332 1

原创 Python编程入门学习笔记(八)

Python学习笔记(八)## Python 第四课### 课程安排 1、numpy 2、pandas 3、matplotlib### numpy 数组和列表,列表可以存储任意类型的数据,而数组只能存储一种类型的数据```pythonimport array``````pythona = array.array('i',range(10))...

2018-06-19 09:18:38 190

原创 Python编程入门学习笔记(七)

python学习笔记(七)简单爬虫python库    1、request 用来获取页面内容    2、BeautifulSoup     文档链接:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html爬取链家网的信息    安装第三方库 pip install requests pip install bs4新建...

2018-06-15 16:47:01 218

原创 Python编程入门学习笔记(六)

python学习笔记(六)## Python第三课### 推荐一个python数据结构可视化工具 http://www.pythontutor.com/### 课表- Mysql数据库的基本操作- 用python操作数据库- 编写python爬虫并保存到数据库### 数据库 我们平时说的数据库,指的是数据库管理系统### Mysql数据库 MariaDB...

2018-06-14 14:50:51 335

原创 Python编程入门学习笔记(五)

Python编程入门学习笔记(五)### 函数```pythonvaribal = { 'a': 100, 'b': 100, 'c': 200}``````pythonvaribal['a']``` 100```pythonvaribal.items()``` dict_items([('a', 100)...

2018-06-13 16:04:18 341

原创 Python编程入门学习笔记(四)

Python 学习笔记(四)## python第二课### 课程内容1、条件判断 2、循环 3、函数 4、类### 条件判断```python#伪代码表示if condition: do somethingelse: do something```#### 应用题:小明买水果,合计金额为32.5元,水果店搞活动,满30打九折,求小明的实际花费?...

2018-06-11 15:57:32 220

原创 Python编程入门学习笔记(三)

python编程入门学习笔记(三)### 切片```pythonline = 'Welcome to Beijing,welcome to China!'#取字符串的前10个字符,line[0:10],默认是0line[:10]``` 'Welcome to'```python#取第一个字符line[1]``` 'e'```p...

2018-06-08 17:38:46 570

原创 Python编程入门学习笔记(二)

Python编程入门学习笔记(二)### 变量:代表某个值的名称### 语法糖```pythona = 10b = 20a,b = b,aprint("a is {},b is {}".format(a,b))``` a is 10,b is 20 ### 命名规范 1、标识符的第一个字符必须是字母表中的字母(大写或小写)或者一个下划线。 2、标...

2018-06-07 11:08:35 224

原创 Python编程入门学习笔记(一)

# # 第一章 python介绍# ### 最简单的开始# In[5]:print('hello,"world')# In[4]:print("hello,'world")# 合理的使用单双引号,可以避免使用转义字符“\”# In[2]:import this# Python之禅 by Tim Peters# # 优美胜于丑陋 ...

2018-06-05 17:28:45 216

原创 Python编程入门学习笔记(前言)

第零章 学习Python前的准备工作关于学习内容的说明:一、Python基础 – 变量与数据类型,及常见数据类型的用法二、Python基础 – 条件、循环、函数、类三、Python爬虫 – Python爬虫并用Mysql数据库存储四、pandas通览 – 用pandas做数据处理分析五、实战     - 泰坦尼克幸存者预测学完本课程之后,你会:1、掌握基本的Python语法,并编写简单的Pytho...

2018-06-04 10:43:21 325

原创 SparkStreaming通过Kafka获取数据(Receiver方式)

Kafka是一种高吞吐量的分布式发布订阅消息系统,有如下特性:1、通过O(1)的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。2、高吞吐量:即使是非常普通的硬件Kafka也可以支持每秒数百万的消息。3、支持通过Kafka服务器和消费机集群来分区消息。4、支持Hadoop并行数据加载。相关术语介绍:BrokerKafka集群包含一个或多个服务器,这种服务...

2018-02-12 17:26:04 709

原创 SparkStreaming通过Flume获取数据(单机,push和poll两种方式)的实现

    Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。1、第一种方式,通过push的方式读取数据。首先在一台虚拟机上安装flume1.8.0,vi /etc/profile,添加配置信息# flume-1.8....

2018-02-12 11:51:19 407

原创 利用NetCat实现sparkstreaming按批次累加小练习

    netcat是网络工具中的瑞士军刀,它能通过TCP和UDP在网络中读写数据。netcat所做的就是在两台电脑之间建立链接并返回两个数据流,通过与其他工具结合和重定向,你可以在脚本中以多种方式使用,你能建立一个服务器,传输文件,与朋友聊天,传输流媒体或者用它作为其它协议的独立客户端。    首先在centos7上安装netCat,联网情况下运行命令yum install nmap-ncat....

2018-02-11 15:43:03 824

原创 基于Spark2.0搭建Hive on Spark环境(Mysql本地和远程两种情况)

2018-02-09 10:09:46 800

原创 编程的两种方式执行Spark SQL查询(方式二)

现在我们来实现在自定义程序中编写Spark SQL查询程序。实现查询的方式有两种:方式一:通过反射推断schema。方式二:通过structtype直接指定schema。这次我们用方式二来实现自定义查询。具体程序如下:package cn.allengao.sparksqlimport org.apache.spark.{SparkConf, SparkContex

2018-02-05 17:35:15 573 1

原创 编程的两种方式执行Spark SQL查询(方式一)

现在我们来实现在自定义程序中编写Spark SQL查询程序。实现查询的方式有两种:方式一:通过反射推断schema。方式二:通过structtype直接指定schema。我们先用方式一来实现自定义查询。首先创建一个team.txt文件,内容有5列,分别是id,球队名称,综合值,进攻值,防守值。部分数据如下:1,火箭,94,95,932,马刺,95,96,94

2018-02-05 16:50:13 2020

原创 Spark项目练习(实现自定义排序)

在实际操作中,sortBy算子往往不能满足数据多种排序的需求,这就需要我们使用自定义排序来实现,以下是实现简单的自定义排序的两种方法,起到抛砖引玉的作用。第一种方法:(Ordered:自定义一个函数)package cn.allengao.IpSearchimport org.apache.spark.{SparkConf, SparkContext}/** * class_name

2018-02-02 15:48:42 254

原创 Spark项目练习(根据规则库统计地区用户访问量,写入数据库)

项目说明:附件为要计算数据的demo。点击打开链接分析用户访问数据,将访问IP计算分析,根据规则库,统计出各省份的访问量。其中,用到知识点:1、常用算法二分法。2、IP地址转换成10进制数的简单算法。3、spark对Mysql数据库的操作。具体程序如下:package cn.allengao.Locationimport java.sql.{Connection, Date

2018-02-01 09:06:43 596

原创 Spark项目练习(计算用户访问学科子网页的top3)

项目说明:附件为要计算数据的demo。点击打开链接利用spark的缓存机制,读取需要筛选的数据,自定义一个分区器,将不同的学科数据分别放到一个分区器中,并且根据指定的学科,取出点击量前三的数据,并写入文件。具体程序如下:1、项目主程序:package cn.allengao.Locationimport java.net.URLimport org.apache.spark

2018-01-30 11:27:15 1404

原创 Spark项目练习(计算用户停留时间最长的两个小区)

项目说明:附件为要计算数据的demo。点击打开链接其中bs_log文件夹数据格式为(手机号,时间戳,基站ID,连接状态(“1”为连接,“0”为断开))lac_info.txt 文件数据格式为(基站ID,经度,纬度,信号辐射类型)程序思路:1, 先根据"手机号,基站ID"构成一个元祖,做为唯一标识, 和时间戳构成新的数据结构->(手机号, 站点, 时间戳)2、(手机号,基站ID)

2018-01-29 17:14:08 1052

原创 Spark高级算子练习(二)

package cn.allengao.exerciseimport org.apache.spark.{SparkConf, SparkContext}object SparkRDDtest3 { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("SparkRDDTes

2018-01-26 17:03:21 357

原创 Spark高级算子练习(一)

package cn.allengao.exerciseimport org.apache.spark.{SparkConf, SparkContext}object SparkRDDTest2 { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("SparkRDDTes

2018-01-26 10:12:27 908

原创 Spark常用算子练习

package cn.allengao.exerciseimport org.apache.spark.{SparkConf, SparkContext}/** * class_name: * package: * describe: SparkRDD算子练习 * creat_user: Allen Gao * creat_date: 2018/1/25 * cre

2018-01-25 15:28:59 862

原创 Spark的WordCount练习(二)

Spark集群运行WordCount程序,程序基本同练习(一),区别在于注释//.setMaster("local[*]"),改为集群运行,将注释打开,res.saveAsTextFile(args(1)),保存结果到文件,具体程序如下:package cn.allengao.hellosparkimport org.apache.spark.rdd.RDDimport org.

2018-01-24 11:45:16 276

原创 Spark的WordCount练习(一)

打开IntelliJ IDEA软件,新建maven项目,具体目录如下:pom.xml文件配置如下:<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocatio

2018-01-24 09:38:43 274

原创 Akka编写RPC通信框架,模拟Worker连接Master小案例

指导思想:1、利用RPC通信框架(AKKA)2、定义2个类Master、Worker-------------------------------------------------------------------------------------------------------------------------------首先启动Master,然后启动所有的Worker1、Worke

2018-01-18 17:48:52 277

原创 Scala用actor编写简单WordCount

package cn.allengao.actorimport java.io.Fileimport scala.actors.{Actor, Future}//旧版本还是使用actors的actor,而不是使用akka的actorimport scala.collection.mutableimport scala.io.Sourceclass Task extends Ac

2018-01-16 16:58:15 251

原创 Scala初学小练习

package cn.allengao.exerciseobject Exercise { def main(args: Array[String]): Unit = { //创建一个List val list0 = List(2, 5, 9, 6, 7, 1, 8, 3, 4, 0) //将list0中的每个元素乘以2后生成一个新的集合 // “_” 表

2018-01-16 16:53:31 520

python学习笔记(十)

python学习笔记(十)jupyter notebook 源代码,用jupyter notebook打开。泰坦尼克数据处理与分析

2018-06-22

python学习笔记(九)

python学习笔记(九)jupyter notebook 源代码,用jupyter notebook打开。

2018-06-20

python学习笔记(八)

python学习笔记(八)jupyter notebook 源代码,用jupyter notebook打开。

2018-06-19

python学习笔记(七)

python学习笔记(七)jupyter notebook 源代码,用jupyter notebook打开。

2018-06-15

python学习笔记(六)

python学习笔记(六)jupyter notebook 源代码,用jupyter notebook打开。

2018-06-14

python学习笔记(五)

python学习笔记(五)jupyter notebook 源代码,用jupyter notebook打开。

2018-06-13

python学习笔记(四)

python学习笔记(四)jupyter notebook 源代码,用jupyter notebook打开。

2018-06-11

python学习笔记(三)

python学习笔记(三)jupyter notebook 源代码,用jupyter notebook打开。

2018-06-08

python学习笔记(二)

python学习笔记(二)jupyter notebook 源代码,用jupyter notebook打开。

2018-06-06

python学习笔记(一)

python学习笔记(一)jupyter notebook 源代码,用jupyter notebook打开。

2018-06-06

根据规则库统计地区用户访问量(规则库、访问log)

spark练习项目,根据规则库统计地区用户访问量(规则库、访问log)。

2018-02-01

计算用户访问学科子网页的top3数据

Spark项目练习(计算用户访问学科子网页的top3)数据。

2018-01-30

spark练习数据(计算用户停留时间最长的两个小区)

spark小项目(计算用户停留时间最长的两个小区)练习数据。

2018-01-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除