「已注销」-CSDN博客

原创 Table of blog contents

本博客旨在分享大数据领域的两部分部分知识：理论与工具。特别地，本博客重点关注轨迹挖掘的理论与应用。（需要说明的是，本人在博客分享的过程中，参考了很多论文、书籍、资料等等。为了方便更新博客，在此将相关参考文献一并给出）1）理论知识：数据挖掘系列机器学习系列深度学习系列2）基础工具...

2018-05-31 09:11:42 357

原创 Spark-概述、目录文件构成、spark shell、SparkUI

1）Spark是什么？Spark 是一个用来实现快速而通用的集群计算的平台。在速度方面，Spark 扩展了广泛使用的MapReduce 计算模型，而且高效地支持更多计算模式，包括交互式查询和流处理。Spark 的一个主要特点就是能够在内存中进行计算，因而更快。不过即使是必须在磁盘上进行的复杂计算，Spark 依然比MapReduce 更加高效。2）spark软件栈Spark Core：Spark ...

2018-04-17 22:05:15 630

原创 Hive-An overview

1）Hive是什么？大数据来临，海量的数据存储在分布式文件系统上。我们想像传统关系型数据库一样使用HDFS以及像使用SQL语句一样使用HDFS。Hive应运而生，Hive是适合于数据仓库应用的程序，进行静态数据分析，不需要给出快速响应结果，数据本身不会频繁变化。2）Hive和关系型数据差别不支持记录级别的更新、插入、删除、事务、联机事务处理。3）Hive与Hadoop MapReduce ...

2018-04-13 22:05:27 181

原创轨迹挖掘综述

轨迹挖掘系统框架轨迹挖掘分为6个模块：模块1（轨迹预处理）：1.噪声清洗、2.分段、3.停留点检测、4.压缩、5.地图匹配模块2（轨迹数据管理、查询、编码）：1.top-k最近的邻居查询、2.一个范围查询、3.历史数据查询、4.最近（实时）数据查询模块3（轨迹的不确定性研究）：1.减少轨迹的不确定性，具体来说，轨迹是连续的，轨迹点是离散的，减少两个轨迹点之间不确定性。2.保护乘客的隐私。具体来说...

2018-04-08 14:45:45 5426 1

转载计算机图形学、数字图像处理、计算机视觉之间的区别与联系

三者之间既有区别，又有联系，不确切的描述：计算机图形学≈画图计算机视觉≈看图数字图像处理≈看图前沐浴更衣焚香做好各种仪式，然后再看图...

2019-07-26 19:44:08 585

原创目标检测 tf-faster-rcnn demo及采坑

参考资料：https://github.com/endernewton/tf-faster-rcnn https://blog.csdn.net/hitzijiyingcai/article/details/81808091 https://blog.csdn.net/hitzijiyingcai/article/deta...

2019-07-05 16:56:56 1002 1

转载解决 mac安装或者更新第三方包安装不上的问题 mac OSX pip OSError: [Errno 1] Operation not permitted

(1) 写在前面在安装机器学习python包时，提示Macbook里面的Python库有点旧，就用pip更新一下。 $ sudo pip install pandas$ pip install --upgrade numpy在安装过程中出现了如下错误：OSError: [Errno 1] Operation not permitted: '/var/folders/bm/d...

2018-08-21 15:18:25 909

转载 Scala关于ClassTag 、Manifest、ClassManifest、TypeTag的使用

Scala中ClassTag 、Manifest、ClassManifest、TypeTag是描述运行时类型信息的，由于Scala是运行在JVM之上的，所以首选需要从JVM说起。JVM中的泛型并不会保存泛型的，我们一般在Java开始时候涉及到的泛型都是源码级别的，当我们反编译打开编译之后的class文件会发现并不存在泛型信息。Scala为了在运行时能够获取到泛型信息，就推出了如上关键字。 ...

2018-08-20 09:47:20 2126

原创轨迹预处理（轨迹清洗）-卡尔曼滤波、扩展的卡尔曼滤波、粒子滤波在轨迹清洗中的应用

1.卡尔曼滤波、扩展的卡尔曼滤波、粒子滤波的理论与应用 GPS是全球卫星定位系统，可以帮助我们获得经纬度坐标。GPS在汽车上的广泛装备与应用，可以很方便地帮助我们获得海量的汽车轨迹信息。然而，GPS设备有时存在定位误差较大的问题[1],导致轨迹中存在一些漂移点、回跳点、缺点等。这些点将会影响我们对路网拓扑结构的研究。因此，本文利用卡尔曼滤波对轨迹进行清洗。简单来说，卡尔曼滤...

2018-07-19 15:08:26 11727 13

原创 The poster of my master's degree thesis.

2018-06-07 20:58:39 360 1

转载 Latex局部设置字体大小

2018-06-04 16:38:56 31465 5

转载 Latex 设置字体颜色

需要包含宏包：\usepackage{color}1方法一：{\color{red} text}1方法二：\textcolor[rgb]{1,0,0}{text}1另外，使用宏包xcolor也可以实现：\textcolor{red/blue/green/black/white/cyan/magenta/yellow}{text}1其中textcolor{}中包含的是系统定义好的颜色。...

2018-06-04 16:37:22 6092

原创数学-统计-距-四分位数、箱线图、方差、标准差、标准分（Z分布）

上下四分位数

2018-05-26 14:20:53 7618

原创英文写作- Response to reviewers

转https://github.com/javism/responsereviewers

2018-05-26 11:15:27 3375

原创轨迹格式转换（将轨迹转化为图）

将轨迹转化为图的核心是如何定义点和边。方法可以分为两类：一种使用了路网，另一种没有使用路网1）使用了路网：第一种方法：第一步：将轨迹转化为路网第二步：根据轨迹的速度、交通量计算每条边的权重第三步：基于带有权重的图，发现相似路径、最受欢迎的路径、检测交通异常、更新路网第二种方法：构建一个landmark 蓝色是高频点，红色是高频线第三种方法：构建一个region graph将城市分为候选活动区域每个...

2018-05-22 22:14:44 3480 1

原创 Matlab——折线图

% abc = [2,4,6,8,10,12,14,16];% cba = [7.15,7.15,16.375,24.15,30.3,564,2256,10156];abc = [2,4,6,8,10];cba = [7.15,16.375,24.15,30.3,564];% Create the pie chart in position 1 of a 2x2 gridfigure% Creat...

2018-05-14 20:12:17 2617

原创 Spark——application、job、stage、task之间的关系

Application：通俗讲，用户每次提交的所有的代码为一个application。Job：一个application可以分为多个job。如何划分job？通俗讲，出发一个final RDD的实际计算为一个jobStage：一个job可以分为多个stage。根据一个job中的RDD的依赖关系进行划分Task：task是最小的基本的计算单位。一般是一个块为一个task，大约是128M...

2018-05-04 11:33:42 1837

原创 Intellij IDEA设置显示行号

2018-05-03 22:04:13 528

原创 Scala 内建控制对象（if、while、for、异常、match、beak）

if表达式：与其他语言无区别while表达式：var line = ""while((line = readLine()) != ""){}本质为（unit ！= String）因此循环永远无法执行。使用var和while是指令式的编程方式。可以将while转换为递归的形式。 // 函数式编程while（用递归代替） def gcd(x : Long , y : Long) : Long =...

2018-05-03 15:14:09 303

原创 Scala——类的定义、重新实现toString方法、检查先决条件、添加字段、私有方法、自指向、辅助构造器、操作符、重载、隐式转换

1 类的定义/** * Created by jiaoshuhai on 2018/4/23. *///类的创建class Rational(n:Int,d:Int){//类参数，oject无参数 //检察先决条件 require(d != 0) private def gcd(a : Int ,b :Int) : Int = if(b == 0) a else gcd(b , a %...

2018-05-03 11:45:18 482

原创轨迹数据管理（轨迹索引与查询）

轨迹查询主要两类，一种是top最近查询，另一种是范围查询。范围查询：一个时间段、一个区域3种方法可以用来范围查询：1）建立3D-Rtree。2）将时间切段3）将空间分格4）希尔伯特曲线topK查询后缀树的思想...

2018-05-02 15:19:03 4001 1

原创轨迹挖掘——轨迹模式挖掘

从一条轨迹或者从一组轨迹中挖掘出行模式可以分为四类：1）共同移动模式2）轨迹聚类3）时序模式4）周期性的模式1）共同移动模式flock（群）：在一个小的固定形状的区域内，多个目标连续k个时间戳同时移动。由于事先定义的形状不太能确定，因此会出现损群问题。convoy（护卫，车队）任意形状，通过密度来确定一个区域swarm（大群）：上面两个都必须要求是连续的，这个算法是要求不是连续的。，traveli...

2018-05-02 14:44:57 5355 1

原创 Spark分布式集群搭建（三）安装job history server +intellj idea设置

SPARK_HOME/conf 下:spark-defaults.conf 增加如下内容spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress truespark-env.sh 增加如下内容export SPARK_HISTORY_OPTS=”-D...

2018-04-29 22:21:28 272

转载 IntelliJ IDEA快捷键

因为IntelliJ IDEA的快捷键分类也分的不错的，这里主要你需要搞定两个：Editor Actions，Version Control System==================================================自己学快捷键的经过：==Ctrl==Ctrl + Y 删除行ctrl + X 剪切行Ctrl + N 查找类Ctrl + R 替换Ctrl + O...

2018-04-29 20:29:01 131

转载数据挖掘顶级会议与期刊分析

JournalsACM TKDD http://tkdd.cs.uiuc.edu/DMKD http://www.springerlink.com/content/1573-756X/?p=859c3e83455d41679ef1be783e923d1d&pi=0IEEE TKDE http://www.ieee.org/organizations/pubs/transactions/tk...

2018-04-29 20:24:47 6463

原创 Spark分布式集群搭建(二)：Hive安装（hive+元数据库mysql+intellj idea 集成开发环境 +linux）

本篇内容分为三部分：元数据库mysql安装+hive安装+intellj idea开发使用hive）1）元数据库mysql安装：Step1：采用apt-get安装mysql Step2：启动mysql服务 Step3：进入mysql命令行 Step4：创建一个database name为hive的数据库用于hive数据文件的存储 Step5：给当前用户授权命令如下：sudo apt-g...

2018-04-29 19:26:01 206

转载 hadoop fs -mkdir testdata错误提示No such file or directory

解决方法： hadoop fs -mkdir -p testdata

2018-04-29 18:08:18 402

转载远程连接ubuntu mysql出现2003错误 cant connect to mysql

不多说直接上代码 1.在控制台输入,进入mysql目录下，sudo su //进入root权限cd /etc/mysql122.打开my.cnf文件，找到 bind-address = 127.0.0.1 在前面加上#注释掉，如下： #bind-address = 127.0.0.1 3.然后在添加如下代码；OK。skip-external-lockingskip-name-resolve1...

2018-04-29 18:06:10 364

转载 hive报Error in metadata: javax.jdo.JDOFatalInternalException: Error creating transactional connection

Error in metadata: javax.jdo.JDOFatalInternalException: Error creating transactional connection在hive/lib添加mysql.jar包

2018-04-29 18:04:09 2848

转载 vi 新建文件保存文件时遇到的问题：E212: Can't open file for writing

用vi 新建一个文件，hello.c 或者hello ,然后 :wq 进行保存退出，退出不了，一直出现这个提示意思是不能保存。原因是权限不够，普通用户用vi 进行不了保存，需要使用超级用户才可以命令：sudo su 转换成超级用户 vi hello 打开文件：wq 即可保存退出...

2018-04-24 09:48:39 8042

转载解决E: Encountered a section with no Package: header错误

解决E: Encountered a section with no Package: header错误我的ubuntu机器上出现下面这个错误。 Reading package lists... Error! E: Encountered a section with no Package: header E: Problem with MergeList /var/l...

2018-04-24 09:28:22 654

转载 Ubuntu 使用 su 切换用户时提示 Authentication failure 解决方法

问题产生的原因Ubuntu 系统默认是没有激活 root 用户，需要用户手动开启。解决方法按快捷键 Ctrl + Alt + T，打开命令行界面在当前用户下输入 sudo passwd，出现如下命令，输入当前用户的密码如果输入的密码正确，这时候就会出现下面的命令，意思是叫我们设置新的 UNIX 密码。输入想要设置的密码之后，重复确认密码，它就会提示你，密码设置成功。 ...

2018-04-23 17:46:42 428

原创 scala-富包装器

基本类型//基本类型 int long short byte 都有8、16、10进制三种形式//16进制val hex= 0XAF//8进制val hex1 = 1234567//long类型val hex2 = 35L// short类型val hex3 : Short = 367val hex4 : Byte = 16...

2018-04-23 10:55:17 542

转载 Scala中==,eq与equals的区别

Scala中==,eq与equals的区别根据官方API的定义：final def ==(arg0: Any): BooleanThe expression x == that is equivalent to if (x eq null) that eq null else x.equals(that).final def eq(arg0: AnyRef): BooleanTests wheth...

2018-04-23 10:43:50 934

原创 Scala—类与对象

类的定义：class DiDi { val parameter1 = 0}类的初始化：val didi1 = new DiDival didi2 = new DiDididi1.parameter1 = 1/** * Created by jiaoshuhai on 2018/4/22. */class DiDi { var parameter1 = 0 //不写权限的就是public pr...

2018-04-22 22:26:38 348

原创 Scala 入门

1）Scala简介与特性Scala是一种把面向对象和函数式编程加入静态类型语言的混合体。Scala是函数式的：函数是头等值：与整数、字符串处于同一个地位。函数里可以接着定义函数，就像定义整数一样。函数不应该有副作用/应该把输入值映射为输出值而不是就地更改数据。鼓励使用不可变的数据结构和指称透明的方法2）scala入门2.1变量定义 val 和var。val里面的java的final变量。一旦初始化...

2018-04-22 17:38:12 130

原创 Spark分布式集群搭建（一）Spark虚拟机集群搭建：Hadoop+Spark伪分布式集群（虚拟机）+IntellJIdea 的环境搭建

环境搭建顺序：1）安装hadoop 2）在hadoop上安装Spark集群 3）IntellJIdea连接Spark集群写在前面：凡是涉及到的linux系统操作，建议以root用户权限进行工作准备工作共有两项：虚拟机配置+SSH服务安装准备工作1：虚拟机配置1.1 安装 VMware Workstation 12 player（虚拟机软件）1.2 在 VMware Workstation...

2018-04-21 18:01:59 646

原创 Spark—弹性分布式数据集RDD

1）RDD的起源Hadoop的数据存储模式为：从物理存储上加载数据、操作数据、然后写入物理存储设备。缺点1：运行迭代式算法很慢、无法进行交互式的数据挖掘解决方法：数据存储在内存中缺点2：实现数据集的容错性（数据恢复）代价高（庞大的数据集网络传输）解决方法：高度受限的共享内存(思想如下)2）RDD定义RDD是分布式内存的一个抽象概念，是一种高度受限的共享内存模型，即RDD是只读的记录分区的集合，能够...

2018-04-18 13:57:12 473

原创 Spark—Spark编程的核心概念

通过一个驱动器程序创建一个SparkContext 和一系列RDD，然后进行并行操作。从上层来看，每个Spark 应用都由一个驱动器程序（driver program）来发起集群上的各种并行操作。驱动器程序包含应用的main 函数，并且定义了集群上的分布式数据集，还对这些分布式数据集应用了相关操作。驱动器程序通过一个SparkContext 对象来访问Spark。这个对象代表对计算...

2018-04-18 08:50:19 264

原创 Matlab作图——柱状图

类型一：% Create data for childhood disease casesmeasles = [75.6];mumps = [80.12];chickenPox = [4.7];% Create a vertical bar chart using the bar functionfigurebar([measles' mumps'], 0.5)% Set the axis lim...

2018-04-13 21:32:21 2269