自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

Thomson617的博客

原创 Hive内置函数与常用函数汇总

目录数学函数集合函数类型转换函数[官网地址]Hive内置函数汇总数学函数返回值类型函数名称(参数) 函数说明 DOUBLE round(DOUBLE a) 返回对a四舍五入的BIGINT值 DOUBLE round(DOUBLE a, INT d) 返回DOUBLE型d的保留n位小数的DOUBL.

2020-11-15 00:50:06 3858

原创 Spark Machine Learning(SparkML):机器学习(部分一)

机器学习是现阶段实现人工智能应用的主要方法,它广泛应用于机器视觉、语音识别、自然语言处理、数据挖掘等领域。MLlib是Apache Spark的可伸缩机器学习库。官网地址:[http://spark.apache.org/docs/latest/ml-guide.html]Spark的机器学习(ML)库提供了许多分布式ML算法。这些算法包括特征选取、分类、回归、聚类、推荐等任务。ML还提供了用于构建工作流的ML管道、用于调优参数的交叉验证器以及用于保存和加载模型的模型持久性等工具。其目标是使实用的机器学

2020-09-04 12:19:18 8260

原创如何从视频（MV）中提取音频作为mp3？

【代码】如何从视频（MV）中提取音频作为mp3？

2023-06-11 21:33:07 270

原创 Spark Machine Learning(SparkML):机器学习(部分三)

8.协同过滤(Collaborative Filtering)协同过滤是一种推荐算法，根据用户对物品的偏好构建稀缺矩阵，并计算其对其他物品的喜好程度，通常用于推荐系统。这些技术旨在填写用户项关联矩阵的缺失条目。spark.ml目前支持基于模型的协同过滤，其中用户和产品由可用于预测缺失条目的一小组潜在因素描述。spark.ml使用交替最小二乘（ALS）算法来学习这些潜在因素。实现中spark.ml包含以下参数：(1).numBlocks是用户和项目将被分区为多个块的数量，以便并行化计算（默...

2020-09-09 14:26:06 3316

原创 Spark Machine Learning(SparkML):机器学习(部分二)

6.分类和回归分类与回归都是有监督学习，本质是一样的，都是特征（feature）到结果/标签（label）之间的映射，只不过分类的结果是离散值，回归是连续的。区分分类任务和回归任务有一个简单方法，就是问一个问题：输出是否具有某种连续性。如果在可能的结果之间具有连续性，那么它就是一个回归问题。6.1分类(Classification)分类问题的目标是预测类别标签（class label），这些标签来自预定义的可选列表。分类问题有时可分为二分类（binary classification，在两个

2020-09-08 11:17:13 2377

原创 Python图像处理工具类,总有一个适合你!

Python关于图像处理的模块包特别多,可参见此链接:[Python中的十大图像处理工具]。目前用的比较多的还是opencv-python、numpy和PIL。本文就这三个库封装了一些常用的工具类(以opencv-python为主),功能包括:1.在图像中添加中文2.图像拼接3.图像旋转4.图像裁剪5.图像批量命名6.在图像中绘制线条(绊线)7.视频转图像...

2020-03-16 17:19:08 747

原创 Python图像处理（三）--从图像拼接到视频拼接与整合处理

图像拼接python中关于图像拼接的方法比较多，个人推荐使用Numpy中的原生方法（concatenate、hstack、vstack），如下所示：# -*- coding:utf-8 -*-''' 图像（水平、垂直）拼接'''import cv2import numpy as np# 读取图像并重置图像大小，使两图像宽高保持一致img1 = cv2.resize(cv2...

2020-03-13 10:24:10 4360

原创 OpenCV-Python (官方)中文教程(部分一)

官网链接(英文版):https://docs.opencv.org/4.1.1/d6/d00/tutorial_py_root.html第一章.OpenCV简介了解如何在计算机上设置OpenCV-Python！1.OpenCV-Python教程简介1.1 OpenCV OpenCV是由Gary Bradsky于1999年在Intel公司创建的，第一次发布是在2000年。瓦...

2020-02-28 18:10:07 29435 5

原创关于yolov3.weights文件下载地址的分享

下载地址一:(需要翻墙)官方网站:https://drive.google.com/drive/folders/1uxgUBemJVw9wZsdpboYbzUN4bcRhsuAI特别说明:下载速度很慢,有时会出现下载中断,不推荐!下载地址二:https://pjreddie.com/media/files/yolov3.weights其它类似文件:https://pjreddie....

2020-02-27 10:09:39 37998 65

原创 Python图像拼接之自定义生成棋盘格

一个很有意思的代码,如下所示:# -*- coding:utf-8 -*-import cv2import numpy as npdef generatePattern(CheckerboardSize, Nx_cor, Ny_cor): ''' 自定义生成棋盘 :param CheckerboardSize: 棋盘格大小,此处100即可 :par...

2020-01-17 17:27:58 5765

原创 OpenCV-Python (官方)中文教程(部分四)

[部分三]:https://blog.csdn.net/Thomson617/article/details/103987952第八章.机器学习46.K 近邻（k-Nearest Neighbour ）46.1理解 K 近邻kNN 可以说是最简单的监督学习分类器了。想法也很简单,就是找出测试数据在特征空间中的最近邻居。我们将使用下面的图片介绍它。上图中的对象可以分成两组:...

2020-01-17 10:51:59 3783

原创 OpenCV-Python (官方)中文教程(部分三)

[部分二]:https://blog.csdn.net/Thomson617/article/details/103961274第七章.相机标定与3D重构42.摄像头标定在图像测量过程以及机器视觉应用中，为确定空间物体表面某点的三维几何位置与其在图像中对应点之间的相互关系，必须建立相机成像的几何模型，这些几何模型参数就是相机参数。在大多数条件下这些参数必须通过实验与计算才能得到，这个求...

2020-01-15 17:02:52 13203 23

原创 OpenCV-Python (官方)中文教程(部分二)

[部分一]见:https://mp.csdn.net/postedit/103956799第五章.特征提取与描述29.理解图像特征大多数人都玩过拼图游戏。首先你们拿到一张图片的一堆碎片,要做的就是把这些碎片以正确的方式排列起来从而重建这幅图像。问题是怎样做到呢？如果把做游戏的原理写成计算机程序,那计算机就也会玩拼图游戏了。如果计算机可以玩拼图,我们就可以给计算机一大堆自然图片,然后就...

2020-01-15 11:11:11 4010

原创用OpenCV+Python对广角(包括鱼眼)镜头进行实时畸变校正

用普通摄像头的标定方式(cv2.calibrateCamera()或cv2.calibrateCameraExtended())去获取摄像头内参(包括畸变参数)已不适用于广角或鱼眼摄像头了。此文主要针对于大广角摄像头且边缘处畸变较大的摄像头进行标定与畸变校正。开发语言:PythonOpenCV中关于鱼眼镜头的Python版标定的API源码如下所示:def calibrate(objec...

2019-12-12 11:39:30 17199 25

原创使用cv2.fisheye.calibrate标定时出现的错误:(-215:Assertion failed)

错误如下:Traceback (most recent call last): File "E:/workspace-python/StereoSystem/calibrate/SingleCalibrate.py", line 134, in <module> mtx, dist = calibrate_single(1, 27, 9, 6, fileName) F...

2019-12-10 11:27:41 3624 7

原创基于OpenCV进行双目测距的流程图解

2019-11-07 10:44:50 523

原创在Python中导入openvino时报错:from .ie_api import * ImportError: DLL load failed: 找不到指定的模块

Windows环境中安装Openvino的步骤此处不做说明,可参见官网教程:https://docs.openvinotoolkit.org/2019_R2/_docs_install_guides_installing_openvino_windows.html#set-the-environment-variables当在python环境下导入openvino模块(openvino目录已复制...

2019-09-26 15:27:26 6974 15

原创使用OpenCV训练自己的级联分类器,生成可用的xml文件

级联分类器包括两部分：训练和检测。这个指南是描述如何训练分类器：准备训练数据和运行训练程序。[官网]:http://www.opencv.org.cn/opencvdoc/2.3.2/html/doc/user_guide/ug_traincascade.html重点注意事项OpenCV中有两个程序可以训练级联分类器： opencv_haartraining and opencv_trai...

2019-09-16 18:37:21 4597 7

原创 Python图像处理(二)--图像裁剪

方法一:使用PiL库from PIL import Imagedef test1(): img = Image.open('img/test.jpg') ww, hh = img.size x = ww * 0.3 y = hh * 0.1 w = ww * 0.4 h = hh * 0.5 # box = (ww * 0.3, hh ...

2019-09-12 10:54:56 1531

原创 Python图像处理(一)--图像旋转

在不改变图像尺寸的情况下对图像旋转,Python中通常使用PIL库中的transpose或OpenCV中的getRotationMatrix2D与warpAffine方法。实现代码如下所示:方法一:使用PIL库中的transpose实现(Image内置3种旋转角度:90、180、270)import osfrom PIL import Imageimg = Image.open('img...

2019-09-04 10:10:34 26342

原创关于TypeError: buffer is too small for requested array错误的成功处理

Windows环境中用 YAD2K 将 yolo 的 .weights 文件转换成 .h5 文件时执行如下命令:python ./yad2k.py ./yolov2-tiny-voc.cfg ./yolov2-tiny-voc.weights ./yolov2-tiny-voc.h5(yolov2-tiny-voc.cfg和yolov2-tiny-voc.weights文件已经复制到yad2...

2019-08-27 14:44:03 6230

原创 from torchvision import _C导入报错(ImportError: DLL load failed)的处理

Windows系统下Pytorch与python版本不匹配导致模块包导入错误.处理方案:步骤一:卸载已安装的Pytorchpip uninstall torch步骤二:去官网下载对应版本的.whl文件Pytorch官网地址:https://pytorch.org/我的python版本是3.7.3,故选的Python3.7选择对应的版本后去https://download.pyto...

2019-08-23 17:39:31 6121

原创 VGG Faca描述符

Omkar M. Parkhi， Andrea Vedaldi， Andrew Zisserman概观该页面包含用于计算VGG-Face CNN描述符的源代码的下载链接，如[1]中所述。VGG-Face CNN描述符是使用我们基于[1]中描述的VGG-Very-Deep-16 CNN架构的CNN实现来计算的，并且在人脸数据库 [2] 和YouTube Faces [3]数据集中进行了评估。...

2019-08-14 16:05:04 435

原创常用技术社区

CSDNhttps://www.csdn.net/博客园https://www.cnblogs.com/HBase技术社区http://hbase.group/阿里云-云栖社区https://yq.aliyun.com/articles/人人都是产品经理http://www.woshipm.com/过往记忆https://www.iteblog.com/W3schoolh...

2019-07-12 09:42:53 407

原创 Sqoop数据迁移指南

Sqoop是一个用来将Hadoop(hdfs/hive/hbase)和关系型数据库（如MySQL,Oracle,SQL SERVER,Postgres等）中的数据相互转移的工具，可以将一个关系型数据库中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。Sqoop命令分四大类:(1).sqoop import 导入(2).sqoop import-all-ta...

2019-07-11 13:57:47 1368

原创 SQL/HQL中数据去重的3种方式

30万条数据的去重比较1.distinctselect distinct * from tableNamehive用时: 40.47秒impala用时: 11.98秒2.group byselect c1,c2,c3,c4,c5,max(c6) c6from tableNamegroup by c1,c2,c3,c4,c5hive用时: 22.8秒impala用时: 2....

2019-04-09 13:59:10 5959 1

原创 Shell脚本--删除文件中所有以指定字符开头的行

删除日志文件中以WARN开头的行:cat /root/filename | sed -e '/^WARN:/d' &gt; /root/filenamecat:查看文件/root/filename:文件名| :管道符sed:在sed处理文件的时候，每一行都被保存在一个叫模式空间的临时缓冲区中，除非行被删除或者输出被取消，否则所有被处理的行都将打印在屏幕上。接着模式空间被清空，并存入新的...

2019-03-04 10:39:30 9520 7

原创 Hive SQL进阶练习(HQL)

一.数据准备(4表联查)1.创建车辆信息表:create external table car( car_id string comment '车辆ID', customer_id string comment '客户ID', car_brand string comment '车辆品牌', car_serial string comment '车辆系列', yearcheck_dt...

2019-02-27 18:43:21 3717 1

原创 Spark Shuffle操作

什么是Spark Shuffle?在Spark中，数据通常不会跨分区分布，以满足特定操作的需要。在计算期间，单个任务将对单个分区进行操作——因此，要组织单个reduceByKey 的计算任务要执行的所有数据，Spark需要执行一个all-to-all操作。它必须从所有分区中读取所有键的所有值，然后将所有分区的值放在一起计算每个键的最终结果——这称为shuffle。Spark中的某些操作会触发称...

2019-02-22 18:15:24 1613

原创 Spark SQL之性能优化

对于某些工作负载，可以通过在内存中缓存数据或打开一些实验性选项来提高性能。在内存中缓存数据Spark SQL可以通过调用Spark .catalog. cachetable(“tableName”)或dataFrame.cache()来使用内存中的柱状格式缓存表。然后Spark SQL将只扫描所需的列，并自动调优压缩，以最小化内存使用和GC压力。可以调用spark.catalog. unach...

2019-02-22 17:13:13 511

原创 Spark SQL之分布式SQL引擎

Spark SQL还可以使用JDBC/ODBC或命令行接口充当分布式查询引擎。在这种模式下，终端用户或应用程序可以直接与Spark SQL交互来运行SQL查询，而不需要编写任何代码。Running the Thrift JDBC/ODBC server这里实现的Thrift JDBC/ODBC服务器对应于Hive 1.2.1中的HiveServer2。您可以使用Spark或Hive 1.2.1...

2019-02-22 17:12:58 750

原创 Spark SQL之引用(数据类型,NaN语义及算术运算)

Data Types(数据类型)Spark SQL和DataFrames支持以下数据类型:Numeric types(数字类型)ByteType: 表示1字节有符号整数。数字的范围是从-128到127。ShortType: 表示2字节有符号整数。数字的范围从-32768到32767。IntegerType: 表示4字节有符号整数。数字的范围是从-2147483648到2147483647...

2019-02-22 17:11:07 2101

原创 Spark SQL之数据源(Data Source)与保存模式(Save Modes)

本篇大纲:(一).Generic Load/Save Functions(二).Parquet Files(三).ORC Files(四).JSON Files(五).Hive Tables(六).JDBC To Other Databases(七).Avro Files(八).TroubleshootingSparkSQL支持通过DataFrame接口对各种数据源进行操作。D...

2019-02-22 15:33:06 3226

原创 MySQL、Oracle、Sql Server、Hive、Spark SQL、Flink SQL总结

本文主要讲解各类SQL语言的优缺点、数据类型及SQL语法的区别,其它区别可参加各官网MySQL官网地址:https://dev.mysql.com/doc/refman/8.0/en/programs.html优点：(1).体积小、速度快、总体拥有成本低，支持多种操作系统,使用简单,开放源码,稳定性高;(2).提供的接口支持多种语言连接操作。可以工作在不同的平台上。支持C、C＋＋、Jav...

2019-02-20 17:19:25 5331

原创 Spark Streaming算子篇详解

Spark Streaming是核心Spark API的扩展，它支持对实时数据流进行可伸缩、高吞吐量和容错的流处理。数据可以从Kafka、Flume、Kinesis或TCP套接字等多个源获取，也可以使用map、reduce、join和window等高级函数表示的复杂算法进行处理。最后，可以将处理过的数据推送到文件系统、数据库和实时仪表板。事实上，您可以将Spark的机器学习和图形处理算法应用于数据...

2019-02-20 10:48:09 4157 2

原创 Spark算子篇详解

Transformations下表列出了Spark支持的一些常见转换。有关详细信息，请参考RDD API文档(Scala、Java、Python、R)和成对RDD函数文档(Scala、Java)。https://spark.apache.org/docs/latest/rdd-programming-guide.html#rdd-operationshttps://spark.apache....

2019-02-19 17:17:06 443

原创 Hive列操作汇总(添加/更新/删除/虚拟列)

官网语法如下所示https://cwiki.apache.org/confluence/display/Hive/GettingStarted#GettingStarted-AlteringandDroppingTables hive> ALTER TABLE events RENAME TO 3koobecaf; hive> ALTER TABLE pokes ADD CO...

2019-02-19 15:42:34 15187

原创 Hive建表语句详解--CREATE TABLE

创建表的三种方法Hive创建表的方式（默认路径/user/hive/warehouse，也可以location指定，主要针对external表）1、使用create命令创建一个新表,带分区CREATE TABLE `mydb.dept`( `dept_no` int, `addr` string, `tel` string)partitioned by(dat...

2019-01-09 15:05:00 134750 2

原创 Json解析(Json集合,Json嵌套)

导入maven依赖:<dependency> <groupId>net.sf.json-lib</groupId> <artifactId>json-lib</artifactId> <version>2.4</version> <cl

2018-12-02 16:15:15 15568

原创 Spark SQL 的数据加载与保存(load , save)

Spark SQL主要是操作DataFrame，DataFrame本身提供了save和load的操作.Load：可以创建DataFrame;Save：把DataFrame中的数据保存到文件或者说与具体的格式来指明我们要读取的文件的类型以及与具体的格式来指出我们要输出的文件是什么类型。SparkSQL的保存模式 * SaveMode.ErrorIfExist -----&gt;default...

2018-11-17 23:29:09 2164

Flink SQL官方教程-sun.docx

Flink SQL官方教程[中文版] 有目录; 共238页; 字数:139622字

2021-06-27

wideAngleCalibrate.py

单目(普通+广角/鱼眼)摄像头标定程序,传入摄像头地址即可实时标定,按键盘空格键拍取指定数量的图片,并实时畸变校正

2019-12-12

Python官方教程+相关资料

个人整理的Python3.7.4最新word文档,含目录赠送Python其他相关资料(50个文件1.35个G)

2019-09-06

Hive语法详解.docx (排版清晰,覆盖全面,含目录)

说明:重新排版的个人版Hive语法(一文在手,hql无忧) Hive语法详解: 内容分9个章节包括安装及配置; DDL,DML,DQL语法; Hive内置函数及自定义函数; Hive窗口函数及行列转换; Hive注意事项及常见优化; ...

2019-08-27

Python3.7.4官方教程-sun.docx

《Python3.7.4官方教程》本文档纯属个人整理,全部内容均来自Python官网! 共97页的.docx类型的word文档,含目录!

2019-08-14

HBase学习笔记(个人整理)

个人笔记整理(带目录),共8个章节: 一.Hbase快速入门二.Apache HBase配置三.Hbase数据存储四.HBase协处理器与二级索引五.PHOENIX操作HBASE 六.HBase设计与优化七.HBase与Spark集成八.Trafodion操作HBase 共146页

2019-07-26

SparkML算法详解(关于DataFrame的API操作)--数据挖掘(Scala与Java版)

一.Machine Learning 二.完整代码示例三.数据挖掘四.机器学习过程中的一些问题五.各种机器学习算法的总结 (共119页,代码部分以Spark的DateFrame为主)

2019-06-28

hive-udf(两地址间距离计算+省市区位置解析(Java代码))

地址转换成经纬度+两地址间距离计算+省市区位置解析(Java代码) Hive自定义函数的封装

2019-05-07

从数据挖掘到数据展示

从数据挖掘到数据展示: SprakML的K-means聚类算法(DateFrame版)分析后的结果保存到MySQL中,用ECharts做饼图展示; SparkSQL对客户每日数量做统计,用ECharts做饼图展示.

2019-04-04

SparkML算法详解(关于DataFrame的API操作)--机器学习(Scala与Java版)

Spark的机器学习(ML)库提供了许多分布式ML算法。这些算法包括特征提取、分类、回归、聚类、推荐等任务。ML还提供了用于构建工作流的ML管道、用于调优参数的交叉验证器以及用于保存和加载模型的模型持久性等工具。其目标是使实用的机器学习可扩展且简单。 ML算法：常见的学习算法，如分类，回归，聚类和协同过滤 特征化：特征提取，转换，降维和选择 管道：用于构建，评估和调整ML管道的工具 持久性：保存和加载算法，模型和管道 实用程序：线性代数，统计，数据处理等。

2019-03-20

HiveQL源码

HiveQL的官网中下载下来的源码. ql/src/java/org/apache/hadoop/...

2019-02-28

Hive语法详解

Hive语法详解: 包括DDL,DML,DQL语法; Hive内置函数及自定义函数; Hive窗口函数及行列转换; hive常见优化

2019-02-11

自定义hive jdbc服务器时无法执行set语句

2023-07-26

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除