自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 资源 (2)
  • 问答 (2)
  • 收藏
  • 关注

原创 Flink实时数仓——kafka入库Hive

实时数仓和离线数仓一样,为了问题追溯,也需要将业务数据持续化到数据库中,这里,将业务系统的数据生产到kafka,然后利用hive去消费kafka中的数据,其中不做任何处理,将全部数据入库,相当于离线数仓中的ODS层。 接下来,直接上代码了,代码中都有详细的注释。 第一部分,主程序:import com.migudm.flink001.utils.KafkaSourceHelper;import com.migudm.flink001.utils.b...

2022-05-09 10:57:12 1038

原创 大数据之pysaprk安装

windows下安装Pysparkpyspark简介AnacondaPysparkjdkwinutils总结pyspark简介Spark主要是由Scala语言开发,为了方便和其他系统集成而不引入scala相关依赖,部分实现使用Java语言开发,例如External Shuffle Service等。总体来说,Spark是由JVM语言实现,会运行在JVM中。然而,Spark除了提供Scala/Java开发接口外,还提供了Python、R等语言的开发接口,为了保证Spark核心实现的独立性,Spark仅在

2020-11-25 17:15:16 292

原创 神经网络随笔

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言 一、pandas是什么? 二、使用步骤 1.引入库 2.读入数据 总结前言随着数据量的增多以及硬件设备的突破,还有算法的发展,神经网络(深度学习)迎来了井喷式的发展,本文主要简单的说一下神经网络的结构提示:以下是本篇文章正文内容,下面案例可供参考一、神经网络是什么?神经网络是机器学习的一类模型,对比于传统机器学习来讲,他的性能一般要更好,但是带来的代价就是训练时间更久,以..

2020-08-21 19:30:55 166

原创 利用vibe实现越界检测

'''处理摄像头数据,并在第一幁画线1、定义鼠标事件(返回初始点,和结束点)2、利用初始点和结束点画线'''import cv2from vibe import ViBeimport numpy as npfrom cross_line import verify_rec# from ssd import vsdrawing = False # true if mouse ...

2019-11-05 21:12:20 1228 5

原创 二叉树构造及各种遍历

class Node(object): '''节点''' def __init__(self,elem): self.data = elem self.lchild = None self.rchild = Noneclass Tree(object): '''二叉树''' def __init__(self):...

2019-06-19 15:02:31 330

原创 各种常见排序算法的原理及python代码实现

常见的排序算法:冒泡排序,选择排序,插入排序,希尔排序,快速排序,堆排序,归并排序。冒泡排序原理:两两元素进行比较,每一趟能够确定最大元素的位置,稳定算法def bubble_sort(alist): '''冒泡排序''' # [5,4,3,2,1] [4,5,3,2,1] [4,3,5,2,1] [4,3,2,5,1] [4,3,2,1,5] n = len(a...

2019-06-17 14:47:34 223

原创 python小记

Python是一种高级的、动态类型的多范例程序设计语言(不支持自加自减操作):python数据类型:整型、浮点型、布尔型(用英文单词and,or,not,!实现布尔logic),字符串类型(常用操作replace替换字符串里面的字符,strip剥去所有的空格)。python数据结构:列表,字典,集合和元组。列表:长度可变,能够存放不同类型的数据。添加元素用append函数,删除元素用p...

2019-03-18 23:37:56 119

原创 机器学习各种空间

杂记                                                                             机器学习中的各种空间1、空间2、线性空间3、内积空间4、度量空间5、赋范空间6、希尔伯特空间7、再生核希尔伯特空间 空间的定义:元素(研究对象)和规则(制定的公理)的组成线性空间:定义了加法和数乘规...

2019-02-25 14:44:09 754

原创 pandas的数据结构DataFrame的常用操作

DataFrame的取值:loc、iloc、ix;三者之间的区别loc主要用字符或逻辑来索引,iloc主要用数字来索引,而ix两者的功能都具备DataFrame的索引:indexDataFrame的元素值:values把DataFrame变成ndarray的方法;values和matrix...

2019-01-24 14:09:46 463

原创 比赛步骤

比赛进行的步骤1、搞清楚问题,是什么类型的问题,比如是分类还是回归问题2、开始对数据进行分析(数据质量的分析,从一致性,完整性,正确性几点分析;统计数据特性,看目标主要和那些特征有关。数据降维,包括特征选择(利用逻辑回归等模型判断特征对模型的贡献)和特征提取(PCA))3、模型选择从众多模型中选择最佳模型4、算法验证,看评价指标5、算法优化,修改模型参数。...

2019-01-24 13:01:52 207 2

原创 数据的分析的方法及评价指标总结

数据方法总结:1、分类算法:逻辑回归、决策树、支持向量机、最近邻、贝叶斯网络、神经网络评价指标:精确率(precision)、F-Score、准确率(Accuracy)、召回率(Recall)、特效度(Specificity)、ROC曲线、AUC2、回归算法:线性回归、岭回归、lasso回归、Elastic回归、多项式回归、核回归评价指标:R、R方、调整R方、因变量预测标准...

2019-01-23 23:08:00 6206

原创 数据分析

数据的分析的定义:从海量数据中识别出有效的、心仪的、潜在有用的、最终可理解的模式的过程。(简单点说就是从海量数据中找到有用的知识)数据分析的步骤:1、数据获取2、数据预处理3、数据分析与知识发现4、数据可视化下面分开说明每个步骤。1、数据获取:可以通过各种方式获取的需要分析的数据(包括传感器获得的数据,爬虫爬取的数据)2、数据预处理:完成从数据到信息的转换过程。(数...

2019-01-23 22:15:20 208

原创 matlab画图时的工具

2019-01-02 22:34:33 906

原创 流形学习梳理

流形学习方法的优缺点:优点:能够找到隐藏在高维数据中的低维嵌入、特别是针对非线性分布的数据。缺点:没有显示的投影矩阵,对新加入的样本必须重新进行操作。步骤:1、构造样本点的局部领域2、得到局部流形结构3、构造全局优化模型4、全局低维表示主要代表性算法:分为全局和局部流形方法;全局主要有ISOMAP、局部主要有LLE、LE、LTSA、SMCE。ISOMAP:主要原...

2018-12-31 14:28:19 1444

原创 读hands_on_Ml_with_Sklearn_and_TF系列第一章

机器学习:计算机程序利用经验E学习任务T,性能是P,如果针对任务T的性能P随着经验E不断增长,则称为机器学习。自己理解就是给出一个任务,对象是数据,从数据中学习到一种规律,这种规律对新的数据同样有用。机器学习可以根据训练时监督的量和类型进行分类。主要有四类:监督学习、非监督学习、半监督学习和强化学习。下面分别对这是四类分别介绍。监督学习:就是看训练数据有没有标签,有则称为监督学习,没有则称...

2018-12-06 21:00:27 216

原创 多标签数据制作

把LIBSVM格式的多标签数据制作成mat格式的数据工具步骤工具matlab,工具包libsvm步骤1、用excel打开libsvm格式的数据,去掉前面的前缀(exp1…),以空格符分开2、把非标签栏用文本格式表示3、结束,保存数据4、在txt文件中操作,去掉标签的双引号,用替换功能,把引号用无代替,OK5、现在开始写matlab程序,把它变成mat格式的常规数据集的格式,代码如下...

2018-12-05 22:50:39 1143

原创 多标签分类的学习感悟

关于多标签学习的一些自我理解

2017-11-07 21:17:45 2036 5

java554234234API

2016-05-14

数据设计与算法

适合初学数据设计与算法的人,此文件是北京大学的老师讲的,希望可以对各位同学有所帮助

2015-11-25

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除