自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

三米学习笔记杂货铺

为了装逼而学习,个人学习笔记杂货铺,欢迎大家评论指正!

  • 博客(89)
  • 资源 (25)
  • 收藏
  • 关注

原创 利用数据可视化技术来学习钻石鉴别

文章目录数据背景数据背景鸢尾花可以分成 Setosa、Versicolour 和 Virginica 三个品种,在这个数据集中,针对每一个品种,都有 50 个数据,共150条数据。每个数据中包括了 4 个属性,分别是花萼长度、花萼宽度、花瓣长度和花瓣宽度。...

2020-05-20 13:26:46 1631

原创 参数估计与假设检验的通俗理解

文章目录参数估计假设检验参数估计For 高手:参数估计(parameter estimation),统计推断的一种。根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。从估计形式看,区分为点估计与区间估计:从构造估计量的方法讲,有矩法估计、最小二乘估计、似然估计、贝叶斯估计等。要处理两个问题:(1)求出未知参数的估计量;(2)在一定信度(可靠程度)下指出所求的估计量的精度。信度一般用概率表示,如可信程度为95%;精度用估计量与被估参数(或待估参数)之间的接近程度或误差来度量。For 小白:人

2020-05-19 22:58:09 2586

原创 核密度函数详解,核密度函数图如何看?

前言上一篇博客画了一张核密度函数,但是搜了半天也没找到怎么分析这个图。求人不如求自己,这篇来分析一下这个核密度函数和核密度图。说的不对的地方还请大神指出。概率密度从数学上看,分布函数F(x)=P(X<x),表示随机变量X的值小百于x的概率。这个意义很容易理解。概率密度f(x)是F(x)在x处的关于x的一阶导数,即变化率。如果在某一x附近取非常小的一个邻域Δx,那么,随机度变量X落在(x, x+Δx)内的概率约为f(x)Δx,即P(x<X<x+Δx)≈f(x)Δx。换句话说,概率

2020-05-19 22:56:51 35186 2

原创 Python 数据可视化,常用看这一篇就够了

文章目录前言可视化视图分为 4 类,散点图折线图直方图条形图箱线图饼图热力图蜘蛛图二元变量分布成对关系总结前言如果你想要用 Python 进行数据分析,就需要在项目初期开始进行探索性的数据分析,这样方便你对数据有一定的了解。其中最直观的就是采用数据可视化技术,这样,数据不仅一目了然,而且更容易被解读。可视化视图分为 4 类,比较:比较数据间各类别的关系,或者是它们随着时间的变化趋势,比如折线图;联系:查看两个或两个以上变量之间的关系,比如散点图;构成:每个部分占整体的百分比,或者是随着时间的百

2020-05-19 22:05:36 45131 9

原创 Git 常用技巧分享

1. Git alias这是一个非常能提高工作效率的操作,所以放到第一位!!! 这个分为两种情况,一是全局有效,另外一个是单个repository 有效,本人用的事全局懒得挨个repository去配置。mac:找到这个文件/etc/.gitconfig,或者 ~/.gitconifg,同时配置后者覆盖前者。windowsC:\Users$user.gitconfigRepositor...

2020-03-07 16:34:21 133

原创 伪漫迷用数据假装看了一遍《复联4》

这是一个心情愉悦的周六下午,在免费给公司加了几个小时班后,突然想看电影了,但是作为一个junior engineer,我怎么能像那些senior engineer一样拿着轻松赚来毛爷爷去电影院挥霍呢?(看官COS:电影都舍不得看,还说的这么冠冕堂皇,真特么屌丝!)首先我们先来学习一下复联4的英文名字Avengers: EndgameAvengers: 复仇者Endgame:最后阶段,尾声那...

2020-01-20 15:37:52 1292

原创 Spark-SQL 面试准备 3

Spark Knowledge No.321.driver的功能是什么:答:1.一个spark作业运行时包括一个driver进程,也就是作业的主进程,具有main函数,并且有sparkContext的实例,是程序的入口;2.功能:负责向集群申请资源,向master注册信息,负责了作业的调度,负责了作业的解析,生成stage并调度task到executor上,包括DAGScheduler,Ta...

2020-01-20 15:16:45 329

原创 Spark-SQL 面试准备 2

Spark Knowledge NO.211.RDD缓存:Spark可以使用 persist 和 cache 方法将任意 RDD 缓存到内存、磁盘文件系统中。缓存是容错的,如果一个 RDD 分片丢失,可以通过构建它的 transformation自动重构。被缓存的 RDD 被使用的时,存取速度会被大大加速。一般的executor内存60%做 cache, 剩下的40%做task。Spark中...

2020-01-20 14:29:48 398

原创 Spark-SQL 面试准备 1

Spark Knowledge NO.11. spark中的RDD是什么,有哪些特性?答:RDD(Resilient Distributed Dataset)叫做分布式数据集,是spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可以并行计算的集合Resilient:表示弹性的,弹性表示Dataset:就是一个集合,用于存放数据的Destributed:分布式,可以并行在集...

2020-01-20 14:28:00 1389 1

原创 恼人的时区问题

参考:http://www.99cankao.com/date/timezone.php由于由于工作中经常要采集来自不同国家网站的数据,和来自不同时区的同事月会议,开发程序,所以经常在时区上转不过弯来,这里整理了一下,做个笔记,也希望对大家有所帮助。时区的定义1884年在华盛顿召开的国际经度会议(又称国际子午线会议)上,规定将全球划分为24个时区(东、西各12个时区)。GMT格林尼...

2020-01-20 14:25:30 790

原创 NLP练习Demo收藏

目录1.分词 Word Segmentation2.词预测 Word Prediction3. 文本蕴涵 Textual Entailment4. 语音识别 Automatic Speech Recognition5. 自动摘要 Automatic Summarisation6. 文本纠错 Text Correct7.字音转换 Grapheme to Phoneme8. 复述检测 Paraphra...

2019-07-09 18:08:19 1187

原创 Java面试题整理四(GC和内存)

这一次提笔写博客倒不是为了整理面试中遇到的问题,而是在实际工作中遇到了这个问题,于是想把记录下来。这次遇到的问题是GC内存使用溢出的问题,由于它也是面试时经常问到的题目。(到现在都记得在百度面试时被问懵逼了,自以为平时开发遇不到这样的问题所以什么都没看就去了~~~~) 下面先看看我遇到的问题吧!场景:本公司准备搭建自己的数据仓库,于是需要使用ETL工具Ket...

2019-05-24 17:26:12 388

原创 Spark SQL 编译原理

写在前面的话:因为本人在职,所以没有充分的时间写博客,所以经常是写好整个框架,再陆陆续续的补充修改。所以如果发现什么错误请留言。正如大家了解的一样,SparkSQL 它其实是一个SQL的编译器,跟普通数据库不同的是它的底层使用的HDFS存储,使用Spark Core进行计算。SparkSQL看了一部分下来,发现自己在编译原理这一领域的知识有所欠缺,现在开始补习一下。题目叫Spark SQL编...

2019-05-19 18:39:36 1220

原创 Spark SQL 基本概念

写在前面的话:因为本人在职,所以没有充分的时间写博客,所以经常是写好整个框架,再陆陆续续的补充修改。所以如果发现什么错误请留言。本文主要目的是记录在阅读Spark源码时发现的SQL基本概念的知识遗漏,这样可以更加快速的阅读源码的注释,毕竟那都是专业人员用专业术语写成的。这个博客会持续更新到放弃阅读为止。基本术语列表:谓词(predicate):返回值为真值(TRUE/FALSE/UNKNO...

2019-05-19 08:58:41 521

原创 Hive 和Spark 中时间,时区转换方法

hive :hive> select unix_timestamp('2018-11-07T17:24:09.313-05:00') > ;OK_c0NULLTime taken: 1.061 seconds, Fetched: 1 row(s)hive> select unix_timestamp('2018-11-07T17:24:09.313') ...

2019-05-19 08:49:31 3943

原创 Spark-SQL常用调优参数汇总

写在前面的话:因为本人在职,所以没有充分的时间写博客,所以经常是写好整个框架,再陆陆续续的补充修改。所以如果发现什么错误请留言。本文主要是日常工作的积累,主要是简单罗列了常见的spark SQL的参数及其含义。#Job ID /Namespark.app.name=clsfd_ad_attr_map_w_mvca_ins#yarn 进行调度,也可以是mesos,yarn,以及standa...

2019-05-18 20:24:59 3593

转载 推荐几个有意思的Python 库

在数据库中即时保存数据:Datasethttps://dataset.readthedocs.io/en/latest/当我们想要在不知道最终数据库表长什么样的情况下,快速收集数据并保存到数据库中的时候,Dataset 库将是我们的最佳选择。Dataset 库有一个简单但功能强大的 API,因此我们可以很容易的把数据保存下来,之后再进行整理。Dataset 建立在 SQLAlchemy ...

2019-03-20 18:17:33 1721

原创 Teradata语法树——insert

这里只是简单保存一下Teradata的语法树,希望能对新手有所帮助。Insert[NONTEMPORAL | temporal_validtime_qualifier] INS[ERT] [INTO] tablename ...

2019-01-10 17:00:45 2927 2

转载 vim编辑器的配置文件vimrc的参数优化

vim编辑器的配置文件vimrc的参数优化zhe这里主要参考了一篇大神的文章,但是在复制该文章中代码时发生了一些错误:里面的引号不是注释的意思,vim识别不了报错里面的中文vim识别不了报错。原文链接:https://blog.csdn.net/xiezuoyong/article/details/78113355这里就以上问题做了些修改,从而方便大家直接复制粘贴使用。set n...

2018-09-29 16:07:44 490

原创 机器学习(三)——线性模型

过去的一周可以说是十分痛苦,一方面工作强度上来了,另一方面生活上遇到的麻烦事,感觉人生观都受到了冲击,本来说好的每周写两篇博客,这周一篇也没有写出来,这里自己做一个检讨!以后一定把那个女人给忘掉,继续开始我的屌丝生活。 这是我的第一篇用MarkDown写的博客,我会尽量用标准的格式去编写,希望它可以带来全新体验。 这里需要分享的是机器学习的线性模型,这应该是最简单的模型了,自己看了一遍还不是很...

2018-07-20 17:47:17 607

原创 个人机器学习笔记==》如何正确进行模型评估

误差:经验误差:在训练集样本中分类错误的样本占总训练样本集的比例,也称为训练误差泛化误差:在新样本上的误差比例。精度:1-错误率,精度为100%通常都是有问题的。过拟合:...

2018-07-02 22:41:54 434

原创 个人机器学习笔记==》常见术语

基本术语:西瓜样例数据:ID色泽根蒂敲声酸甜程度销量1红色蜷缩浊响601002绿色蜷缩清脆801503红色硬挺清脆90300数据集:一组数据的集合,如:这里的3组数据。样本(示例):反映事件或者对象的某些方面的变现或性质的事项。如:这里每一行数据都是一个样本。属性(特征):这里的色泽,敲声都可以称为西瓜的属性或者特征。样本空间(属性空间):假设每一个属性都是被描述的对象的一个维度,那么多个属性或者...

2018-07-01 19:49:12 697

原创 Shell 脚本开发常用命令和知识点汇总(值得收藏,用时只需要Ctrl+F)

1. 跨脚本文件调用需要在文件的开始加上sh /dev/xxxxx.sh 或者. /dev/xxxxxx.sh2. $? $# $1 $@ $*的含义变量 含义$0 当前脚本的文件名$n 传递给脚本或函数的参数。n 是一个数字,表示第几个参数。例如,第一个参数是$1,第二个参数是$2。$# 传递给脚本或函数的参数个数。$* 传递给脚本或函数的所有参数。$@ 传递给脚本或函数的所有参数。被双引号("...

2018-06-29 18:02:40 1523

原创 自然语言处理(NLP)-NLTK入门学习(si)

这一篇可能就是NLTK的最后一篇了,这里做个NLP的应用总结。信息摘要提取这个相信大家都不陌生,给定的文章,故事,新闻通常需要针对其内容自动生成摘要。需要重点说一下,这种应用一般需要一些深度学习的NLP而不是简单的解析句子的结构,往往是解析整个文本的结构和内容。信息摘要的一种理论逻辑是重要的句子中通常包含着重要的词汇,而跨语料库的差异词绝大多数都是重要的词汇。因此,只要句子中包含具有很大差异性的词...

2018-06-24 21:12:43 1423

原创 自然语言处理(NLP)-NLTK入门学习(三)

前面两篇已经基本上算是完成了预处理部分的分享了,这里开始分享一些文本处理。语言结构是非常复杂的,需要按照其不同的处理层次来对它进行描述。这里会分享常见的文本结构,介绍结构之间的区别和用法。同样我会试着通过代码的方式以实例展示其处理过程。概念:1. 为什么需要进行文本解析回答这个问题的时候可以先回想一下当初我们学习语言时是怎样的一个过程,首先我们先学一些单词,2. 两种解析方式:...

2018-06-24 12:02:24 1624

原创 自然语言处理(NLP)-NLTK入门学习(二)

前面我分享了一下使用NLTK进行文本数据的预处理工作,这里继续分享一下NLTK的词性标注。词性(POS)在小学的语文课或者英语课中已经多次强调了其含义,这里就不赘述了。就拿英语来说,它在新闻和其它领域往往都有许多已经被标注的语料库,所以已经有大量的算法在这一领域中得到应用。但是在特定的应用场景中,POS的判定可能有些失灵。对于这些用例,可能需要重新建立一个标注器。在讨论POS标注时,有一个公认的标...

2018-06-18 14:12:17 2410

原创 自然语言处理(NLP)-NLTK入门学习(一)

自从看了吴军的《数学之美》,被其中的数学算法在IT发展历程中的应用后,发现NLP的算法其实不仅仅是语音检测单一的应用场景,所以下定决心买两本书来学习一下,这里先从NLTK开始,写的不好,欢迎大家拍砖。还是先说说自然语言处理(NLP),NLP与教孩子学语言的过程非常相似,其大多数任务都是对单词、语句的理解,形成语法和结构都正确的语句等,这些任务对于人类来说都是非常自然的事情,但是对于NLP来说,其中...

2018-06-17 13:53:28 5201

原创 ssh 端口转发工具 tunnel

英语好的请移步:https://www.ssh.com/ssh/tunneling/exampleWHAT IS SSH PORT FORWARDING, AKA SSH TUNNELING?SSH port forwarding is a mechanism in SSH for tunneling application ports from the client machine to the...

2018-06-15 11:14:17 11501

原创 布隆过滤器原理理解分享

问题: 海量数据的去重,例如数十亿垃圾邮件地址里面甄别某个邮件地址是否为垃圾邮件。解决方法:布隆过滤器(Bloom Filter)

2018-06-11 18:01:39 3732

原创 公钥,密钥原理学习(数学之美)

       最近在阅读《数学之美》,在看到信息指纹那一部分的时候被书中提到的公、密钥原理吸引住了。因为平时工作经常用Linux服务器,所以难免会用到SSH和SFTP,对于这两个工具一直只知道其底层数据传输使用的加密技术就是这种非对称加密方式,其大概的工程流程如下:1. client与sever互联,client发送消息给sever,双方都产生一对用于加密和解密的公钥和私钥。 2. client将...

2018-06-07 15:37:25 3199

原创 Windows 10 下进行Linux shell脚本开发环境搭建

背景:公司网络环境较为复杂,服务器权限管理极为严格,所以在进行Linux下的脚本开发时出现诸多不便,例如:没有root权限;没有emacs,vim等开发工具。环境:惠普笔记本(注意红色箭头指向的地方)OS Build 需要大于16215CPU需要有开启虚拟化Step1:打开 Microsoft Store 在搜索框里搜索Run Linux on Windows 10,然后选择你喜欢的Linux版本...

2018-06-06 16:33:39 8015

原创 Teardata SQL Assistant使用技巧

以下是本人工作中遇到的Teradata的一些使用问题,在这做个记录,与大家共享。 注:C 表示 Ctrl1. 格式化代码 C + Q2. 清除代码 C + T3. 替换代码 C + H4. 执行 F55. 批量并行执行 F96. 字段值为“?”就是null 的意思7. 创建虚拟临时表CREATE MULTISET VOLATILE TABLE XXXXXXX...

2018-06-05 09:21:24 6553 4

原创 Hive 入门学习笔记(三)

//启动hive server 2bin/hiveserver2//启动beelinebin/beeline//链接hive server!!connect jdbc:hive2://master.hadoop.com:10000 hadoop hadoop org.apache.hive.jdbc.HiveDriverbin/beeline -u jdbc:hive2://hadoop-seni...

2018-06-02 10:23:21 1707

原创 Hive 入门学习笔记(二)

//启动hive server 2bin/hiveserver2//启动beelinebin/beeline//链接hive server!!connect jdbc:hive2://master.hadoop.com:10000 hadoop hadoop org.apache.hive.jdbc.HiveDriverbin/beeline -u jdbc:hive2://hadoop-seni...

2018-06-01 18:31:41 1714

原创 Hive 入门学习笔记(一)

Hive中常用命令:show tables;  create table testCreate(id int,name string);desc testCreate;desc extended testCreate;desc formatted testCreate;create table student (id int,name string) ROW FORMAT DELIMITED FI...

2018-06-01 17:11:24 1830

原创 CentOS6.5非root用户免密码登录失败

用ssh-keygen -t rsa 生成公钥和私钥文件1.[hduser@levin .ssh]$ ssh-keygen -t rsa[hduser@levin .ssh]$ ls -l-rw------- 1 hduser hduser 1675 Mar 21 09:38 id_rsa-rw-r--r-- 1 hduser hduser  394 Mar 21 09:38 id_rsa.pub...

2018-06-01 17:07:04 974

原创 hive 执行查询任务失败

报错:replicated to 0 nodes instead of minReplication (=1). There are 1 datanode(s) running and 1 node(s) are excluded in this operation.解决方案:这是因为有一个datanode掉线了方案1:重启机器,重新开启hadoop集群发现掉线的那个节点的日志报错: WARN ...

2018-06-01 17:04:21 1531

原创 Hive ORC file 数据插入报错

报错:Error: java.io.IOException: java.lang.reflect.InvocationTargetExceptionCaused by: java.lang.reflect.InvocationTargetExceptionCaused by: java.io.IOException: Malformed ORC file hdfs://master.hadoop....

2018-06-01 17:02:15 2783

原创 Hive官方使用手册——DDL使用说明

本文为自己翻译的译文,原文地址:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDLHive官方使用手册——DDL使用说明Hive Data Definition Language概述这里是HiveQL DDL语法说明文档 包括:CREATE DATABASE/SCHEMA, TABLE, VIEW, FUNCTIO...

2018-03-28 10:59:21 3961 1

原创 Hive官方使用手册——数据类型

本文为自己翻译的译文,原文地址:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+TypesHive官方使用手册——数据类型概述这里列出了Hive中所有支持的数据类型。有关附加信息,请参阅教程中的类型系统。对于HCatalog支持的数据类型,请参见:HCatLoader Data TypesHCatStorer Data...

2018-03-27 11:22:25 2478

ClickHouse--day02--企业最佳实战.pdf

最新Clickhouse 培训资料

2021-11-15

ClickHouse--day01--架构原理和表引擎详解.pdf

ClickHouse--day01--架构原理和表引擎详解.pdf

2021-11-15

2021年前端面试题.docx

2021年前端面试题.docx

2021-11-15

Java+Spring面试题.docx

2021年最新整理的Java面试题

2021-11-15

apache2_参考_文档.zip

Apache2 文档, CHM 格式。希望对小白和刚入门的同学有所帮助。暂时没有找到Mac能用的,希望有Mac能用的版本请私信我。

2020-06-29

GitHub入门与实践带书签(绝对高清非扫描版).7z

GitHub官方入门事件教程,墙裂推荐,高清无码非扫描版,高清无码非扫描版,高清无码非扫描版,重要的事情说三遍。 带书签,简直不要太完美,欢迎下载。

2019-05-27

MySQL中文完全手册

MySQL中文完全手册,扫描版,PDF版,自己逐个加了目录,绝壁比市面上别的文档要好用!

2016-01-13

AWSEMR官方使用手册

这是AWS官网提供的EMR使用手册,需要的童鞋可以自行下载。绝对真品!,需要的童鞋可以自行下载。绝对真品!

2015-11-04

ThoughtWorks五月份技术雷达

ThoughtWorks是一个国际大软件开发公司,它在进行软件开发时也会不断的去测试评估市场上所出现的一些最新技术并且将他们的技术专家的评估结果共享出来。这就是他们的技术雷达。

2015-11-04

ThoughtWorks一月份技术雷达

ThoughtWorks是一个国际大软件开发公司,它在进行软件开发时也会不断的去测试评估市场上所出现的一些最新技术并且将他们的技术专家的评估结果共享出来。这就是他们的技术雷达。

2015-11-04

C#编写的浏览我的电脑

主要是一个浏览我的电脑文件树的小程序,亲测可用!

2014-08-11

Tgra android

英伟达官方出品,绝对好用!!!! The Tegra Android Development Pack (TADP) is a single package that installs all software tools and sets up an Android development environment required to developing for Android on NVIDIA’s Tegra platform

2014-04-29

燕山大学51单片机实习pcb图

这是燕山大学2013年51单片机核心板和各个模块的pcb图设计全部源文件!原理图、元件库、pcb图全套都有~

2013-11-15

liunx下数据结构排序算法比较

linux 下成功调试运行成功,数据结构各排序算法比较,清晰易懂。

2013-10-09

红黑联盟 循序渐进 第四章:linux下常用命令及其使用详解

循序渐进学习linux所有的视频和PTT 我都有 需要的请联系我

2013-10-05

红黑联盟 循序渐进 第三章系统基本结构

红黑联盟循序渐进学习linux 的视频和ptt我都有!需要的联系我~

2013-10-05

红黑联盟 循序渐进 第二章 Linux系统安装与基本配置

循序渐进学习linux所有的视频和PTT 我都有!

2013-10-05

红黑联盟 循序渐进 第一章 Linux学习方法论

循序渐进学习linux所有的视频和PTT 我都有!

2013-10-05

读linux内核感悟

linux 内核读核感悟,感觉写的还不错哦!

2013-10-05

LINUX常用命令

linux常有命令,fedora ubuntu都适用

2013-10-05

leslie矩阵模型人口预测

好用,全国一等奖的源代码哦~好用,全国一等奖的源代码哦~ 当然也可自行扩展,考虑城镇化,人口老龄化。

2012-08-10

C语言实现MATLAB_6[1].5中M文件的方法

用c语言实现matlab的M文件编写必看。

2012-07-22

matlab80问

新手入门,常见问题汇总,数学建模培训必备~~

2012-07-22

BP神经网络matlab实现

好东西不多说~~~简单而经典学习神经网络的好助手。

2012-07-22

gcc中文使用手册

没啥说的,两个字 全,好! linux编程必备,菜鸟必备。同时也是高手的查阅手册!

2011-11-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除