自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

锋子的博客

学习笔记总结

  • 博客(26)
  • 收藏
  • 关注

原创 大数据全栈开发工程师-进阶之路

大数据基础准备:1:Java2:mysql3:linux大数据入门:1:Hadoop2:hive3:hbase4:flume5:sqoop6:python大数据进阶:1:spark2:storm3:机器学习4:人工智能

2018-03-27 11:53:28 2119

转载 Java网络爬虫入门:第02课:Java 网络爬虫基础知识

第02课:Java 网络爬虫基础知识引言Java 网络爬虫具有很好的扩展性可伸缩性,其是目前搜索引擎开发的重要组成部分。例如,著名的网络爬虫工具 Nutch 便是采用 Java 开发,该工具以 Apache Hadoop 数据结构为依托,提供了良好的批处理支持。Java 网络爬虫涉及到 Java 的很多知识。本篇中将会介绍网络爬虫中需要了解的 Java 知识以及这些知识主要用于网络爬虫...

2018-12-29 17:08:31 496

转载 Java网络爬虫入门:第01课:网络爬虫原理

 引言随着互联网的迅速发展,网络资源越来越丰富,信息需求者如何从网络中抽取信息变得至关重要。目前,有效的获取网络数据资源的重要方式,便是网络爬虫技术。简单的理解,比如您对百度贴吧的一个帖子内容特别感兴趣,而帖子的回复却有1000多页,这时采用逐条复制的方法便不可行。而采用网络爬虫便可以很轻松地采集到该帖子下的所有内容。网络爬虫技术最广泛的应用是在搜索引擎中,如百度、Google、Bin...

2018-12-29 16:19:26 774

转载 机器学习入门笔记(六)为什么要学 Python 以及如何学 Python

学了模型,还需要学习编程吗?对这个问题,答案是肯定的!虽然我们学习的是机器学习原理,但是,并不等于说就可以停留在“原理”层面,彻底 Hands-Off。恰恰是为了学好原理,我们需要具备最基本的编程能力。原因在于:在讲述过程中,对于原理细节的展现,经常会以代码形式出现。在这个时候,就算是仅仅为了理解,也得能读得懂代码。 想要真的理解原理,就会涉及动手实践的问题。一般来说,经过自己去...

2018-12-19 17:19:38 344

转载 机器学习入门笔记(五)如何学习“机器学习”

 学习“机器学习”这件事,我走过很长的一段弯路。有一些心得、体会和方法,在此和大家分享。以模型为驱动,了解“机器学习”的本质本课力图引导大家以模型为驱动,进行学习。我选择了几种经典模型(例如:线性回归、逻辑回归、决策树、支持向量机、条件随机场、K 均值等),作为入门的进阶。初次学习模型,不必贪多。但就这些选定的模型,一定要搞清楚其问题域、模型函数、目标函数、训练算法……潜入到数...

2018-12-19 17:18:36 323

转载 机器学习入门笔记(四)学习机器学习原理,改变看待世界的方式

第02课:学习机器学习原理,改变看待世界的方式学习机器学习,除了上一篇提到的实实在在的好处外,在务虚方面同样受益。学习模型运作原理,可以了解现实事物如何转化为数字并被计算,结果又如何映射回现实世界来影响我们的生活。掌握机器学习相关知识,能为我们客观认识现实带来下面这些帮助。破除迷信在这个看起来人工智能要席卷一切的年代,不光是正在或立志于在 AI 领域做技术工作的人,任何人都有必...

2018-12-19 17:15:46 203

转载 机器学习入门笔记(三)为什么要学原理和公式推导?

第01课:为什么要学原理和公式推导机器学习最直接的应用,就是利用模型解决实际业务中的问题。本课所讲解的几个经典模型,均是前辈在机器学习发展的几十年间所总结出的、解决特定问题的固定模式,并且已在实践中得到很好证明。学会这些模型,一则可以以它们为载体理解“机器学习”是一种怎样的机制;二则掌握了模型,也就掌握了当前许多实际问题的有效解决方案。学模型就要学公式推导吗? 在实际工作中...

2018-12-19 17:10:55 1566 1

转载 机器学习入门笔记(二)行业分析

0. 引子AI 原本是一个专业领域,没什么特别的。作为码农一枚,笔者的工作内容正好在这个领域。近来这一年左右时间里,连续发生了多件事情,使得笔者不得不抬起原本一直低着敲代码的头,看看这个为 AI 狂欢的世界。【Case 1】 居然在一个月里碰到两位在相对传统行业创业的亲友,来打听将 AI 技术应用到他们所在行业上的问题,例如:聊天机器人是否可以代替人工客服?两位亲友居然都动了雇佣...

2018-12-07 09:28:53 566

转载 机器学习入门笔记(一)学习计划

第一部分:绪论 授人以鱼不如授人以渔。本部分从意义和作用出发,给出相应的学习方法和与理论配套的编程练习。 第二部分:基本原理 深谙其理,才能灵活应变。本部分带大家了解什么是机器学习、机器如何自己学习,以及机器学习三要素:数据、模型、算法之间的关系。 模型是机器学习的核心,那么模型是怎么得到的呢?本部分也将讲解模型的获取(训练)和评价(验证/测试)过程,相应数据集合的划分以...

2018-12-07 09:24:59 388 2

原创 大数据技术学习笔记之网站流量日志分析项目:网站业务分析数据实现5

一、回顾    -》基于ETL结果进行数据仓库建模        -》ETL结果            true72.46.128.140-2013-09-18 07:58:50/hadoop-zookeeper-intro/20014722"https://www.google.com/""Mozilla/5.0(WindowsNT6.1;WOW64)AppleWebKit/537.1(KHTM...

2018-04-10 17:51:36 1216

原创 大数据技术学习笔记之网站流量日志分析项目:数据仓库设计与etl模型建模4

一、回顾    -》ETL        -》功能:一般只有map task            -》1数据过滤                -》非法值                -》字段个数                -》字段合法性判断                -》状态判断            -》2解析补全                -》ip地址            ...

2018-04-10 17:49:33 1020

原创 大数据技术学习笔记之网站流量日志分析项目:数据采集层的实现3

一、数据采集业务    -》数据源        -》网站:用户访问日志、用户行为日志、服务器运行日志        -》业务:订单、用户、商品信息    -》SDK        -》SDK用于监听用户的行为,收集用户的信息,发送给nginx等日志服务器        -》针对不同的客户端有不同的SDK            -》手机APP            -》网站:js         ...

2018-04-10 17:48:11 1270 1

原创 大数据技术学习笔记之网站流量日志分析项目:网站业务与企业架构2

一、回顾    -》flume使用遇到的错误        -》少jar包        -》卡住不动:agent文件不对        -》环境变量:hdfs、hive    -》Flume三大组件        -》source:负责采集数据源,将数据源变成数据流,封装在event当中,将封装好的数据流发送给channel        -》channel:负责将source发送过来的数据进行...

2018-04-10 17:46:40 515

原创 大数据技术学习笔记之网站流量日志分析项目:Flume日志采集系统1

一、网站日志流量项目    -》项目开发阶段:        -》可行性分析        -》需求分析        -》详细设计        -》代码实现        -》测试        -》上线    -》大数据业务流程        -》数据采集:sqoop、Flume、kafka、Logstash            -》数据源:日志文件、RDBMS、实时的数据流      ...

2018-04-03 17:58:05 1980

原创 大数据生态集群环境搭建部署超详细教程-HJF

大数据集群环境搭建部署连接HJF整理

2018-03-28 15:46:12 1017 1

原创 大数据技术学习笔记之hive框架基础3-sqoop工具的使用及具体业务分析

一、CDH版本的介绍及环境部署    -》Hadoop的三大发行版本        -》Apache Hadoop        -》cloudera Hadoop:CDH        -》Hortonworks: HDP    -》选用CDH版本的好处        -》解决每个框架之间的兼容性问题        -》不需要对其他框架进行对应版本的编译    -》cdh5框架的下载:cdh-5...

2018-03-27 11:43:28 259

原创 大数据技术学习笔记之hive框架基础2-hive中常用DML和UDF和连接接口使用

一、分区表的介绍及使用    -》需求:统计每一天的PV,UV,每一天分析前一天的数据        -》第一种情况:每天的日志存储在同一个目录中            /logs/20170209.log                  20170210.log                  20170211.log                        -》预处理:将日期字段提取...

2018-03-26 21:16:01 285

原创 大数据技术学习笔记之hive框架基础1-基本架构及环境部署

一、hive的介绍及其发展"27.38.5.159" "-" "31/Aug/2015:00:04:37 +0800" "GET /course/view.php?id=27 HTTP/1.1" "303" "440" - "http://www.micro.com/user.php?act=mycourse" "Mozilla/5.0 (Windows NT

2018-03-26 21:14:10 188

原创 大数据技术学习笔记之Hadoop框架基础5-Hadoop高级特性HA及二次排序思想

一、回顾    -》shuffle流程        -》input:读取mapreduce输入的            默认:key是行的偏移量,value是行的内容        -》map:负责将数据任务切分,过滤,筛选,转换等一系列的数据任务        ·    一个块=一个分片=一个map task        -》shuffle:分区、排序、分组            -》map...

2018-03-26 21:06:57 204

原创 大数据技术学习笔记之Hadoop框架基础1-Hadoop介绍及伪分布式部署

一、学习建议    -》学习思想        -》设计思想:分布式            -》数据采集            -》数据存储            -》数据计算            -》数据可视化    -》学习阶段        -》了解功能简单使用                            -》java、java变量        -》安装部署配置环境      ...

2018-03-26 21:03:15 222

原创 大数据技术学习笔记之Hadoop框架基础2-MapReduce编程及运行流程

一、回顾    -》hadoop的功能?        -》海量数据存储和海量计算问题        -》分布式文件存储框架hdfs和分布式计算模型框架MapReduce    -》hadoop的四大组件?        -》common:用于支持其他模块的组件        -》hdfs:分布式文件系统        -》MapReduce:分布式计算模型        -》YARN:分布式任务...

2018-03-26 21:03:02 458

原创 大数据技术学习笔记之Hadoop框架基础3-网站日志分析及MapReduce过程详解

一、回顾    -》Hadoop启动方式        -》单个进程            sbin/hadoop-daemon.sh start namenode/datanode            sbin/yarn-daemon.sh start resourcemanager/nodemanager        -》分别启动hdfs与yarn            sbin/star...

2018-03-26 21:02:51 1042

原创 大数据技术学习笔记之Hadoop框架基础4-MapReduceshuffer过程详解及zookeeper框架学习

一、MapReduce Shuffle    -》MapReduce运行五个阶段        input                 fileinputformat.setinputpaths(job,new Path(args[0]))            默认:输入key是行的偏移量,value是行的内容            job.setinputFormatClass(Texti...

2018-03-26 21:01:58 189

原创 大数据技术学习笔记之linux基础3-软件管理与shell脚本开发

一、Linux软件管理    -》压缩文件管理        -》常见压缩格式            -》zip/rar            -》zip/.tar.gz/.tar.bz2                -》unzip        -》tar:打包或者解包的命令        -》gzip            -》后缀:.gz            -》压缩:gzip file...

2018-03-26 20:50:40 133

原创 大数据技术学习笔记之linux基础2-基础环境与系统管理

  一、Linux用户及权限管理    -》用户管理        -》Linux用户的配置文件:/etc/passwd            root:x:0:0:root:/root:/bin/bash            用户名:密码:用户id:组id:用户组:家目录:shell        -》添加用户:只有root用户才能管理所有用户            -》useradd :用于...

2018-03-26 20:47:59 188 1

原创 大数据技术学习笔记之linux基础1-基础环境与基础命令

一、Linux系统介绍及部署    -》常见操作系统        -》windows、Linux(类unix系统)、Android、iOS、unix(HP UNIX)    -》操作系统构成        -》外壳(shell)+驱动+内核    -》常见Linux厂商        -》图形化界面:研究安卓,测试            Ubuntu、suse linux        -》命令...

2018-03-26 20:43:12 137

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除