bearcole-CSDN博客

原创 scala学习(1)

难点：1、scala中内部类属于外部类的实例，java中内部类属于类本身2、object 类是静态类，里面的方法也是静态的，而且类是懒加载，通常用作类的伴生对象3、构建实例对象有直接类的伴生对象中的apply（）方法，或者new 这个对象。有类的apply 和类的伴生对象的apply两种， apply（）等价于（）

2016-01-07 01:04:22 337

原创 java学习笔记

1、java.util.*接口Collection--->List 、Set、Queue；Map实现类List--->LinkList、ArrayList、Stack、Vector；Set-->HashSet、TreeSet；Map-->HashMap、HashTable、WeakHashMap1.1接口CollectionCollection是最基本的集合接口，一个Collect

2015-03-08 14:29:33 376

原创文本挖掘笔记

1、模型示意图2、过程3、分词基本方法：a、最大匹配法b、最大概率分词法（例）c、最短路径分词法

2015-03-08 11:19:16 595

原创 spark学习笔记二

Spark on yarn的过程：Step1：Spark Yarn Client上传相关的Jar和资源到HDFSStep2 : spark yarn client 向Resource Manager提交请求Step3 ：Resource Manager分配AppMaster 给Node ManagerStep4 ：Node Manager 启动AppMasterStep5 ：

2015-02-28 11:17:10 514

原创 spark笔记一

1、基于RDD机制实现的模型迭代式算法：应用于图处理，数值优化，以及机器学习中的算法关系查询：SQL查询、批量计算、即时查询 MapReduceRDD：提供MapReduce的一个超集，能够高效地执行MapReduce程序流式数据处理2、问题：随着集群负载的增加，数据流系统在很多重要的应用场景出现了低效率a、在计算过程中都需要高效率的数据共享

2015-02-22 10:09:31 481

原创 spark源码学习笔记

1、什么是函数式编程：一个函数可以作为另外一个函数的参数，类似于数学中的复合函数2、常用函数：filter，map& flatmap3、spark的关键组件：Master 、Worker、SparkContext、CoarseGrainedExecutorBackend（standalone模式）4、worker向master注册5、提交Task的过程：确定要提交的stage后

2015-02-20 16:22:20 353

转载大数据学习经验总结

目录机器学习、大数据相关岗位的职责面试问题答题思路准备建议总结自己的专业方向是机器学习、数据挖掘，就业意向是互联网行业与本专业相关的工作岗位。各个企业对这类岗位的命名可能有所不同，比如数据挖掘/自然语言处理/机器学习算法工程师，或简称算法工程师，还有的称为搜索/推荐算法工程师，甚至有的并入后台工程师的范畴，视岗位具体要求而定。

2015-02-19 17:16:24 3012 1

转载 Unable to load native-hadoop library for your platform 问题解决

hadoop2.4 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable在Ubuntu上安装完hadoop2.4以后，使用以下命令：hadoop fs -ls14/09/0

2015-02-16 21:55:15 1258

原创机器学习笔记

1、机器学习：use data to compute hypothesis g that approximates target f.2、区别的概念数据挖掘：use (huge) data to find property that is interesting如果它们目标是一致的，ML=DM；如果DM的结果和ML的结果有关系，它们之间可以相互帮助；传统的DM会关注大型数据库中有效

2015-02-16 17:48:48 372

原创 RDD笔记

RDD（Resilient Distributed Dataset）弹性分布式数据集spark中的RDD1、特点2、创建方式：加载外部数据集、在驱动程序中部署对象集合3、两类操作：转换--map、filter、flatMap、sample、groupByKey、reduceByKey、union、join、cogroup、crossProduct、mapValues、sort、

2015-02-15 10:50:31 292

原创笔记

1、大数据算法定义：在给定的资源约束下，以大数据为输入，在给定的时间约束内可以生成满足给定约束结果的算法。2、种类：2.1 时间亚线性算法-----解决访问全部数据时间过长2.2 外存算法、空间亚线性算法----解决数据难于放入内存计算2.3 并行算法 ---解决单个计算机难以保存全部数据，计算需要整体数据2.4 众包算法----计算机计算能力不足或知识不足3、算法设计技术

2015-02-15 10:24:26 312