Lance_Zhang_SH-CSDN博客

转载协同过滤介绍

原文：http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy2/index.html本系列的第一篇为读者概要介绍了推荐引擎，下面几篇文章将深入介绍推荐引擎的相关算法，并帮助读者高效的实现这些算法。在现今的推荐技术和算法中，最被大家广泛认可和采用的就是基于协同过滤的推荐方法。它以其方法模型简单

2015-10-10 09:14:44 541

原创 typora 工具解决

搜索 hasActivated="true"==e.hasActivated。替换为 hasActivated="true"=="true"首先去官网选择mac版本下载安装 typora。使用文本编辑工具（例如UE）

2023-05-19 15:48:18 90

转载 Spark：用Scala和Java实现WordCount

http://www.cnblogs.com/byrhuangqiang/p/4017725.html为了在IDEA中编写scala，今天安装配置学习了IDEA集成开发环境。IDEA确实很优秀，学会之后，用起来很顺手。关于如何搭建scala和IDEA开发环境，请看文末的参考资料。用Scala和Java实现WordCount，其中Java实现的JavaWordCount是sp

2015-12-29 16:06:42 686

转载基于物品的协同过滤和内容过滤有什么区别？

链接：http://www.zhihu.com/question/19971859/answer/20424386 基于物品的协同过滤，首先从数据库里获取他之前喜欢的东西，然后从剩下的物品中找到和他历史兴趣近似的物品推荐给他。核心是要计算两个物品的相似度。内容过滤的基本思想是，给用户推荐和他们之前喜欢的物品在内容上相似的其他物品。核心任务就是计算物品的内容相似度。可以注意

2015-11-06 13:16:05 1704 1

原创元数据管理器中存在错误。日志文件的扩展名只能是 .LOG。

在SSAS搭建中，点击处理时，报错信息“元数据管理器中存在错误。日志文件的扩展名只能是 .LOG。”解决办法：参考微软的MSDN：https://msdn.microsoft.com/zh-cn/library/ms180058(v=sql.120).aspx1、将ssas中的维度或度量右键属性；2、错误配置中的“错误日志路径”中明确保存的日志文件名称：abc.log3

2015-10-29 16:24:35 962

转载 Java 内存区域和GC机制

转：http://www.cnblogs.com/hnrainll/archive/2013/11/06/3410042.htmlJava垃圾回收概况　　Java GC（Garbage Collection，垃圾收集，垃圾回收）机制，是Java与C++/C的主要区别之一，作为Java开发者，一般不需要专门编写内存回收和垃圾清理代码，对内存泄露和溢出的问题，也不需要像C程序员那

2015-10-28 16:39:46 402

原创 ETL

ETL，Extraction-Transformation-Loading的缩写，中文名称为数据提取、转换和加载ETL(Extract-Transform-Load的缩写，即数据抽取、转换、装载的过程)作为BI/DW（Business Intelligence）的核心和灵魂；ETL是数据抽取（Extract）、转换（Transform）、清洗（Cleansing）、装载（Load）的过

2015-10-26 10:46:40 553

转载 Hive中实现in和not in

转：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html目前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表

2015-10-19 09:15:30 1183

原创如何在Excel中将文件大小中有GB、MB的信息转化成统一格式

已知条件：Excel中导出了一份数据，第一列是日期，第二列是文件大小201509011.87 GB201509021.85 GB20150903219.46 MB20150904227.99 MB现在希望能绘制一个Excel趋势图，问题：将GB、MB进行转换解决办法：1、新增列，计算文件大小的单

2015-10-15 11:10:59 6343

转载 JAVA中最常用的十个快捷键

转：http://blog.sina.com.cn/s/blog_5fb39f910101dc2b.html一个Eclipse骨灰级开发者总结了他认为最有用但又不太为人所知的快捷键组合。通过这些组合可以更加容易的浏览源代码，使得整体的开发效率和质量得到提升。1. ctrl+shift+r：打开资源这可能是所有快捷键组合中最省时间的了。这组快捷键可以让你打开你的工

2015-10-15 10:19:19 8723

转载 Yarn HA解决方案

引用：http://dongxicheng.org/mapreduce-nextgen/hadoop-yarn-ha-in-cdh5/在Apache Hadoop 2.0的第一个稳定版本2.2.0中，资源管理系统YARN存在单点故障，且尚未解决。YARN ResourceManage HA的相关jira为YARN-149，目前正在火热开发中，但尚未公布将来的发布版本。由于YARN是

2015-10-13 10:58:04 726

原创 ssis+ssas+ssrs 介绍

SSIS，数据抽取服务，实现数据的Extract,Transfom,Cleansing,Loading,或是按Kimball的说法，进行ECCD 的ETL过程，它实现了从源头提取、数据，清洗数据，一致化数据，加载交付数据到数据仓库这些功能。另外，在2012中，SSIS还包括了数据质量服务于主数据服务，它们的功用，顾名思义的可以了解到。SSAS，主要是建立、组织多维数据库，在2012之前

2015-10-13 10:52:13 4944

原创 Kylin 介绍

有幸参加了ebay的数次会议，有幸认识了产品经理Luke,现就其中的重要概念进行阐述：http://kylin.incubator.apache.org/Kylin是一个开源、分布式的OLAP分析引擎,它由eBay公司开发，并且基于Hadoop提供了SQL接口和OLAP接口，能够支持TB到PB级别的数据量。从Kylin官网得知，它具有以下特性：超级快的OLA

2015-10-13 10:49:12 1606

转载 kettle介绍

引用：http://lichao-super.iteye.com/blog/15771661，Kettle跨平台使用。例如：在AIX下（AIX是IBM商用UNIX操作系统，此处在LINUX/UNIX同样适用），运行Kettle的相关步骤如下： 1）进入到Kettle部署的路径 2）执行 chmod *.sh，将所有shell文件添加可执行权限

2015-10-13 10:47:26 603

转载 thrift的使用介绍

引用：http://gemantic.iteye.com/blog/1199214一、About thrift 二、什么是thrift，怎么工作？三、Thrift IDL 四、Thrift Demo 五、Thrift 协议栈以及各层的使用（java 为例）六、与protocolbuffer的区别一、About thrift

2015-10-13 10:43:18 431

原创 mahout调用协同过滤

./mahout recommenditembased --booleanData true --endPhase 2147483647 --input **** --maxPrefsPerUser 3 --maxSimilaritiesPerItem 100 --minPrefsPerUser 1 --numRecommendations 10 --output **** --similar

2015-10-13 10:40:29 436

原创国内SqlServer最牛人编写的MS SqlServer Sql 脚本优化规范及范例

/*==========================代码格式规范=====================*/ /*1.T-SQL脚本有必要的缩进和换行，代码层次结构清晰，一行的最大长度一般不要87个字符；代码使用统一的风格，例如：如果使用空格作为缩进，则不能再使用TAB做缩进处理*/USE TestGO--错误的格式DECLARE@Transactio

2015-10-13 10:26:41 2969

转载卷积神经网络CNN

引用：http://blog.csdn.net/zouxy09/article/details/9993371自己平时看了一些论文，但老感觉看完过后就会慢慢的淡忘，某一天重新拾起来的时候又好像没有看过一样。所以想习惯地把一些感觉有用的论文中的知识点总结整理一下，一方面在整理过程中，自己的理解也会更深，另一方面也方便未来自己的勘察。更好的还可以放到博客上面与大家交流。因为基础有限

2015-10-13 10:23:34 682

转载神经网络入门3

引用：http://blog.csdn.net/zzwu/article/details/5751084. 聪明的扫雷机工程（Smart Minesweeper Project）我要向你介绍的第一个完整例子，是怎么使用神经网络来控制具有人工智能的扫雷机的行为。扫雷机工作在一个很简单的环境中，那里只有扫雷机以及随机散布的许多地雷。图7　运行中的

2015-10-13 10:21:35 742

转载神经网络入门2

引用：http://blog.csdn.net/zzwu/article/details/5750503 数字版的神经网络 (The Digital Version) 　　上面我们看到了生物的大脑是由许多神经细胞组成，同样，模拟大脑的人工神经网络ANN是由许多叫做人工神经细胞（Artificial neuron，也称人工神经原，或人工神经元）的细小结构模块组成。人工神经

2015-10-13 10:20:20 646

转载神经网络入门1

引用：http://blog.csdn.net/zzwu/article/details/574931用平常语言介绍神经网络(Neural Networks in Plain English)因为我们没有能够很好了解大脑，我们经常试图用最新的技术作为一种模型来解释它。在我童年的时候，我们都坚信大脑是一部电话交换机。(否则它还能是

2015-10-13 10:19:05 636

转载准确率和召回率介绍

引用：http://bookshadow.com/weblog/2014/06/10/precision-recall-f-measure/1、准确率与召回率（Precision & Recall）准确率和召回率是广泛用于信息检索和统计学分类领域的两个度量值，用来评价结果的质量。其中精度是检索出相关文档数与检索出的文档总数

2015-10-13 10:11:47 635

转载 Hive中的函数列表

原文见：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF1.内置运算符1.1关系运算符运算符类型说明A = B所有原始类型如果A与B相等,返回TRUE,否则返回FALSEA == B无失败，

2015-10-10 09:09:09 2301

原创如何在Hive中实现递归计算

Hive脚本中添加：set hive.mapred.supports.subdirectories=true;set mapred.input.dir.recursive=true;

2015-10-10 09:07:12 20035 2

张Sir的博客