jackfor001-CSDN博客

转载 Cassandra.yaml配置详解

Cassandra中所有的运行配置都是在配置文件cassandra.yaml中进行配置。下面依次讲解Cassandra中的配置项：cluster_name设置Cassandra集群的名称。在Cassandra集群中，每一台服务器都必须具备相应的集群的名称。如果名称不一致，则当前Cassandra服务器无法加入集群。initial_tokenCassandra服务器的初始化T

2012-10-12 10:54:46 4947

转载 mongodb 更新操作

MongoDB update数据语法2010年05月13日星期四 16:16在前面的文章“mongodb 查询的语法”里，我介绍了Mongodb的常用查询语法，Mongodb的update操作也有点复杂，我结合自己的使用经验，在这里介绍一下，给用mongodb的朋友看看，也方便以后自己用到的时候查阅：注：在这篇文章及上篇文章内讲的语法介绍都是在mongodb sh

2012-02-01 11:36:04 892

转载【转】探索推荐引擎内部的秘密

简介：随着 Web 技术的发展，使得内容的创建和分享变得越来越容易。每天都有大量的图片、博客、视频发布到网上。信息的极度爆炸使得人们找到他们需要的信息将变得越来越难。传统的搜索技术是一个相对简单的帮助人们找到信息的工具，也广泛的被人们所使用，但搜索引擎并不能完全满足用户对信息发现的需求，原因一是用户很难用恰当的关键词描述自己的需求，二是基于关键词的信息检索在很多情况下是不够的。而推荐引擎的出现，

2012-01-04 10:44:35 890

原创 java连接Hive的几种方式

测试环境　Hadoop 0.20.2版本、Hive-0.5.0版本、JDK1.6 1、一般来说我们对hive的操作都是通过cli来进行，也就是Linux的控制台，但是，这样做本质上是每个连接都存放一个元数据，各个之间都不相同，所以，对于这样的模式我建议是用来做一些测试比较合适，并不适合做产品的开发和应用。 2、JDBC连接的方式，当然还有其他的连接方式，比如ODBC等，　这种方式很

2011-12-01 18:13:24 13417 1

原创数据可视化解决方案-学习中ing~

http://circos.ca/tutorials/lessons/ 抽时间好好的看看。^_^

2011-09-07 20:20:11 1028

转载 Hadoop使用常见问题以及解决方法

1：Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-outAnswer：程序里面需要打开多个文件，进行分析，系统一般默认数量是1024，（用ulimit -a可以看到）对于正常使用是够了，但是对于程序来

2011-09-06 08:44:33 2323

hive hbase整合，要求比较多，1.hive的得是0.6.0（当前最新的版本） 2.hive本身要求hadoop的最高版本是hadoop-0.20.2 3.要求hbase的版本是0.20.3，其他版本需要重新编译hive_hbase-handler 但是新版的hbase（0.90）变动特别大，根本无法从编译。这点比较恶心，hbase目前升级比较快，当前是0.90（从0.20.6直接跳到0.8

2011-06-22 15:36:00 7520 1

原创基于社区划分和用户相似度的好友推荐

社交型网络（SNS, Social Networking Services）以六度分割理论[1]为基础，构建好友圈并通过“好友的好友”来无限扩张人脉。社交网络在近几年获得了空前的发展，像国内的校内网，开心网已经聚集了几千万的用户。SNS 特别之处在于维护朋友关系，增进友谊，并拓展交际圈，以用户之间的黏性来保持用户和SNS 的黏性。用户虽然也可以设置过滤条件搜索得到符合特定条件的用户群组，但是由于庞大的用户基数，在通常情况下搜索得出的用户群组其中大部分对特定用户来说都是冗余的，而不是将与特定用户熟

2011-05-04 17:35:00 12001 5

原创 hadoop作业调优参数整理及原理

1 Map side tuning参数1.1 MapTask运行内部原理 当map task开始运算，并产生中间数据时，其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂，并且利用到了内存buffer来进行已经产生的部分结果的缓存，并在内存buffer中进行一些预排序来优化整个map的性能。如上图所示，每一个map都会对应存在一个内存buffer（MapOutputBuffer，即上图的buffer in memory），map会将已经产生的部分结果先写入到该buffer中

2011-02-18 13:02:00 951

原创 HBASE松散数据存储设计初识

引 最近关注Hadoop，因此也顺便关注了一下Hadoop相关的项目。HBASE就是基于Hadoop的一个开源项目，也是对Google的BigTable的一种实现。 BigTable是什么？Google的Paper对其作了充分的说明。字面上看就是一张大表，其实和我们想象的传统数据库的表还是有些差别的。松散数据可以说是介于Map Entry（key & value）和DB Row之间的一种数据。在我使用Memcache的时候，有时候的需求是需要存储的不仅仅是简单的一个key对

2011-01-12 17:00:00 697

原创 ReportViewer加载RDLC文件

简单加载方式： Merchant temp = new Merchant();//得到数据集 ReportViewer1.LocalReport.DataSources.Add(new Microsoft.Reporting.WebForms.ReportDataSource("Class1", temp.GreatList("")));//Class1是数据对象，类似DataSet ReportViewer1

2011-01-10 21:57:00 1875

原创 HBase入门篇2

本篇文章讲述用HBase Shell命令和 HBase Java API 对HBase 服务器进行操作。在此之前需要对HBase的总体上有个大概的了解。比如说HBase服务器内部由哪些主要部件构成？HBase的内部工作原理是什么？我想学习任何一项知识、技术的态度不能只是知道如何使用，对产品的内部构建一点都不去关心，那样出了问题，很难让你很快的找到答案，甚至我们希望最后能对该项技术的领悟出自己的心得，为我所用，借鉴该项技术其中的设计思想创造出自己的解决方案，更灵活的去应对多变的计算场景与架构设计。以我目前的对

2010-12-29 17:15:00 1070

转载 mysql配置和优化

在安装MySQL之前，先来了解一下相关的配置文件 MySQL配置文件 MySQL发布的最新产品实际上超出了Linux所携带的版本。但是，稳定性和开放源代码可是很重要的因素，因此在操作系统上使用较早MySQL版本是有道理的。有许多可以采用的配置文件，它们都被包含在mysql-server PRM程序中。还有一个默认的配置文件被包含在mysql PRM程序包中。配置MySQL服务器是一个丰富而复杂的工作。在本文中，我只能肤浅的说一下各种选项。可以使用的MySQL配置文件共有５个。最后４个位于/usr/share

2010-12-22 16:31:00 572

原创 Mysql HA实现MYSQL的高可用

一、背景当前大多网站采用MYSQL＋Linux＋APACHE这种经典配置，如何防止单点失败造成的整个网站的不可用是网站管理者必须要考虑的问题，其中数据库的高可用性（Database server’s high availability）是重中之重。对于数据库的高可用性，各商业软件的厂商都有各自的解决方案，比如Oracle OPS server和IBM DB2 (share-nothing architecture)。最近MYSQL AB也发布了MYSQL cluster 软件，使用与IBM DB2类似的技术

2010-12-22 14:53:00 2264 1

转载 HBase的条件查询

一、环境HBase版本hbase-0.20.5，Hadoop的版本hadoop-0.20.2，JDK1.6二、需求背景在HBase中，进行条件查询，很多的文件都说过，但是大多数都是在说明如何设置合理的表结构以及如何设置rowkey进行查询检索，这样的结构设计可以在一定层度上通过rowkey来定位查询（速度很快），但是，如果我是已知某个列的值，需要看有多少行的列包含这个值，那么这样的需求通过rowkey来查询就显得不合适。最早我的想法是查询内容，然后遍历，但是这样的效率明显

2010-12-21 11:15:00 1698

转载 hbase 简单命令测试

HBase的许多代码是重用HADOOP的代码。它与我们常用的数据库的最大区别就是列存储以及无数据类型，所有数据都以String类型进行存储。而且，假如hbase table里面有5个字段，但是实际上只有4个字段有值，另一个为NULL，那么这个字段是不占存储空间的，相比较而言，这点比较好罢。 HBase是一个开源的、分布式的、面向列的存储系统。源于论文《Bigtable：一个结构化数据的分布式存储系统》。就像Bigtable利用了Googl文件系统（File System）所提

2010-12-17 18:08:00 5215

转载配置hbase

一、安装准备 1、下载HBASE 0.20.5版本：http://www.apache.org/dist/hbase/hbase-0.20.5/ 2、JDK版本：jdk-6u20-linux-i586.bin 3、操作系统：Linux s132 2.6.9-78.8AXS2smp #1 SMP Tue Dec 16 02:42:55 EST 2008 x86_64 x86_64 x86_64 GNU/Linux 4、默认前提是安装完hadoop 0.20

2010-12-17 17:36:00 1235

原创 hive 分区疑问

创建分表 CREATE TABLE tmp_table ( passport string, cid int )PARTITIONED BY(vt bigint)--这个地方就是起个名字吗？ ROW FORMAT DELIMITED FIELDS TERMINATED BY '/,' STORED AS SEQUENCEFILE; 添加分区

2010-12-14 16:10:00 1376 1

原创 hadoop hive sql语法解释

DDL Operations 创建表 hive> CREATE TABLE pokes (foo INT, bar STRING); 创建表并创建索引字段ds hive> CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING); 显示所有表 hive> SHOW TABLES; 按正条件（正则表达式）显示表， hive> SHOW

2010-12-14 15:33:00 1487

原创 Hive 加速M/R的开发

一篇Google的学术论文让Map/Reduce这个概念风靡全球，Hadoop是Apache对Map/Reduce这种分布式计算框架的开源实现，通过Hive我们能想执行SQL那样执行我们的HadoopJob。一、Hive的安装如何安装Hive网上有N多的文档，一般来说你准备搭建Hadoop平台的你就绝对不会吝啬这么点的时间去搭建个Hive平台，具体就参考官方wiki去吧。二、开启Hadoop之旅 1.Hive表的创建与维护在Hive里面创建一张表的基本语法同SQL类似，下面就是一个简单的表创建语法：CREA

2010-12-14 14:30:00 2168

原创对hive的初次认识

创建一个表 CREATE TABLE u_data ( userid INT, movieid INT, rating INT, unixtime STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '/t' STORED AS TEXTFILE; 下载示例数据文件，并解压缩(这个是网上的一个示例) wget http://www.grouplens.org/system/files/ml-data.tar__0.gz

2010-10-27 13:44:00 3238 1

转载 MDX常见计算方法(百分比/分配/平均值/基于时间的计算)

MDX常见计算方法(百分比/分配/平均值/基于时间的计算)

2010-10-14 12:39:00 2751

原创 linux 生成ssh

以ROOT用户 在服务器1上执行 1. ssh-keygen -t rsa ；一路回车 2. cd ~/.ssh 3. cat id_rsa.pub >> authorized_keys 4.scp -r ~/.ssh 服务器2:~/ 以ROOT用户 在服务器2上执行 scp -r ~/.ssh 服务器1:~/ 最后测试 ssh

2010-08-20 16:31:00 810

转载 EJB3.0笔记

EJB3.0笔记-1 Entity回调和监听器在你执行EntityManager的persist()、merge、remove和find方法时，或者在执行EJB QL查询时，一系列预先定义好的生命周期事件会被触发。Java Persistence规范允许在entity class上设置回调方法，当这些事件发生时，该entity会收到相应的通知。也可以注册一些单独的监听类来拦截这些事件回调事

2010-02-07 17:55:00 2282

原创 SQL Server中汇总功能的使用GROUPING,ROLLUP和CUBE

第一次看到这样的SQL语句,看不懂,其中用到了下面的不常用的聚集函数:GROUPING 用于汇总数据用的运算符: ROLLUP SELECT CASE GROUPING(o.customerid) WHEN 0 THEN o.customerid ELSE (Total) END AS AllCustomersSummary, CASE GROUPING(od.ord

2010-01-29 10:09:00 661

转载在PowerDesigner中设计概念模型

在概念模型中主要有以下几个操作和设置的对象：实体（Entity）、实体属性（Attribute）、实体标识（Identifiers）、关系（Relationship）、继承（Inheritance）、关联（Association）、关联连接（Association Link）。实体实体就是我们抽象出的对象，比如：一个选课系统中，学生、教师、班级、课程等等都是实体。实体属性就是一个实体中所包含的简单

2010-01-06 20:43:00 720

转载 PowerDesigner教程系列

目标:本文主要介绍PowerDesigner中概念数据模型 CDM的基本概念。一、概念数据模型概述数据模型是现实世界中数据特征的抽象。数据模型应该满足三个方面的要求：1）能够比较真实地模拟现实世界2）容易为人所理解3）便于计算机实现概念数据模型也称信息模型，它以实体－联系(Entity-RelationShip,简称E-R)理论为基础，并对这一理论进行了扩充。它从用户的观点出发对信息进行建模，主要

2010-01-06 20:41:00 717

转载 Hadoop安装部署[原作者wayne1017]

来源： http://www.cnblogs.com/wayne1017/archive/2007/03/20/678724.html写的很好，对于第一次部署可以省去很多时间。以下为原文内容：本文主要是以安装和使用hadoop-0.12.0为例，指出在部署Hadoop的时候容易遇到的问题以及如何解决。硬件环境共有3台机器，均使用的FC5系统，Java使用的是jdk1.6.0。IP配置如下

2009-11-06 12:26:00 510

原创 SQL Server 中collate的含义排序规则

我们在create table时经常会碰到这样的语句，例如：password nvarchar(10)collate chinese_prc_ci_as null，那它到底是什么意思呢？不妨看看下面：首先，collate是一个子句，可应用于数据库定义或列定义以定义排序规则，或应用于字符串表达式以应用排序规则投影。语法是collate collation_namecollation_na

2009-10-10 11:39:00 837

转载 MySQL性能优化

在Apache, PHP, MySQL的体系架构中，MySQL对于性能的影响最大，也是关键的核心部分。对于Discuz!论坛程序也是如此，MySQL的设置是否合理优化，直接影响到论坛的速度和承载量！同时，MySQL也是优化难度最大的一个部分，不但需要理解一些MySQL专业知识，同时还需要长时间的观察统计并且根据经验进行判断，然后设置合理的参数。下面我们了解一下MySQL优化的一些基础，MyS

2009-09-11 15:33:00 541

转载 Analysis Services 查询性能十大最佳实践

在针对 SQL Server 2005 Analysis Services 实例进行 MDX 查询时，要想获得最佳性能，关键要做到以下几点：合理的多维数据集设计、有效的多维表达式 (MDX) 以及充足的硬件资源。本文列出了 Microsoft SQL Server 开发小组推荐的十个最常用、最有效的 Analysis Services 查询性能优化方法。有关其他与查询性能相关的 Analysis

2009-08-19 11:25:00 1134

转载一个完整的大型软件项目经验是非常宝贵的，大家遇到这样的机会要学会把握好机会

人往高处走，水往低处流，我们都希望每年提高一点点进步一点点，每年都能更上一个层次。我们有时候开玩笑，说有的人吧，你把金子放到他的口袋里，他会嫌太沉了，把金子甩开，继续往前走，继续寻找食物。。。虽然大家都有很多项目经验，但是不知道是否进行了项目经验的整理、甚至是工作经验的整理，相对来讲对开发人员来说收获最大的还是项目后期的经验更值钱一些，当然从项目开始到结案为止能得到整个过程经验，那会更理想一些，将

2009-08-04 13:06:00 3995 2

原创 SQL 2005 分析服务基于角色的动态授权

背景：一个分析数据库，包含多个产品，全国各个地区的业务数据（比如销售数据等），要求1：各个产品负责人查看自己产品的数据2：各个地区只能查看自己的数据方案：SQL 2005 有基于角色的授权服务，通过设置产品和地区角色，来控制对数据的访问。步骤：0：在域上设置帐号和安全组建立安全组：产品（mbiproducts）,地区（mbidepa

2009-08-03 17:36:00 814

转载 SQLServer2005 XML在T－SQL查询中的典型应用

/*SQLServer2005 XML在T－SQL查询中的典型应用整理:fcuandy时间:2008.11.7前言: 此文只讲xml数据类型及相应的一些操作方法在解决日常T－SQL编程中的一些应用，而避开xml modify,xml schema,xml索引,命名空间等这些语法性或者生硬的一些问题(这些语法您可以查联机丛书),即此文主要讲以xml的一些操作特性及xquery去解决编程

2009-07-27 16:33:00 489

转载 MDX 边界情况处理

MDX 边界情况处理(2009-04-08 14:39:34)标签：杂谈本文来源于《MDX Solutions with Microsoft SQL.Server Analysis Services 2005 and Hyperion Essbase 2nd Edition》一书的内容。在编写MDX中，各种各样的边界情况存

2009-07-10 10:58:00 673

转载常用MDX计算查询(

常用MDX计算查询(2009-04-03 16:59:17)标签：杂谈分类：技术资料本文来源于《MDX Solutions with Microsoft SQL.Server Analysis Services 2005 and Hyperion Essbase 2nd Edition》一书的内容，主要介绍了一些经常编写的MDX语

2009-07-10 10:54:00 1931

原创 MDX 几个比率问题原创

with member [Dim包月时长].[包月时长].[合计] as sum([Dim包月时长].[包月时长].levels(0).members) member measures.[占比] as ([Dim包月时长].[包月时长],[Measures].[短信包月用户数])/([Dim包月时长].[包月时长].[合计],[Measures].[短信包月

2009-07-10 10:25:00 706

转载 MDX 几个比率问题

维度配置view plaincopy to clipboardprint? primaryKey="FID"

2009-07-10 10:01:00 979

原创 SQL对表进行权限设置

USE tempdbGO--创建两个测试表CREATE TABLE tb1(id int,value int)INSERT tb1 VALUES(1,10)CREATE TABLE tb2(id int,value int)INSERT tb1 VALUES(1,10)GO--创建登录CREATE LOGIN Liang WITH PASSWORD=

2009-07-09 14:17:00 8109

转载数据文件损坏修复办法

作者：李美楠　　【赛迪网-IT技术报道】在实际的工作和学习中，许多人的SQL Server 2005数据库日志文件可能会发生损坏，例如硬件故障、计算机非正常重启或关机等等。　　在SQL Server 2005的日志文件损坏时，你会发现以下的情况：　　◆1、在SQL Server Management Studio中显示数据库处于置疑(suspect)状态。　　◆2、事件日志

2009-07-06 16:41:00 1680

BI前端展示工具评估

SQL2005集群配置指南

空空如也