- 博客(54)
- 资源 (1)
- 收藏
- 关注
原创 sklearn 自带数据集属性
from sklearn import datasets diabetes = datasets.load_diabetes() #载入数据 print diabetes.data #数据 print diabetes.target ...
2018-05-16 17:29:14 2015
转载 浅谈机器学习评估中的穿越问题
评估穿越是机器学习系统中一个常见而又隐蔽的问题,会导致对模型做出不准确的评估结果,进而影响对模型的选择和调优。本文以两种最常见的穿越方式为例,介绍一下评估穿越,以及带来的问题和解决方案。什么是评估穿越?首先我们来回顾一下ML系统中的评估一般是怎么做的。为了便于描述,我们假设一个训练和评估均为离线进行的场景,但是本文的讨论同样适用于在线的训练和评估。在拿到样本数据之后,做了必要的清洗和采样之后,我们...
2018-04-18 21:20:34 7317 3
原创 机器学习实战 ValueError: invalid literal for int() with base 10: 'largeDoses'
运行 k-邻近树 样例中def file2matrix(filename): fr = open(filename) numberOfLines = len(fr.readlines()) #get the number of lines in the file returnMat = zeros((numberOfLines,3)) #prepar...
2018-04-12 18:02:38 3569 4
转载 贝叶斯公式推导
贝叶斯定理用来描述两个条件概率之间的关系,比如 P(A|B) 和 P(B|A)。按照乘法法则:P(A∩B) = P(A)*P(B|A)=P(B)*P(A|B),可以立刻导出。如上公式也可变形为:P(B|A) = P(A|B)*P(B) / P(A)。通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯法则就是这种关系的陈述全概率公...
2018-04-11 21:52:29 2405
原创 皮马印第安糖尿病人数据集 各个属性意义
代表的意义是怀孕次数 口服葡萄糖耐量试验中血浆葡萄糖浓度 舒张压(mm Hg) 三头肌组织褶厚度(mm) 2小时血清胰岛素(μU/ ml) 体重指数(kg/(身高(m))^ 2) 糖尿病系统功能 年龄(岁)...
2018-04-11 21:48:50 3469
原创 python读取csv时csv.Error: iterator should return strings, not bytes
当使用python读取csv文件时,代码如下import csv reader = csv.reader(open("C:\11.csv", 'rb')) for line in reader: print(line) 结果出现如下错误r[python] view plain copy_csv.Error: iterator should return strings, n...
2018-04-11 21:46:59 1748
原创 RDD原理与详解 转
原文连接 http://xiguada.org/spark_rdd/ RDD(Resilient Distributed Datasets弹性分布式数据集),是spark中最重要的概念,可以简单的把RDD理解成一个提供了许多操作接口的数据集合,和一般数据集不同的是,其实际数据分布存储于一批机器中(内存或磁盘中)。当然,RDD肯定不会这么简单,它的功能还包括容错、集合内的数据可以并行处理等...
2016-09-13 06:41:28 160
原创 通过Hive读/写 HBase中的表
写在前面一:本文将Hive与HBase整合在一起,使Hive可以读取HBase中的数据,让Hadoop生态系统中最为常用的两大框架互相结合,相得益彰。<ignore_js_op style="word-wrap: break-word; color: rgb(68, 68, 68); font-family: Tahoma, 'Microsoft Yahei', Simsun;"> ...
2016-05-26 22:47:15 156
原创 jdbc连接HIVE
在hive上启动service hive --service hiveserver在eclipse中进行开发导入需要的jar包(我这个导入的是udf和jdbc连接hive需要的jar包,基本是最简的了) 我的代码,hive的语法就不说了,大家可以修改例子中的sql来进行自己的业务。我的hive没有设置用户名,密码。所以12...
2016-05-26 22:04:09 94
原创 hbase增删改
package com.cfnet.hadoop.hbase; import java.io.IOException; import java.util.List; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.Cell; import org.apache.hadoop.hbase.Cell...
2016-05-24 15:42:25 125
原创 freemarker整理
copy自http://demojava.iteye.com/blog/800204 以下内容全部是网上收集: FreeMarker的模板文件并不比HTML页面复杂多少,FreeMarker模板文件主要由如下4个部分组成: 1,文本:直接输出的部分 2,注释:<#-- ... -->格式部分,不会输出 3,插值:即${...}或#{...}格式的部分,将使用数据模型中的部分替代输出 4...
2016-05-19 17:15:48 90
原创 web service
Web服务(Web Service)是基于XML和HTTPS的一种服务,其通信协议主要基于SOAP,服务的描述通过WSDL,通过UDDI来发现和获得服务的元数据
2016-05-19 12:31:45 89
原创 Hive:用Java代码通过JDBC连接Hiveserver
我们可以通过CLI、Client、Web UI等Hive提供的用户接口来和Hive通信,但这三种方式最常用的是CLI;Client 是Hive的客户端,用户连接至 Hive Server。在启动 Client 模式的时候,需要指出Hive Server所在节点,并且在该节点启动 Hive Server。 WUI 是通过浏览器访问 Hive。今天我们来谈谈怎么通过HiveServer来操作Hiv...
2016-05-19 12:30:04 479
原创 Hive表与外部表
今天我们要探讨的话题是Hive的里面的表与外部表两个概念,以及如何在Hive里面创建表和外部表,它们之间有什么区别等话题。在本博客的《Hive的数据存储模式》文章里面我们谈到了Hive的数据存储模式,里面简单的说到Hive中表以及外部表的简单概念,相信很多读者对这些概念还不是很了解,今天就给大家科普一下,希望对大家有所帮助。 相信很多用户都用过关系型数据库,我们可以在关系型数据库里面创建表(...
2016-05-19 12:29:36 116
原创 Hive几种数据导出方式
在本博客的《Hive几种数据导入方式》文章中,谈到了Hive中几种数据的导入方式,不同的数据导入方式用途不一样。今天我们再谈谈Hive中的几种不同的数据导出方式。可以根据导出的地方不一样,将这些方式分为三种:(1)、导出到本地文件系统;(2)、导出到HDFS中;(3)、导出到Hive的另一个表中。为了避免单纯的文字,我将一步一步地用命令进行说明。 一、导出到本地文件系统...
2016-05-19 12:29:13 103
原创 Hive的数据存储模式
Hive的数据分为表数据和元数据,表数据是Hive中表格(table)具有的数据;而元数据是用来存储表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。下面分别来介绍。 一、Hive的数据存储 在《Hive到底是什么》博文中我们提到Hive是基于Hadoop分布式文件系统的,它的数据存储在Hadoop分布式文件系统中。Hive本身是没有专门的数据存储格式,也没...
2016-05-15 15:05:09 126
原创 hive数据导入方式
好久没写Hive的那些事了,今天开始写点吧。今天的话题是总结Hive的几种常见的数据导入方式,我总结为四种:(1)、从本地文件系统中导入数据到Hive表;(2)、从HDFS上导入数据到Hive表;(3)、从别的表中查询出相应的数据并导入到Hive表中;(4)、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中。我会对每一种数据的导入进行实际的操作,因为纯粹的文字让人看起来很枯燥,...
2016-05-15 14:55:38 104
原创 hive概述
1. Hive是什么Hive是基于Hadoop的数据仓库解决方案。由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用Hive构建的数据仓库也秉承了这些特性。这是来自官方的解释。简单来说,Hive就是在Hadoop上架了一层SQL接口,可以将SQL翻译成MapReduce去Hadoop上执行,这样就使得数据开发和分析人员很方便的使用SQL来完成海量数据的统计和...
2016-05-15 07:56:59 93
原创 数据存储的演进路线以及原因
作者:邵兵链接:https://www.zhihu.com/question/21677041/answer/22393192来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。1. RDBMS让数据集保持在一台单一的机器上是RDBMS提供ACID特性和丰富查询模型的最好方式。但数据集变大时,垂直扩展(scaling up)带来诸多限制。企业慢慢发现,通过增加多节点的服务...
2016-05-15 07:56:56 421
原创 hive
转载请注明出处: http://blog.fens.me/hadoop-hive-intro/前言Hive是Hadoop一个程序接口,Hive让数据分析人员快速上手,Hive使用了类SQL的语法,Hive让JAVA的世界变得简单而轻巧,Hive让Hadoop普及到了程序员以外的人。从Hive开始,让分析师们也能玩转大数据。目录Hive的安装Hive的基本使用:CRU...
2016-05-14 17:41:53 386
原创 web.xml之<context-param>与<init-param>的区别与作用 转
http://www.cnblogs.com/hzj-/articles/1689836.html <context-param>的作用:web.xml的配置中<context-param>配置作用1. 启动一个WEB项目的时候,容器(如:Tomcat)会去读它的配置文件web.xml.读两个节点: <listener></listener>...
2014-08-30 12:14:17 69
原创 java web工程中为什么有web.xml
web.xml 为什么存在工程中,就要思考,web.xml的作用,这个是它存在工作中的原因。 1、可以指明工程的欢迎页 这里用到的标签是 <welcome-file-list> 2、指明了url ,例如<servlet> 标签中队servlet路径和对应的servlet的指定 servlet标签还可以初始化数据,这里的应用有spring等框架的使...
2014-08-30 12:02:40 199
原创 POI彻底删除行,读取的行数不包括空行
背景介绍 要频繁地往excel中插入行和删除行,所以行的sheet.getLastRowNum()值一直在变化。 在插入行的代码是 if(sheet.getPhysicalNumberOfRows()!=0){ int rowN=sheet.getLastRowNum()+1; row=sheet.createRow(rowN); }else{...
2014-06-20 15:16:18 2691
原创 android体系介绍
android 的总体系统架构 可以分为 1.Linux内核2.本机库 可以分为 界面管理器 2D和3D图形 媒体编解码器 SQL数据库 浏览器引擎3.应用程序框架 分为活动管理器 内容提供者 资源管理器 位置管理器 通知管理器4应用程序 在android 中进程 不等于应用程序 在android中,即使所在的进程被杀死结束,相应的应用程...
2012-09-10 11:06:12 69
原创 模式的简史和形而上学
模式所描述的问题及问题的答案都应当是具有代表性的问题和问题的答案。软件的模式来源 《建筑的永恒之道》 基本概念 质 门 道 UML 简介统一建模语言功能 可视化功能 说明功能 建造功能 和建文档功能 包括 使用案例图类图序列图合作图状态图活动图构件图部署图 大体可以分为 结构型图和行为型图 类图类名...
2012-08-13 22:58:58 82
原创 android体系笔记
UI子系统 包括 窗口 视图 用于显示一些常见组件的小部分 应用程序架构 vm是Dalvik Virtual Machine android 应用程序由一个或多个组件组成 活动 具有可视ui的应用程序是用活动实行的 服务 应用于任何需要持续较长时间的应用程序 内容提供程序 数据库服务器 广播接收器 处理一个...
2012-07-07 21:19:45 150
原创 数据审核
在统计数据处理工作中,利用数据的取值范围,数据之间的逻辑关系,查找原始数据中的错误或者潜在的错误,根据情况进行修改,以减少在调查登记,填表工作中出现的原生性差错和编码,录入工作中出现的再生性差错,使原始数据的质量得到进一步的提高,这一过程称之为数据编辑审核,查找原始数据中的错误或者潜在错误的这一过程称之为数据审核 数据的取值范围,数据之间的逻辑关系称为审核关系。按审核的必要程度划分,...
2012-05-12 10:19:36 660
原创 oracle in list 问题解析
解决where in list 问题,首要考虑的就是解决列表长度问题和效率问题,效率问题首要考虑绑定变量问题,另外还要考虑比如cardinality对执行计划的影响等 declare v_condition varchar2(100); v_sql varchar2(1000); v_count number(10); begin v_conditi...
2012-05-10 22:16:53 329
原创 oracle 自动类型转换
分为显式类型转换 和自动类型转换 有时候 select to_date(sysdate,'yyyymm') from dual 会报错 这样就是因为时间格式有问题,这和自动类型转换有关系 自动类型转换往往对性能产生不好的影响,特别是左值的类型被自动转换为右值的类型,这种方式很可能使本来应该使用所用索引的而没有用上索引oracle自动类型转换是根据上下文及一些预定义的规则,...
2012-05-10 15:59:25 254
原创 oracle group by
扩展的group by的函数还是要符合group by的相关语法语义规则,比如select中不能直接显示非分组列 rolluporacle使用rollup对group by进行扩展,他允许计算标准分组及相应维度的小计合计 select group by rollup(grouping_column_reference_list) 先计算标准分组,然后列从右...
2012-05-06 17:08:13 96
原创 oracle char
char就是伪装的varchar2char 最令人厌恶的地方是他时定长存储的,长度不足会在尾部补空格,直至满足其长度的定义 char与varchar2基础 比较规则 1 填补空格的比较规则 限于字符字面量,char和nchar变量 ,user函数的返回值 2 非填补空格的比较 varchar2 和nvarchar2采用这样的比较规则这是出现了c...
2012-05-06 09:32:19 111
原创 oracle中 null
null在oracle中是很特殊的值,任何类型的值都可以是null.对于不知类型关联的null,字面量null,可以认为他是无类型的null 和其他任何值都不相等或相等,包括自身,但可以使用is null或者is not null 来进行判断 任何和null的比较操作,如<> = <=等都返回unknown oracle对null处理有专门的函数,有nvl ...
2012-05-04 08:57:23 180
原创 oracle merge的使用
update 和insert统一merge into t2 using t1 on(t1.name=t2.name)when matched then update set t2.money=t1.money+t2.moneywhen not matched then insert values(t1.name,t1.money); Oracle 10g对merg...
2012-05-03 10:25:53 64
原创 oracle 书写规范
大小写风格 数据库的关键字和保留字均使用大写缩进风格 缩进格数统一为2/4个,必须使用空格,不能使用tab键 当同一条预计需要占用多于一行时,每行的其他关键字于第一行的关键字进行右对齐空格及换行 不允许把多个语句写在一行中,即一行只写一条语句 避免将复杂的sql语句写到同一行,建议要在关键字和谓词处换行 相对独立的程序块之间必须加空行...
2012-05-03 09:15:01 172
原创 cognos涉及到的名词
ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)作为BI/DW(Business Intelligence)的核心和灵魂,能够按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。如果说数据仓库的模型设计是一座大厦的设计蓝图,数据是砖瓦的话,那么ETL就是建设大厦的过程。在整个项目中最难部分...
2012-04-18 10:55:05 101
原创 jbpm 工作管理系统参考模型
工作流引擎-------工作流程管理系统的心脏作用 1 为执行的流程实例介绍流程定义2 组织掉的流程的实例,推进工作流程的前进3 处理工作任务的分配接受提交等行为4 管理调用其他的4个接口 ...
2012-04-17 17:09:31 67
原创 jbpm 实例中表的含义
JBPM4_DEPLOYMENT 流程定义表 JBPM4_DEPLOYPROP 流程定义属性表 JBPM4_EXECUTION 流程实例表 JBPM4_HIST_ACTINST 流程活动(节点)实例表 JBPM4_HIST_DETAIL 流程历史详细表 JBPM4_HIST_PROCINST 流程实例历史表 JBPM4_HIST_TAS...
2012-04-17 09:19:57 76
原创 effective java
1 考虑用静态工厂方法代替构造函数 类可以提供一个公有的静态工厂方法,所谓的静态工厂方法,实际上只是一个简单的静态方法,他返回的是类的一个实例 静态工厂方法的一个好处是,与构造函数不同,静态工厂方法具有名字 静态工厂方法的第二个好处是,与构造函数不同,他们每次被调用的时候,不要求非得创建一个新的对象静态工厂方法的第三个好处是,与构造函数不同,他们可以返回一个原返回...
2012-03-26 16:06:13 60
原创 spring aop基础
面向切面编程 连接点 joinpoint 切点 pointcut增强 advice目标对象 target引介 introduction织入 weaving代理 proxy切面 aspect
2012-03-21 14:24:06 163
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人