自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(38)
  • 收藏
  • 关注

原创 sql 去重脚本与回滚

select memberid,count(1)from (selecttmp1.member_id,tmp2.workgroup,tmp2.roulette_player_tag_365lpd,tmp2.roulette_player_tag_365yd,tmp2.consent_status_all,tmp2.contact_status_address,tmp2.exclusio...

2018-12-17 20:29:14 543

转载 区块链入门 第二部分

比特币环境搭建比特币的基本环境安装,笔者使用vmware workstations+ubuntu16.04 首先安装ubuntu16.04操作系统。 安装完成后更新: Ubuntu更新:(这一步有时候比较慢,耐心) 更新完成后安装bitcoin安装必要的软件包:sudo apt-get install build-essential libtool autotools-dev autoconf p...

2018-07-13 14:43:35 2749 1

转载 区块链入门 第三部分

区块链基础区块链简介区块链作为目前最为火热的计算机相关技术之一,收到越来越多人的关注,互联网巨头们纷纷入场,区块链创业公司也不停涌现,这里对区块链相关基础知识做一个系统介绍,旨在普及区块链基础知识点。不涉及项目推广投资,单纯的对区块链相关基础知识概念作一个说明讲解。涉及相关内容如理解有误,也请及时指正。 这里先简单对区块链及相关术语做一个整理。包括区块链的概念和在查阅资料时候会常见到的一些词汇。 ...

2018-07-13 14:43:22 696

转载 区块链入门 第九部分 超级账本

超级账本超级账本(hyperledger)是Linux基金会于2015年发起的推进区块链数字技术和交易验证的开源项目,加入成员包括:荷兰银行(ABN AMRO)、埃森哲(Accenture)等十几个不同利益体,目标是让成员共同合作,共建开放平台,满足来自多个不同行业各种用户案例,并简化业务流程。由于点对点网络的特性,分布式账本技术是完全共享、透明和去中心化的,故非常适合于在金融行业的应用,以及其他...

2018-07-13 14:43:07 1526 1

转载 区块链入门 第四部分

P2P网络在读一些区块链技术介绍文章中,一般都会看到P2P网络这个词汇,这里对P2P和区块链中P2P网络作一个简要说明。 P2P(peer to peer):这个peer中文翻译就是对等、对等者、伙伴、对端的意思。所以P2P网络一般叫做对等网络,其确切定义:网络中每个参与节点共享节点所拥有的一部分计算能力、存储能力、网络连接能力,这些能力或者称为共享资源通过网络提供的服务和内容,可被对等节点直接访...

2018-07-13 14:42:50 660

转载 区块链入门 第五部分

POS共识机制POS权益证明(proof of stake)。这个解释为股权证明,2012年sunny king首次提出了POS概念,POS不需要大量算力来维持网络安全,通过钱包相应权重来获取奖励。所谓POS股权证明,通俗解释依据你持有的数字货币的数量和持有时间,根据这个两个要素发放一个利息,这里的银行存款的概念很相似。这里需要引入一个币龄的概念,币龄根据你持有的币乘以持有时间来计算,一旦你发现了...

2018-07-13 14:42:21 526

转载 区块链入门 第一部分

前言把区块链学习入门做一个整理,逐步添加完善,有原创内容,也有网络转载整理分享。暂时取名叫入门到崩溃,欢迎志同道合的朋友一块来补充完善。 大致整理汇总区块链入门学习相关资料,虽然题目是“入门到崩溃”,希望还是能学到想要学的内容。全文链接入门区块链创世论文,区块链起源于比特币,区块链并不是新技术,而是之前一些成熟技术的巧妙结合实现了区块链的特性。 在入门区块链的时候,创世论文必须要去通读一遍,大致了...

2018-07-13 14:42:08 1355

转载 区块链入门导航

本文大致整理了区块链入门导航的相关资料链接。具体内容可参考我之前的文章。这里大致是图示:入门区块链比特币:以太坊:超级账本:总体导航:相关政策:需要相关具体链接文件的可以联系微信:jackyjin09(投河自尽的鱼)欢迎一块来完善整理。...

2018-07-10 17:56:56 607

转载 区块链入门 第十部分 EOS

EOS柚子EOS环境部署作者-磨链社区-KY随着EOS主网上线的时间越来越近,对于超级节点竞选的话题也越来越多。很多人认为它是区块链3.0技术,可以推动区块链技术的商用落地。作为开发者,我们可以在EOS上,利用它提供的各种功能,高效地创建出区块链应用。本文以官方刚发布的EOSIO DAWN 3.0来介绍EOS的环境部署。 概述 在着手部署之前,我们可以先通过官方的一张EOS系统架构图,来了解一下系...

2018-07-10 17:55:33 780

转载 区块链入门 第八部分 以太坊下

以太坊相关概念以太坊运行原理笔记: (参考以太坊黄皮书)那么既然是区块链,必然是从创世区块开始(Genesis),创世区块有一个最初的原始状态,通过交易,状态逐步改变至最终的状态,也就是理解为基于交易的状态机。(黄皮书中定义)。交易是状态改变的桥梁。挖矿是为争夺记账权,且获得奖励。那么挖矿作为状态转换函数来实现。 以太坊挖矿者在区块链状态中获取随机数据,计算一些从区块链最后的N个区块中随机选择的交...

2018-07-10 17:53:25 494

转载 区块链入门 第七部分 以太坊

以太坊以太坊相关导航以太坊(Ethereum)是一个开源的有智能合约功能的公共区块链平台。通过其专用加密货币以太币(Ether)提供去中心化的虚拟机(“以太虚拟机” Ethereum Virtual Machine)来处理点对点合约。以太坊官网:以太坊代码github:solidity开发文档:Etherscan:Remix :Truffle :Mist :Parity:Web3.js:以太坊白皮...

2018-07-10 17:52:26 749 1

转载 区块链入门 第六部分

PBFT算法过程算法过程:主节点(primary)和备节点(backups),系统整体有一个视图(view)的概念。首先所有的副本(replica)中选择一个主节点(primary),主节点负责把所有客户端(client)的请求进行排序,然后按排序发送给备节点。在主节点出现故障,如:不分配序号、分配相同的序号等情况,那么备节点主动检查序号的合法性,通过一个timeout的机制检测主节点是否已经失效...

2018-07-10 17:51:15 717

转载 pow算法解释

PoW,全称Proof of Work,即工作量证明,又称挖矿。大部分公有链或虚拟货币,如比特币、以太坊,均基于PoW算法,来实现其共识机制。即根据挖矿贡献的有效工作,来决定货币的分配。工作量证明是什么工作量证明( PoW )通过计算一个数值( nonce ),使得拼揍上交易数据后内容的 Hash 值满足规定的上限。在节点成功找到满足的Hash值之后,会马上对全网进行广播打包区块,网络的节点收到广...

2018-07-04 14:39:47 10456

转载 python写的创世区块

这是篇技术文,我们会用Python一步步搭建一个完整的区块链。不过,在此之前,咱们还是先说说你什么你该学习如何从零搭建一个区块链。有人认为区块链是一个「等待问题」的解决方案,但毫无疑问,这项新技术是一项计算的奇迹。不过,区块链究竟是什么? 我们可以把区块链看做一个公共数据库,其中新数据存储在一个称为区块的容器中,然后被添加到一条不可更改的链上(也就是区块链),同时,链上保存着之前的数据记录。这些数...

2018-07-03 16:01:54 1294

原创 utxo解释

UTXO是比特币交易的基本单位UTXO(Unspent Transaction Outputs)是未花费的交易输出,它是比特币交易生成及验证的一个核心概念。交易构成了一组链式结构,所有合法的比特币交易都可以追溯到前向一个或多个交易的输出,这些链条的源头都是挖矿奖励,末尾则是当前未花费的交易输出。所有的未花费的输出即整个比特币网络的UTXO。比特币规定每一笔新的交易的输入必须是某笔交易未花费的输出,...

2018-07-02 16:24:06 1853

转载 utxo 是什么

UTXO 代表 Unspent Transaction Output。在比特币社区里,Transaction 被简称为 TX,所以上面这个短语缩写为 UTXO。一般会认为 UTXO 是比特币区块链设计当中的一部分,但事实上 UTXO 和区块链没有必然的联系,你可以完全照搬比特币区块链,但不使用 UTXO。HyperLedger 和Ethereum 一开始并没有采用 UTXO,现在前者已经切换回 U...

2018-07-01 21:45:16 4741 1

转载 如何使用python开发区块链

初始区块链特点:       区块链是由区块的记录构成的不可变,有序的链记录。主要有以下几个特点:        1:去中心化        由于使用分布式核算和存储,不存在中心化的硬件或管理机构,任意节点的权利和义务都是均等的,系统中的数据块由整个系统中具有维护功能的节点来共同维护。得益于区块链的去中心化特征,比特币也有去中心化的特征 。        2:开放性        系统是开放的,除...

2018-06-29 10:11:44 10997

原创 数据预处理拆分sql

# --------------------------------------------------------------------------------------------------------#  @FileName: test_ads_rcm_movie_effect_monitoring_dm.sql#  @CopyRight: copyright(c)huawei t...

2018-03-06 17:52:09 947

转载 线性不可分转可分----低维空间转高维空间

http://blog.csdn.net/yan456jie/article/details/43375827二维平面上的点无法用一条直线分开,可以将其按照一定规则映射到三维空间中,用超平面将其分开

2018-02-26 19:23:02 3539

原创 正则表达式符号

https://www.cnblogs.com/yirlin/archive/2006/04/12/373222.html

2018-02-11 17:31:54 163

原创 labelpoint向量总结及决策树的缺点

1.//创建一个稠密向量  val dv : Vector = Vector.dense(1.0,0.0,3.0);  //创建一个稀疏向量(第一种方式)  val sv1: Vector = Vector.sparse(3, Array(0,2), Array(1.0,3.0));  //创建一个稀疏向量(第二种方式)  val sv2 : Vector = Vector.s

2017-12-27 14:36:45 767

原创 scala map 映射方法

var data = trainData.drop("province").drop("phone_series")var s1 = data.columnsvar map1:Map[Int,String] = Map()for(i    map1 = map1+(i->s1(i))}val labelpoint = chiSqCalculateIndex(

2017-12-23 14:10:52 330

原创 集群查看空间大小

命令:dh -f 大小以及地址

2017-12-22 10:20:57 4563 2

转载 LR判断垃圾邮件spark代码

Spark-MLlib实例——逻辑回归,应用于二元分类的情况,这里以垃圾邮件分类为例,即是否为垃圾邮件两种情况。1、垃圾邮件分类,使用Spark-MLlib中的两个函数: 1)HashingTF: 从文本数据构建词频(term frequency)特征向量2)LogisticRegressionWithSGD: 使用随机梯度下降法(Stochastic Grad

2017-12-20 10:48:31 1032

原创 两个不一样的集群导数据

1.首先将老的集群环境建表地址取到(show create table xxxxxxxx)2.在老环境找一个容量比较大的目录get下来  hadoop  fs -get xxxxxxx3.然后 tar -zcvf  xxxxxxxx.tar.gz  xxxxxxxx  打包在这个目录下4.然后就在该目录下sftp [email protected]   输入密码  cd  切换到一个容量比

2017-12-19 11:26:06 236

转载 数据离散化的意义

数据离散化是指将连续的数据进行分段,使其变为一段段离散化的区间。分段的原则有基于等距离、等频率或优化的方法。数据离散化的原因主要有以下几点:1**.算法需要:**比如决策树、朴素贝叶斯等算法,都是基于离散型的数据展开的。如果要使用该类算法,必须将离散型的数据进行。有效的离散化能减小算法的时间和空间开销,提高系统对样本的分类聚类能力和抗噪声能力。2**.离散化的特征相对于连续

2017-12-19 11:24:42 3470

转载 Spark2 ML包之决策树分类Decision tree classifier详细解说

所用数据源,请参考本人博客http://www.cnblogs.com/wwxbi/p/6063613.html1.导入包123456789101112131415161718192021

2017-12-17 10:52:21 2056

转载 Spark-SQL之DataFrame操作大全

Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现。可以参考,Scala提供的DataFrame API。  本文中的代码基于Spark-1.6.2的文档实现。一、DataFrame对象的生成  Spark-SQL可以以其他RDD对象、parquet文件、json

2017-12-16 11:33:05 205

原创 hive修复表数据

由于之前已经导入数据,之后查询不到可以使用msck repair table xxxxx命令修复!

2017-12-15 16:14:07 4316

原创 集群新环境遇到表权限问题不能读表解决方案

1.首先show create table xxxx表 ,查看该表的创建表的语句2.更改有权限的表名与建表地址3.执行创建4.切换到原表目录下hadoop fs -put xxxxx/*   /user/appdata/xxxxxx(新表地址)

2017-12-15 16:10:39 125

转载 决策树独热onehotencoding

http://dblab.xmu.edu.cn/blog/1297-2/Spark的机器学习处理过程中,经常需要把标签数据(一般是字符串)转化成整数索引,而在计算结束又需要把整数索引还原为标签。这就涉及到几个转换器:StringIndexer、 IndexToString,OneHotEncoder,以及针对类别特征的索引VectorIndexer。St

2017-12-14 14:32:57 1103

原创 决策树可视化python代码

#这段代码直接将决策树突出的模型转成json类型from __future__ import print_functionimport jsonif __name__ == "__main__": treetest = open("data/testif.txt").read() def parse(lines): block = []

2017-12-13 09:23:06 1304

转载 hive中order by,sort by, distribute by, cluster by作用以及用法

1. order by    Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的block只会启动一个reducer)。但是对于大量数据这将会消耗很长的时间去执行。    这里跟传统的sql还有一点

2017-09-01 16:27:59 195

原创 Spark 的总结

1.Storm 和 SparkStreaming区别Storm                     纯实时的流式处理,来一条数据就立即进行处理SparkStreaming微批处理,每次处理的都是一批非常小的数据Storm支持动态调整并行度(动态的资源分配),SparkStreaming(粗粒度, 比

2017-08-18 11:05:58 1301

转载 hive 的常用语句整合

一、基础DDL练习SHOW DATABASES;CREATE DATABASE IF NOT EXISTS db1 COMMENT 'Our database db1';SHOW DATABASES;DESCRIBE DATABASE db1;CREATE TABLE db1.table1 (word STRING, count INT);SHOW TABLES i

2017-08-18 09:39:23 291

转载 String类型的方法

1、String类概述  · 字符串是由多个字符组成的一串数据(字符序列),也可以看成是一个字符数组。  · 字符串字符值“abc”也可以看成是一个字符串对象。  · 字符串是常量,一旦被赋值,就不能被改变。 2、构造方法        · public String():空构造。        · public String(byte[] bytes):把字节

2017-08-16 14:13:12 427

转载 String比较常用的方法

一.  indexOf 用于实现检索 1 /** 2 * indexOf 3 * 检索字符串位置 4 * (查找给定字符串在当前字符串的位置,返回第一个字母所在下标) 5 * @author Administrator 6 * 7 */ 8 public class StringDemo { 9 public static void main

2017-08-16 11:30:17 243

转载 java集合原理

1. ArrayList概述:   ArrayList是List接口的可变数组的实现。实现了所有可选列表操作,并允许包括 null 在内的所有元素。除了实现 List 接口外,此类还提供一些方法来操作内部用来存储列表的数组的大小。   每个ArrayList实例都有一个容量,该容量是指用来存储列表元素的数组的大小。它总是至少等于列表的大小。随着向ArrayList中不断添加元素

2017-08-16 11:10:33 198

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除