自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(42)
  • 资源 (7)
  • 收藏
  • 关注

原创 matplotlib快速

基本的用法:import matplotlib.pyplot as pltimport numpy as npx=np.linspace(-1,1,50) #定义x:范围是(-1,1);个数是50y=10*x+1y2=

2017-07-06 22:19:31 109

原创 numpy的快速学习--array的属性与创建

array的运算对于一维矩阵~In [2]: a=np.array([10,20,30,40])  #array([10, 20, 30, 40])In [3]: b=np.arange(1,5,1) #array([1, 2, 3, 4])常见的类型有 a+b    #array([11, 22, 33, 44])a-b     #array([ 9, 18,

2017-07-06 18:45:24 189

原创 numpy的快速学习--array的属性与创建

1. numpy的引入: import  numpy as np2. 列表转化为矩阵In [2]: import numpy as npIn [3]: array=np.array( [ [1,2,3],[2,3,4] ] )In [4]: print array[[1 2 3] [2 3 4]]3. numpy 的属性:ndim:维度shape:行

2017-07-06 17:55:09 187

原创 jvm常见的面试题

1. 内存模型以及分区,需要详细到每个区放什么。2. 堆里面的分区:Eden,survival from to,老年代,各自的特点。3. 对象创建方法,对象的内存分配,对象的访问定位。4. GC的两种判定方法:引用计数与引用链。5. GC的三种收集方法:标记清除、标记整理、复制算法的原理与特点,分别用在什么地方,如果让你优化收集方法,有什么思路?6. GC收

2016-09-04 21:45:52 7354

原创 搜索算法总结----序

1)盲目搜索二分查找BFSDFS2)启发性搜索A*蚁群模拟退火遗传算法

2016-08-30 22:04:42 253

原创 numpy入门总结

import numpy as npdata1=[[34,2,3,4], [22,45,67,21], [56,89,78.7,77.5] ]arr1=np.array(data1)print arr1.ndim #2print arr1.shape # (3L, 4L)print arr1.size #12print

2016-08-05 11:29:14 430

原创 xgboost 与 GBDT算法

GBDTxgboostxgboost on yarn

2016-07-21 15:18:51 313

原创 spark 总结1-用python 语言

1)调整shell日志的信息:在conf下创建一个 log4j.properties的文件来管理日志的设置,后将 log4j.rootCategory=INFO,console 修改为 log4j.rootCategory=WARN,console2)使用IPython安装好 IPython,然后,启动时,将 IPYTHON=1,即 $ IPYTHON=1 bin/pyspark ,也

2016-07-20 21:27:08 80

原创 决策树和随机森林

# -*- coding: utf-8 -*-"""Created on Wed Jul 20 12:49:48 2016@author: vincent"""#!/usr/bin/pythonfrom sklearn.feature_extraction import DictVectorizerimport csvfrom sklearn import treefrom s

2016-07-20 15:09:10 733

转载 Python爬虫入门六之Cookie的使用

Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的。那么我们可以利用Urllib2库保存我们登录的Cookie,然后再抓取其他页面就达到目的了。在此之前呢,我们必须先介绍一个opener的概念。1.Opener当你

2016-07-15 17:47:11 1516

转载 python 正则表达式

http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html

2016-07-15 11:39:25 158

转载 Python爬虫入门五之URLError异常处理

http://cuiqingcai.com/961.html大家好,本节在这里主要说的是URLError还有HTTPError,以及对它们的一些处理。1.URLError首先解释下URLError可能产生的原因:1)网络无连接,即本机无法上网2)连接不到特定的服务器3)服务器不存在在代码中,我们需要用try-except语句来包围并捕获相应的异常

2016-07-15 11:26:07 503

原创 爬虫--学习系列--Urllib库的使用

1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS、CSS,如果把网页比作一个人,那么HTML便是他的骨架,JS便是他的肌肉,CSS便是它的衣服。所以最重要的部分是存在于HTML中的,下面我们就写个例子来扒一个网页下来。1234impo

2016-07-14 21:36:17 657

原创 韩寒的博客文章---爬虫3

# -*- coding: utf-8 -*-"""@author: vincent"""#/usr/bin/python#http://blog.sina.com.cn/s/articlelist_1191258123_0_1.htmlimport urllibimport timeurl=['']*350length=0;for page in range(1,8):

2016-07-14 17:53:14 374

原创 韩寒的博客文章---爬虫2

# -*- coding: utf-8 -*-"""Created on Sun Jul 10 16:16:43 2016@author: vincent"""#/usr/bin/python#http://blog.sina.com.cn/s/articlelist_1191258123_0_1.htmlimport urllibimport timeurl=[''

2016-07-14 17:17:17 344

原创 韩寒的博客文章---爬虫

# -*- coding: utf-8 -*-"""Created on Sun Jul 10 16:16:43 2016@author: vincent"""#/usr/bin/python#http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html"""《论电影的七个元素》——关于我对电…碎片 """import urllibmyst

2016-07-14 11:12:49 482

原创 hive基础总结--数据库,表,导入数据

常用的配置信息含义:hive.metastore.warehouse.dir 数据仓库存放在位置set hive.matestore.warehouse.dir=/user/hive/warehousemysql存放元数据,如表的分区和模式。hive –e “语句” 执行一条语句;一次使用的的命令hive –f “文件”执行一个文件;从文件中执行hive查询hive> so

2016-07-01 20:32:08 975

转载 Hive SQL的编译过程

转载于 http://tech.meituan.com/hive-sql-to-mapreduce.htmlHive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中,我们遇

2016-06-28 14:45:40 211

原创 最大熵模型

最大熵模型:

2016-05-15 17:45:30 161

原创 线性回归与逻辑回归

参考:讲义和视频http://www.cnblogs.com/fanyabo/p/4060498.html个人只是将思路整理一下。线性回归:1)损失函数:2)解释:(概率解释:)对上面的式子求“极大自然估计:”解法:批处理梯度下降:随机梯度下降:最小二乘法:局部的线性回归

2016-05-15 17:08:57 208

原创 用 shell 实现快速排序(还存在问题)

#/bin/sharr_test=(2,3,4,12,32,11,21);echo "First array is :"for e in $arr_testdo echo $edonefunction_sort(){arr=$1;left=$2;right=$3;povit=$arr[$left];while [ $left -lt $right ]do while [

2016-05-14 22:24:42 261

原创 实习--Linux命令复习 awk sed nohup & date vi dirname basename

在跑着表,都 快跑了2个小时了,叹,真慢啊!!,偷闲学习一下,加油!!awk的学习:http://www.cnblogs.com/ggjucheng/archive/2013/01/13/2858470.html  http://man.linuxde.net/awk使用方法:awk'{pattern + action}' {filenames} 其中 pattern 表示 A

2016-05-13 14:40:14 370

原创 hive null和创建表的模板

最近,一直在写 hive1)create_table LZO格式1.  建议:shell名称为hive表名,采用此模板仅需二步 a) 编辑字段信息;b) 指定分区信息;2.  运行shell,请使用全路径,如 sh/data3/dmp_online/dmp/dw/mds/purpow/create_table/mds_dm_purpow_source_his.sh;3.

2016-05-11 22:34:01 656

原创 实习---pv uv ,SHELL syntax error:unexpected end of file,SQL语句执行顺序

一、曝光pv ,uv 点击pv , uv 1)      PV访问量(Page View),即页面访问量,每打开一次页面PV计数+1,刷新页面也是。2)      UV访问数(UniqueVisitor)指独立访客访问数,一台电脑终端为一个访客。3)      点击pv 和uv 是一定要有先曝光,才能有点击,所以,要用hive做个连接,并且,在计算点击一天的点击pv和uv时,曝光表连接

2016-05-11 22:08:37 392

转载 海盗分赃-逻辑推理

5个很聪明的海盗抢到100个金币,他们决定依次由A,B,C,D,E五个海盗来分当由A分时,剩下的海盗表决,如果B,C,D,E四人中有一半以上反对就把A扔下海,再由B分……以此类推;如果一半及以上的人同意,就按A的分法 假设每一个海盗都是绝顶聪明而理性,他们都能够进行严密的逻辑推理,并能很理智的判断自身的得失,即能够在保住性命的前提下得到最多的金币.同时还假设每一轮表决后的结果都能顺利得到执行,

2016-04-24 21:28:43 520

转载 并查集(Union-Find)算法介绍

本文主要介绍解决动态连通性一类问题的一种算法,使用到了一种叫做并查集的数据结构,称为Union-Find。更多的信息可以参考Algorithms 一书的Section 1.5,实际上本文也就是基于它的一篇读后感吧。原文中更多的是给出一些结论,我尝试给出一些思路上的过程,即为什么要使用这个方法,而不是别的什么方法。我觉得这个可能更加有意义一些,相比于记下一些结论。

2016-04-24 11:45:02 264

转载 hive优化之------控制hive任务中的map数和reduce数

一、    控制hive任务中的map数: 1.    通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2.    举例: a)    假设input目录下有1个

2016-04-23 19:58:36 198

转载 彻底了解mapreduce核心Shuffle

mapreduce是hadoop的核心之一,mapreduce经常让我们产生各种困惑,我们只是知道什么是map,什么是renduce,甚至我们已经熟悉了mapreduce编程,但是内部的原理还是不明白。下面在回帖中,给大家解决部分问题。更多问题有待挖掘。1.Shuffle的定义是什么?2.map task与reduce task的执行是否在不同的节点上?3.Shuffle产生的意义是什

2016-04-20 20:41:09 212

转载 背包问题九讲

P01: 01背包问题 题目 有N件物品和一个容量为V的背包。第i件物品的费用是c[i],价值是w[i]。求解将哪些物品装入背包可使这些物品的费用总和不超过背包容量,且价值总和最大。 基本思路 这是最基础的背包问题,特点是:每种物品仅有一件,可以选择放或不放。 用子问题定义状态:即f[i][v]表示前i件物品恰放入一个容量为v的背包可以获得的最大价值。则其状态转移方程便

2016-04-19 16:41:24 203

转载 无序整数数组中找第k大的数

写一段程序,找出数组中第k大小的数,输出数所在的位置。【解法一】我们先假设元素的数量不大,例如在几千个左右,在这种情况下,那我们就排序一下吧。在这里,快速排序或堆排序都是不错的选择,他们的平均时间复杂度都是 O(N * log2N)。然后取出前 K 个,O(K)。总时间复杂度 O(N * log2N)+ O(K) = O(N * log2N)。你一定注意

2016-04-19 11:53:00 497

转载 请用Java设计一个Least Recently Used (LRU) 缓存

LRU介绍:LRU是Least Recently Used的缩写,即最少使用页面置换算法,是为虚拟页式存储管理服务的。思路介绍:可以使用两个标准的数据结构来实现,Map和Queue。因为需要支持多线程,需要使用实现了java.utili.concurrent.*的Map和Queue。主要思路是使用一个Queue来维护FIFO和Map来对数据进行排序,当向缓存添加新的

2016-03-21 22:18:40 685

原创 centos7.0 MYSQL rpm包的安装与其它的一些问题

1) 在http://dev.mysql.com/downloads/mysql下下载对应的rpm包。2)  安装mysqlRpm –ivh MySQL-client-5.6.23-1.linux_glibc2.5.x86_64.rpmMySQL-devel-5.6.23-1.linux_glibc2.5.x86_64.rpm MySQL-server-5.6.23-1.lin

2015-09-29 21:45:25 480

原创 最近碰到的一技术问题总结一(关于数据入库的问题)

最初始的问题:约有几百个G 的文件,约200多个数据文件,要分别导入到mysql 数据库中的40多个表中而碰到的问题。

2015-07-19 22:02:39 337

转载 糟糕程序员的各种迹象

为什么写这篇文章?本文提到的绝大多数错误,都是作者历经一番艰辛才得以发现,要么是因为自己犯过,要么是在别人的工作中见过。本文并非意图对程序员划分等级,只是适合某些程序员阅读,他们相信自己有能力判断一件事情在什么情况下是不良习惯的迹象,在什么情况下则是特殊环境导致的结果。写这个系列是为了迫使作者自省,而发布出来,是因为觉得大家也可能会从中找到感兴趣的地方。一、糟糕程序

2015-07-18 22:26:36 293

分治算法经典案例分析-01 --大整数相乘问题

首先,我们来复习一下分治算法的思想:将一个大的问题,分解成 若干个性质相同或相似的小的问题(最好是独立的),每一个小的问题是可以求解的。再将小的问题,合并成原的大的问题。而为了解决一个给定的问题,算法要一次或多次地递归调用 其自身来解决相关的子问题。这些算法通常采用 分治策略。所以说,分治算法我递归调用是一对孪生的兄弟。分治算法的三个步骤:   分解:将一个问题分解成一系列子问题。

2015-07-12 19:18:44 821

原创 算法导论2.3-7题目的解答

请给出一个运行时间为 O(N*lgN)的复杂度,使这能在给定的一个由n个整数构成的集合S和 另一个 整数 sum 时,判断出 S中是否存在 两个和等于 sum 的元素。先进行合并排序,得到一排序的数组A,时间复杂度为  O(N*lgN) ,然后,遍历数组中的元素,每次用二分查找 sum-A[i] (注意,二分查收时,查找的目标数组为  A[0,1,2....n-1 ] -A[i]

2015-07-09 21:58:59 136

转载 TOP –K算法详解

待写~

2015-07-08 22:35:51 606

转载 分治算法

一、基本概念 在计算机科学中,分治法是一种很重要的算法。字面上的解释是“分而治之”,就是把一个复杂的问题分成两个或更多的相同或相似的子问题,再把子问题分成更小的子问题……直到最后子问题可以简单的直接求解,原问题的解即子问题的解的合并。这个技巧是很多高效算法的基础,如排序算法(快速排序,归并排序),傅立叶变换(快速傅立叶变换)……任何一个可以用计算机求解的问题所需的计算时间都与其规模

2015-07-08 21:41:11 291

转载 序列化和反序列化( 二)

序列化和反序列化(转http://tech.meituan.com/serialization_vs_deserialization.html)摘要序列化和反序列化几乎是工程师们每天都要面对的事情,但是要精确掌握这两个概念并不容易:一方面,它们往往作为框架的一部分出现而湮没在框架之中;另一方面,它们会以其他更容易理解的概念出现,例如加密、持久化。然而,序列化和反序列化的

2015-06-28 13:26:39 337

转载 java序列化与反序列化

Java基础学习总结——Java对象的序列化和反序列化一、序列化和反序列化的概念  把对象转换为字节序列的过程称为对象的序列化。  把字节序列恢复为对象的过程称为对象的反序列化。  对象的序列化主要有两种用途:  1) 把对象的字节序列永久地保存到硬盘上,通常存放在一个文件中;  2) 在网络上传送对象的字节序列。  在很多应用中,需要对某些对象进行序列化,让它

2015-06-28 13:24:04 305

memcached权威指南(中文版)

memcached权威指南,与mysql 绝好的好同志

2014-11-23

MongoDB权威指南(English)

MongoDB权威指南.文字版(英文版)--还是原滋原味的好!

2014-11-23

myeclipse反编译插件

myeclipse反编译插件 压缩包中有 java反编译插件的安装 的方法

2013-04-06

MySQL_5.1_zh.chm(中文的)

MySQL_5.1_zh.chm MySQL 5.1参考手册(中文的)

2013-04-06

hibernate3.6.7中文帮助文档

hibernate3.6.7中文帮助文档 权威的。。

2013-04-06

24种设计模式(高手进阶)

本书详细介绍了26种设计模式,如果你是 java刚学的人,不建议阅读,如果你想成为一名真正的java高手 ,请认真阅读。。

2013-04-06

电子商城(J2ee)

本课题设计的目标是实现一个基于MVC(Module-View-Controller)模 式的电子商城网站。在概要设计中,根据系 统分析的结果,把系统分为前台和后台两大模块。根据前台和后台用户的 不同需求,把前台细分为会员登录注册,商品查询,商品购买,订单查询,反馈留言 等模块,把后台细分为管理员登录,商品种类管理,商品(特价)管理,订单设置,留言回复,系统用户管理等模块。详细介绍了在基于MVC模式的struts框架和轻量级持久化框架Hibernate下各个模块的实现过程,且以开发过 程为基础对在 struts框架和Hibernate框架下实现的系统所具有的可重用性、可维护性和可 扩展性等优势进行了分析。 本数据库的设计基于Mysql5.1并用PowerDesigner12.5来设计其设计其数据库的物理模型。 而系统的功能实现用到了JS、Ajax,servlet等J2EE技术。

2013-04-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除