自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(45)
  • 收藏
  • 关注

原创 基于DBSCAN聚类算法的通用论坛正文提取

通用论坛正文爬取这是今年和队友一起参加第五届泰迪杯的赛题论文,虽然最终只获得了一个三等奖。但是在这个过程中和队友也一起学到了不少东西,特此记录。1、  简单介绍赛题的目的,是让参赛者对于任意 BBS 类型的网页,获取其 HTML 文本内容,设计一个智能提取该页面的主贴、所有回帖的算法。http://www.tipdm.org/jingsa/1030.jhtml?cName=ral_

2017-06-07 12:13:32 4049 5

翻译 Hadoop 图像小文件查重方法

https://eldadlevy.wordpress.com/2011/02/05/hadoop-binary-files-processing-entroduced-by-image-duplic 翻译。不足之处多多包涵,更感谢网友的指正。

2017-01-04 21:02:57 1644

原创 使用Python实现网格索引

网格索引就是在一个地图图层上,按每个小网格宽△w,高△h打上均匀的格网,计算每个图元所占据的网格或者所经过的网格单元集合。这篇文章主要是我在查找网格索引算法的时候,看到一位仁兄在csdn发表的文章http://blog.csdn.net/libinfei8848/article/details/7292096但是我把他的代码下载完之后运行的效果并不是很好,主要体现在,测试时搜索的结果差距很

2016-11-25 20:11:07 9097 1

原创 keras 自定义F1-score 保存最优模型

主要参考了Tensorflow与keras学习 (8)——实现f1_score(多分类、二分类)_AI小白龙的博客-CSDN博客在参考第一个的时候出现了self.validation is NoneType解决: class Metrics(Callback): def __init__(self, train_x, train_y, val_x, val_y, batch_size = 1024): super().__init__()

2022-04-01 16:49:43 1371

原创 linux cuda10.0使用pip安装pytorch

wget https://download.pytorch.org/whl/cu100/torch-1.3.0%2Bcu100-cp36-cp36m-linux_x86_64.whlwget https://download.pytorch.org/whl/cu100/torchvision-0.4.1%2Bcu100-cp36-cp36m-linux_x86_64.whl\下载上述文件,...

2019-11-08 10:15:40 3453

原创 window下python安装 geopandas

参考:https://geoffboeing.com/2014/09/using-geopandas-windows/简单翻译一下:安装geopandas 有两种方式1、安装Anaconda, 然后安装geopandas, 如果不想安装anconda则使用第二种方法。2、手动安装手动安装步骤:需要安装依赖,GDAL、Fiona、pyproj、rtree 和 sh...

2019-08-08 19:07:58 965

转载 Pycharm连接远程服务器设置

这里写自定义目录标题新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入 原 Py...

2019-05-11 11:03:19 1976

原创 ImportError: libcublas.so.9.0: cannot open shared object file: No such file or directory

安装完tensorflow后,使用python导入发现以下的错误百度之后发现很多网友说是 tensorflow安装的版本过高和cuda不匹配,这一有一个 tensorflow和cuda、cudnn的一个对应版本链接可以参考,https://blog.csdn.net/omodao1/article/details/83241074 查看本人环境下的cuda版本和cudnn的版本1、...

2019-02-13 13:57:08 927

原创 python+cv2 模拟生成QQ、微信截图中的箭头

参考链接:http://yuncode.net/code/c_5acf1045152e662最近需要生成一批含有箭头的样本,cv2自带的画箭头的函数和微信截图中画箭头的形状不一样,因此需要重新写一个生成微信箭头的函数(如果cv2有,请告诉我一下)微信、QQ截图 箭头形状cv2 自带函数生成 *** 可以观察到两者的主要差异体现在 尾部和箭头 利用python+cv2生成:(可自...

2018-12-24 20:11:32 1208

原创 python 混淆矩阵 记录

from sklearn.metrics import accuracy_score, confusion_matrix, f1_scoredef plotCM(classes, matrix, savname): """classes: a list of class names""" # Normalize by row # matrix = matrix.asty...

2018-12-20 20:08:32 903

原创 安装nvidia驱动(简单记录,坑,,,,,)

起因:忽然发现服务器GPU挂了,nvidia-smi报错处理:重新装驱动吧。1、查看机器的版本号uname -r  2、安装kernelyum install kernel-devel-3.10.0-862.3.3.el7.x86_64    (3.10.0-862.3.3.el7.x86_64,就是你的版本号) 3、官网下载英伟达驱动./NVIDIA-Linu...

2018-07-20 15:27:40 1076

原创 tensorflow 将ckpt中的参数存储为 npy 格式。

reader=pywrap_tensorflow.NewCheckpointReader(FILE_PATH) var_to_shape_map=reader.get_variable_to_shape_map() for key in var_to_shape_map: print(key) layers = ['conv1_1', 'conv1_2'...

2018-07-11 11:38:17 1978 2

原创 tensorflow ,卷积层梯度为 0

今天 在测试多GPU并行实验时,采用. tf.train.GradientDescentOptimizer优化器   卷积层的梯度都为 0, 模型保持不动 ,换成AdadeltaOptimizer就好了,原因 还不清楚。待补充atf.train.GradientDescentOptimizer...

2018-06-22 17:13:00 1640

原创 Tensorflow 查看模型训练过程中的参数变化

笔记:比如我想查看, 模型中最后一个全连接层的参数,在每一轮中是否发生了变化。with tf.variable_scope('w') as scope: w = tf.get_variable('weights',shape=[hidden_nums, self.__num_classes],dtype=tf.float32,initializer=tf.truncated_normal_...

2018-06-21 11:46:44 8119

原创 tf.FixedLenFeature 和tf.VarLenFeature 的区别

tf.FixedLenFeature 返回的是一个定长的tensortf.VarLenFeature 返回的是一个不定长的sparse tensor,用于处理可变长度的输入,在处理c t c 问题时,会用到tf.VallenFeature解析存储在tfrecord中的label。待补充...

2018-05-13 16:45:37 20334

原创 详解CNN中的stride 和 padding 到底是怎么计算的

平时不注意的细节,别人一问的时候就会很懵逼,所以认真对待每一个参数。先看一下 tensorflow中自带的卷积操作是什么样子的呢?https://tensorflow.google.cn/api_docs/python/tf/nn/conv2dtf.nn.conv2d( input, filter, strides, padding, use_...

2018-05-10 18:34:19 28899 2

原创 深度学习中的数据增强(data augmentation)

直接上代码:#encoding:utf-8'''tf 参考链接 :https://tensorflow.google.cn/api_guides/python/image增加数据量,减轻过拟合,增强模型的泛化能力在预测时也可以使用'''import numpy as npimport osimport mathimport tensorflow as tffrom skimag...

2018-04-27 11:22:26 6423 1

原创 tensorflow.contrib.slim

码:中文:https://www.2cto.com/kf/201706/649266.html

2018-04-26 16:59:10 1182

原创 tfrecord构建自己的数据集

根据tfrecord构建本地自己的数据集套话:TFRecord文件中的数据都是通过tf.train.Example Protocol Buffer的格式存储的。其中包含一个从属性名到取值的字典,属性的取值可以为字符串(BytesList),实数列表(FloatList)或整数列表(Int64List)。比如将,将一个图片存为字符串,其label值存为整数。message Feature{ ...

2018-04-10 09:53:46 343

原创 暗黑的字符串

参考链接:https://www.cnblogs.com/JSONBEAN/p/6433755.html题目描述:一个只包含'A'、'B'和'C'的字符串,如果存在某一段长度为3的连续子串中恰好'A'、'B'和'C'各有一个,那么这个字符串就是纯净的,否则这个字符串就是暗黑的。例如:BAACAACCBAAA 连续子串"CBA"中包含了'A','B','C'各一个,所以是纯净的字符串;AABBCCA...

2018-03-05 13:50:05 289

原创 面试题:求最大矩形面积

参考链接:http://blog.csdn.net/jingsuwen1/article/details/51577983题目描述:给定一组非负整数组成的数组h,代表一组柱状图的高度,其中每个柱子的宽度都为1。在这组柱状图中找出能组成的最大矩形的面积。      ①暴力求解:设置两个循环,直接求出所有可能的结果,得到最大的值,时间复杂度O(n^2)。和暴力求解和最大的子序列方法类似。代码如下:st...

2018-02-26 18:49:50 8392

原创 快排、二叉树遍历

快排:直接看百度百科就好了二叉树的前中序和层次遍历,非递归方法需要用到栈和队列。https://www.cnblogs.com/gaopeng527/p/5451176.html

2018-02-03 10:56:04 392

原创 python 利用多进程进行爬虫(二)

上次写的python多线程爬虫,并没有充分利用cpu资源,实际上只进行了一个核。这里简单的介绍一下几个函: pool = Pool(3) #根据cpu核数设置进程个数 pool.map(get_infor,urls) ,#map函数的作用,将urls中每个元素到放入到get_infor中执行一遍 pool.close() #关闭进程池 pool.join() #等待全部进程结束代码:

2018-01-01 11:22:09 596

原创 Python 利用多线程进行爬虫(一)

这几天帮同学爬取拉勾网的招聘信息,真好学习一下多线程爬虫,之前做过几次爬虫都是单线程的。看到网上说python由于GIL的存在,多线程的效果不好。但是当处理IO比较密集的任务时,网络请求时间较长时,多线程可以充分利用cpu资源。参考链接:https://www.ibm.com/developerworks/cn/aix/library/au-threadingpython/http

2017-12-30 21:21:30 492

原创 tensorflow根据label图画出对应的热图 语义分割

在使用tensorflow对图像进行分割预测的时候,得到的值对应的是一个二维数组,如果直接将其保存为图片,就是一个黑色的图,区分不大,因此我要将其转成带颜色的图,每个类别对应一种颜色,对应的下图中的左道右。   def value_to_RGB(value): a=[None]*len(value) for i in range(len(value)):

2017-11-02 16:51:01 3191

原创 tensorflow 运行过程中loss出现 NaN

描述:在训练的是loss正常,测试的时候出现了NaN解决方法:通过打印softmax()之后的结果,发现出现了0值,导致后面出现log(0)=NaN的情况;  参考链接:http://stackoverflow.com/questions/33712178/tensorflow-nan-bughttp://blog.csdn.net/sinat_16823063/article/d

2017-10-26 21:13:33 4005

原创 使用MapReduse 处理 SequenceFile

为了解决大量小图片在HDFS存储是存储在的问题,将小图片存储到SequenceFile中,然后通过MapReduce函数对SequenceFile文件进行操作。用过设置,job的输入文件格式得到SequenceFile中的数据,代码如下:package com.wang;import java.io.IOException;import org.apache.hadoop.conf.Co

2017-10-10 15:22:28 365

原创 备注:tensorflow模型训练时同时进行测试,将结果可视化。

1、首先创建两个placeholder,用来存放测试数据集,和标签。x = tf.placeholder(tf.float32, shape = [BATCH_SIZE,256,256,3])y_ = tf.placeholder(tf.int16,shape = [BATCH_SIZE]) 2、创建一个FileWriter ,用于写入测试数据信息test_writer = tf.

2017-09-23 20:40:50 5465 4

原创 ubuntu ping不通DNS

前两天刚给服务器重装的系统,发现连不上网。通过查找发现可以ping通网管,但是ping不通设置的dns的ip。解决办法如下:配置dnsvim /etc/resolv.confnameserver xxx.xxx.xxx.xxx但是重启之后发现,dns被修改为默认值了。通过查看vim /etc/network/interfaces 发现我的网卡名称和  ifconfig之

2017-09-06 13:36:12 6746 1

原创 Ubuntu ssh远程root用户登录失败

第一步:现更改root的密码: 输入  su –第一个为系统启动时设置的账号密码,在重新设置root密码 第二步,修改文件 $ sudo vi /etc/ssh/sshd_config找到PermitRootLogin no一行,改为PermitRootLogin yes 保存退出。就可以了

2017-08-30 15:16:26 818

原创 Tensorflow使用TFRecord构建自己的数据集并读取

Tensorflow使用TFRecord构建自己的数据集并读取参考文章: http://blog.csdn.net/freedom098/article/details/56011858 还有 优酷上kevin大神的视频目标:1、将自己的数据集以TFRecord格式存储。          2、从TFRecord中读取数据,并使用画图工具,以图片形式展现。以

2017-08-28 15:54:41 2688

原创 使用MapReduce结合HBase Filter过滤数据

使用MapReduce过滤HBase数据需求:读取hbase数据,根据某一些条件,过滤掉不符合情况的行,实现数据在服务器端的过滤。 解决方法:通过翻阅《HBase权威指南》发现,实现这个需求有以下几种方法①  使用行过滤器(RowFilter),基于行健来过滤数据。通过比较返回比符合条件的行健。②  单列值过滤器(SingleColumnValueFilter),此过滤器使

2017-06-18 11:29:29 1885

转载 Hadoop中sequencefile和mapfile的区别

原文网址:http://blog.csdn.net/javaman_chen/article/details/7241087Hadoop的HDFS和MapReduce子框架主要是针对大数据文件来设计的,在小文件的处理上不但效率低下,而且十分消耗内存资源(每一个小文件占用一个Block,每一个block的元数据都存储在namenode的内存里)。解决办法通常是选择一个容器,将这些

2017-05-08 20:18:25 3897

原创 MapReduce读取HBase内容到hdfs

mapper 函数:static class AnalyzMapper extends TableMapper{ private static IntWritable ONE = new IntWritable(1); private JSONParser parser=new JSONParser(); @Override protected void map(Immutab

2017-03-09 16:17:36 1438

原创 Hadoop运行一段时间后无法stop-all.sh

这几天需要做 不同节点的查询试验,才发现不能关闭节点。百度一个一番之后。解决方法;修改 hadoop-env.sh 文件export HADOOP_PID_DIR=/usr/software/hadoop-2.7.2/tmp这里的文件名和路径可以自由设置。在重启集群就好了

2017-03-07 10:28:14 636

原创 windows下python numpy,scipy,pandas 等模块的安装

1、首先进入http://www.lfd.uci.edu/~gohlke/pythonlibs/  找到和你需要的 .whl 包,必须和你安装的Python的版本对应。2、进入dos 命令, 进入到你安装的Python目录下的 scripts文件夹下,同时把你刚才下载好的包复制到这个文件夹下。3、输入 pip install ****.whl 就ok了4、如果,第三部不可以执行,在pi

2017-02-21 19:49:19 582

原创 hdoop 文本数据按列去重

问题描述:多个数据源的文件合并,根据具体几列(根据需求确定到底是几列)的值确定行的唯一性,删除掉重复的行。我们假设我们的需求是根据文本的前3列来确定行的唯一性,对于重复的行,我们随机选取一行的数据进行保留,不需要考虑其他列的数据。实际应用中,我们对不同的业务表合并时,可能有这方面的需求,这里我举的例子可能业务说明性不强,但是逻辑一样。是所以选择使用mapreduce ,

2017-01-07 13:07:09 444

原创 hadoop paceavailable on volume '/dev/mapper/vg_master-lv_root' is 0

Hadoop 的namenode一直处于standby状态,kill掉另一个namenode这也不能active,查看日志WARNorg.apache.hadoop.hdfs.server.namenode.NameNodeResourceChecker: paceavailable on volume '/dev/mapper/vg_master-lv_root' is 0 which

2017-01-06 15:05:38 1093

原创 HBase Operation category READ is not supported in state standby

2016-12-29 14:48:44,188 INFO  [master:master:60000] http.HttpServer: Jetty bound to port 600102016-12-29 14:48:44,188 INFO  [master:master:60000] mortbay.log: jetty-6.1.262016-12-29 14:48:44,721 INFO ...

2016-12-29 15:00:39 15248 1

原创 Hbase启动出现的问题 master.HMasterCommandLine: Master exiting

2016-12-28 19:00:25,797 INFO  [main] util.ServerCommandLine: env:NAMESRV_ADDR=219.217.203.1:98762016-12-28 19:00:25,797 INFO  [main] util.ServerCommandLine: env:SSH_CONNECTION=222.27.227.178 56504 2

2016-12-28 19:24:24 15584 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除