自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

zryowen123的博客

小飞鱼的大数据世界

  • 博客(28)
  • 收藏
  • 关注

原创 基础算法六:求平方根的问题

求解,也是面试中经常问的一个问题。该问题有两种解法:二分法和牛顿法。首先说二分法,首先给定个初始区间范围[0,n],因为一定是在这个范围内,然后比较这个区间的中值的平方和n,如果小于n,将范围缩小为[m,n],如果大于n,将范围缩小为[0,​​​​​​​]。然后重复这个步骤,直到误差小于设定的阈值。代码如下:def binary_search(n, e=1e-5): '''...

2019-04-11 00:44:11 1152

原创 基础算法五:最长公共子序列问题

计算字符串a和b之间的最长公共子序列(LCS),同样是一个动态规划问题。我们需要分两步解决这个问题。首先,我们要找到字符串a和b之间的最长公共子序列的长度。然后通过逆序查找找到最长公共子序列。我们用table[i][j]表示字符串a[1:i],b[1:j]之间的最长公共子序列的长度。很显然如果a[i]等于b[j],table[i][j]等于table[i-1][j-1]+1。如果a[i]不等于...

2019-03-23 22:49:40 405

原创 基础算法四:编辑距离和文本相似度计算

编辑距离是对两个字符串差异化的量化,其含义是将一个字符串转化为另一个字符串所需的最少操作次数,允许的编辑操作包括将一个字符替换为另一个字符,插入一个字符,删除一个字符。编辑距离可用在自然语言处理中,用于计算两个文本之间的相似度。算法的基本原理:对于字符串a[1:i]和字符串b[1:j]来说,用edit[i][j]表示它们间的编辑距离。如果a[i]和b[j]相同,则edit[i][j]=ed...

2019-03-18 23:58:40 1490

原创 基础算法三:归并排序

归并排序也是采用分而治之的思想,也是一个效率比较高的算法,它通过将已有的有序子序列合并得到完全有序的序列,时间复杂度为O(NlogN)。JDK底层的排序算法中也用到了归并排序。归并排序的主要步骤如下:1.分解:将原序列在中间位置划分为两部分。2.解决:对分解得到的两个子序列进行递归排序。3.合并:将排好序的两个子序列进行合并,使合并后的序列有序。关键在于第三步合并,这里需要创建...

2019-03-16 22:32:20 181

原创 基础算法二:快速排序

快速排序也是面试中经常问到的算法,人人都应该掌握。快速排序是对冒泡排序的改进,它的基本思想是:采用分而治之的思想,选取一个基准,一趟排序后把数据分成两部分,一部分都比基准小,另一部分都比基准点大,然后再对这两部分分别进行上述的操作,直到整个序列有序。快速排序因为数据的交换是跳跃的,所以速度比只和相邻数据交换的冒泡排序要快,平均时间复杂度为O(NlogN)。该算法主要有两种实现方法:递归和非递归...

2019-03-16 12:47:38 154

原创 基础算法一:二叉树层次遍历

二叉树的层次遍历是面试时经常问到的一道编程题,人人都应该掌握。二叉树的层次遍历就是按照二叉树的层次从上到下,从左到右依次遍历树中的节点。如下图所示:二叉树该二叉树层次遍历顺序为:1 2 3 4 5 6 7如果按行输出就是:12 34 5 6 7二叉树的层次遍历可以借助队列来实现,代码如下(结果按行输出):class Node(object): # 节点类...

2019-03-15 23:59:12 903 1

原创 卷积神经网络文本分类模型TextCNN及Tensorflow实现

卷积神经网络的核心思想是捕捉局部特征。对于文本来说,局部特征就是由若干单词组成的滑动窗口,类似于N-gram。卷积神经网络的优势在于能够自动对N-gram特征进行组合和筛选,获得不同抽象层次的语义信息,并且由于权值共享机制,训练速度也比较快。用于文本分类任务的卷积神经网络模型为TextCNN,具体原理见论文Convolutional Neural Networks for Sentence C...

2019-03-12 00:11:06 2759

原创 CentOS6.7 + GTX1070Ti + CUDA 9.0 + cuDNN 7.0.5搭建深度学习环境

显卡为GTX1070Ti,这是2017年下半年新出的卡,性能接近GTX1080。一.安装显卡驱动1.下载驱动到官网下载:https://www.geforce.com/drivers选择显卡型号下载后是一个名为NVIDIA-Linux-x86_64-390.48.run的文件2.安装编译环境gcc、kernel-devel、kernel-headers如果系统已经安装过了就不用再装了,这时需要注意...

2018-04-23 19:48:33 2830

原创 Python多进程实现多核并发

1.多线程和多进程Python多线程由于有全局锁的缘故,在执行的时候,同一时间只能执行一个线程,并不能实现多核并发,对于CPU密集型的任务来说,效率和单线程没区别。如果需要多核并发的话,可以采用多进程的方式实现。2.代码下面举一个简单的例子说明:from multiprocessing import Poolimport time# 要执行的任务def task(name): pr...

2018-04-17 22:38:20 2925

原创 Python实现分类器性能度量(混淆矩阵,正确率,准确率,召回率,ROC,AUC)

1.混淆矩阵对于二分类问题,可将样例根据其真实类别与分类器预测类别的组合划分为:真正例(true positive):将一个正例正确判断为正例假正例(false positive):将一个反例错误判断为正例真反例(true negative):将一个反例正确判断为反例假反例(false negative):将一个正例错误判断为反例令TP、FP、TN、FN分别表示对应的样例数...

2018-04-16 23:00:54 14087 5

原创 CentOS6.7安装tensorflow遇到的问题:`GLIBCXX_3.4.19' not found

1.问题描述在CentOS6.7系统上利用Anaconda安装tensorflow,安装完后试运行报如下错:2.原因分析我们所依赖的动态库版本太低,可以用如下命令查看:strings /usr/lib64/libstdc++.so.6 | grep GLIBC输出:GLIBCXX_3.4GLIBCXX_3.4.1GLIBCXX_3.4.2GLIBCXX_3.4.3GLIBCXX_3.4.4GLIB...

2018-04-13 17:39:34 1920

原创 TensorFlow用训练好的CNN模型检测

已预先训练好了一个识别猫、狗的二分类CNN模型,持久化在了一个cat_vs_dog.pb的文件中。现需要用其进行图片检测。1.代码读取训练好的pb文件,用来进行图片的检测,代码为:import tensorflow as tfimport numpy as npfrom PIL import ImageFILEPATH = 'F:/PycharmProjects/deepLearning/...

2018-04-11 00:21:18 5127 8

原创 TensorFlow实现AlexNet并持久化训练结果

1.参数设置数据的读取采用上篇博客中的方法https://blog.csdn.net/zryowen123/article/details/79796387,将上篇的代码命名为TFRecord.py,在本篇中进行了引用。import tensorflow as tfimport TFRecord as tfr # 自定义模块,用于进行tfrecords相关处理from tensorflow.p...

2018-04-10 23:28:19 1169

原创 TensorFlow制作、读取TFRecord格式数据集

TFRecord数据格式是TensorFlow官方推荐的数据格式,不仅规范化读写,而且提高了IO效率。1.制作TFRecord数据原始数据为下图所示,文件夹名为类别标号,文件夹中存放的是各个类的图片:制作TFRecord的代码为:import osimport tensorflow as tffrom PIL import Imageimport numpy as npdef creat...

2018-04-02 23:58:47 1733 2

原创 Matplotlib入门

Matplotlib是著名的python绘图库,主要用于二维绘图,下面是一个简单的例子。import numpy as npimport matplotlib.pyplot as pltx = np.linspace(0,10,1000) # 范围为0-10的数组,元素个数1000y = np.sin(x) + 1z = np.cos(x**2)+1 plt.fig...

2018-03-08 23:27:17 207

原创 用Python实现B2M算法:将二进制文件映射为灰度图片

其具体过程如下:对于给定的恶意代码可执行文件,即二进制文件,读取8位为一个无符号的整形(范围为0-255),固定的行宽为一个向量,整个文件最后生成一个二维数组。将此数组可视化为一个灰阶图像,该二维数组中每个元素的范围为0-255,正好为灰度图像中每个像素的取值范围,即每个数组元素对应图像中的一个像素。例子:将如下文件映射为图片:代码为:import numpy, scipy, os, array...

2018-03-08 00:48:55 3072

原创 spark程序消费kafka数据报错:java.lang.NoSuchMethodError: net.jpountz.util.Utils.checkRange([BII)V

spark版本:2.1.1,kafka API版本:0.8错误如下:[WARN ] 2018-01-25 14:54:01,332 org.apache.spark.scheduler.TaskSetManager - Lost task 3.0 in stage 0.0 (TID 3, ip-10-0-155-42.eu-west-1.compute.internal, executor 8):...

2018-02-27 19:46:33 2874

原创 Spark Streaming通过直连的方式消费Kafka中的数据

本文实现了用Spark通过直连的方式去消费Kafka中的数据,并在消费完数据后对偏移量进行了更新,并且在创建stream时考虑了偏移量的修正,避免了直接使用API时出现的一些异常。

2017-10-26 23:51:44 9415

原创 Spark GraphX实现Bron–Kerbosch算法-极大团问题

本文使用Spark GraphX实现了Bron–Kerbosch算法,用来求解无向图中的极大团(即完全子图)问题

2017-10-22 22:56:53 1711 1

原创 Linux进程与端口号的查询

Linux进程与端口号的查询

2017-09-06 17:38:35 424

原创 Hive典型应用场景之行列转换

在使用Hive处理数据时,经常遇到行列转换的场景,本文将对Hive的行列转换操作做详细的说明。

2017-08-30 02:24:19 7141 2

原创 Hadoop学习之MapReduce运行流程

MapReduce运行流程

2017-08-29 15:20:40 257

原创 Hadoop学习之HDFS读写流程

HDFS的读写流程

2017-08-28 23:27:25 523

原创 Spark GraphX学习(一)Connected Components算法

本文采用Spark GraphX三大算法之一的Connected Components算法实现社交网络中的社区发现。

2017-08-18 19:56:29 10944 1

原创 Spark集群搭建(HA)

以三台服务器为例,搭建Spark高可用(HA)集群

2017-08-15 02:11:50 298

原创 用Scala模拟Spark集群启动过程

本文使用Scala语言实现了对Spark集群启动过程的模拟,方便对Spark集群启动过程的理解。

2017-08-14 19:44:00 507

原创 用Scala模拟RPC通信

用scala实现简单的rpc

2017-07-27 20:22:10 280

原创 Storm集群的搭建

Storm集群的搭建集群规划 下载软件包 http://storm.apache.org解压并重命名tar -zxvf apache-storm-0.9.7.tar.gz -C /home/hadoop/appsmv apache-storm-0.9.7.tar.gz修改环境变量export STORM_HOME=/home/hadoop/apps/storm

2017-07-26 19:04:36 308

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除