小飞鱼_bigdata-CSDN博客

原创基础算法六：求平方根的问题

求解，也是面试中经常问的一个问题。该问题有两种解法：二分法和牛顿法。首先说二分法，首先给定个初始区间范围[0，n]，因为一定是在这个范围内，然后比较这个区间的中值的平方和n，如果小于n，将范围缩小为[m,n]，如果大于n，将范围缩小为[0，]。然后重复这个步骤，直到误差小于设定的阈值。代码如下：def binary_search(n, e=1e-5): '''...

2019-04-11 00:44:11 1152

计算字符串a和b之间的最长公共子序列（LCS），同样是一个动态规划问题。我们需要分两步解决这个问题。首先，我们要找到字符串a和b之间的最长公共子序列的长度。然后通过逆序查找找到最长公共子序列。我们用table[i][j]表示字符串a[1:i]，b[1:j]之间的最长公共子序列的长度。很显然如果a[i]等于b[j]，table[i][j]等于table[i-1][j-1]+1。如果a[i]不等于...

2019-03-23 22:49:40 405

原创基础算法四：编辑距离和文本相似度计算

编辑距离是对两个字符串差异化的量化，其含义是将一个字符串转化为另一个字符串所需的最少操作次数，允许的编辑操作包括将一个字符替换为另一个字符，插入一个字符，删除一个字符。编辑距离可用在自然语言处理中，用于计算两个文本之间的相似度。算法的基本原理：对于字符串a[1:i]和字符串b[1:j]来说，用edit[i][j]表示它们间的编辑距离。如果a[i]和b[j]相同，则edit[i][j]=ed...

2019-03-18 23:58:40 1490

原创基础算法三：归并排序

归并排序也是采用分而治之的思想，也是一个效率比较高的算法，它通过将已有的有序子序列合并得到完全有序的序列，时间复杂度为O(NlogN)。JDK底层的排序算法中也用到了归并排序。归并排序的主要步骤如下：1.分解：将原序列在中间位置划分为两部分。2.解决：对分解得到的两个子序列进行递归排序。3.合并：将排好序的两个子序列进行合并，使合并后的序列有序。关键在于第三步合并，这里需要创建...

2019-03-16 22:32:20 181

原创基础算法二：快速排序

快速排序也是面试中经常问到的算法，人人都应该掌握。快速排序是对冒泡排序的改进，它的基本思想是：采用分而治之的思想，选取一个基准，一趟排序后把数据分成两部分，一部分都比基准小，另一部分都比基准点大，然后再对这两部分分别进行上述的操作，直到整个序列有序。快速排序因为数据的交换是跳跃的，所以速度比只和相邻数据交换的冒泡排序要快，平均时间复杂度为O(NlogN)。该算法主要有两种实现方法：递归和非递归...

2019-03-16 12:47:38 154

原创基础算法一：二叉树层次遍历

二叉树的层次遍历是面试时经常问到的一道编程题，人人都应该掌握。二叉树的层次遍历就是按照二叉树的层次从上到下，从左到右依次遍历树中的节点。如下图所示：二叉树该二叉树层次遍历顺序为：1 2 3 4 5 6 7如果按行输出就是：12 34 5 6 7二叉树的层次遍历可以借助队列来实现，代码如下（结果按行输出）：class Node(object): # 节点类...

2019-03-15 23:59:12 903 1

原创卷积神经网络文本分类模型TextCNN及Tensorflow实现

卷积神经网络的核心思想是捕捉局部特征。对于文本来说，局部特征就是由若干单词组成的滑动窗口，类似于N-gram。卷积神经网络的优势在于能够自动对N-gram特征进行组合和筛选，获得不同抽象层次的语义信息，并且由于权值共享机制，训练速度也比较快。用于文本分类任务的卷积神经网络模型为TextCNN，具体原理见论文Convolutional Neural Networks for Sentence C...

2019-03-12 00:11:06 2759

原创 CentOS6.7 + GTX1070Ti + CUDA 9.0 + cuDNN 7.0.5搭建深度学习环境

显卡为GTX1070Ti，这是2017年下半年新出的卡，性能接近GTX1080。一.安装显卡驱动1.下载驱动到官网下载：https://www.geforce.com/drivers选择显卡型号下载后是一个名为NVIDIA-Linux-x86_64-390.48.run的文件2.安装编译环境gcc、kernel-devel、kernel-headers如果系统已经安装过了就不用再装了，这时需要注意...

2018-04-23 19:48:33 2830

原创 Python多进程实现多核并发

1.多线程和多进程Python多线程由于有全局锁的缘故，在执行的时候，同一时间只能执行一个线程，并不能实现多核并发，对于CPU密集型的任务来说，效率和单线程没区别。如果需要多核并发的话，可以采用多进程的方式实现。2.代码下面举一个简单的例子说明：from multiprocessing import Poolimport time# 要执行的任务def task(name): pr...

2018-04-17 22:38:20 2925

原创 Python实现分类器性能度量（混淆矩阵，正确率，准确率，召回率，ROC，AUC）

1.混淆矩阵对于二分类问题，可将样例根据其真实类别与分类器预测类别的组合划分为:真正例（true positive）：将一个正例正确判断为正例假正例（false positive）：将一个反例错误判断为正例真反例（true negative）：将一个反例正确判断为反例假反例（false negative）：将一个正例错误判断为反例令TP、FP、TN、FN分别表示对应的样例数...

2018-04-16 23:00:54 14087 5

原创 CentOS6.7安装tensorflow遇到的问题：`GLIBCXX_3.4.19' not found

1.问题描述在CentOS6.7系统上利用Anaconda安装tensorflow，安装完后试运行报如下错：2.原因分析我们所依赖的动态库版本太低，可以用如下命令查看：strings /usr/lib64/libstdc++.so.6 | grep GLIBC输出：GLIBCXX_3.4GLIBCXX_3.4.1GLIBCXX_3.4.2GLIBCXX_3.4.3GLIBCXX_3.4.4GLIB...

2018-04-13 17:39:34 1920

原创 TensorFlow用训练好的CNN模型检测

已预先训练好了一个识别猫、狗的二分类CNN模型，持久化在了一个cat_vs_dog.pb的文件中。现需要用其进行图片检测。1.代码读取训练好的pb文件，用来进行图片的检测，代码为：import tensorflow as tfimport numpy as npfrom PIL import ImageFILEPATH = 'F:/PycharmProjects/deepLearning/...

2018-04-11 00:21:18 5127 8

原创 TensorFlow实现AlexNet并持久化训练结果

1.参数设置数据的读取采用上篇博客中的方法https://blog.csdn.net/zryowen123/article/details/79796387，将上篇的代码命名为TFRecord.py，在本篇中进行了引用。import tensorflow as tfimport TFRecord as tfr # 自定义模块，用于进行tfrecords相关处理from tensorflow.p...

2018-04-10 23:28:19 1169

原创 TensorFlow制作、读取TFRecord格式数据集

TFRecord数据格式是TensorFlow官方推荐的数据格式，不仅规范化读写，而且提高了IO效率。1.制作TFRecord数据原始数据为下图所示，文件夹名为类别标号，文件夹中存放的是各个类的图片：制作TFRecord的代码为：import osimport tensorflow as tffrom PIL import Imageimport numpy as npdef creat...

2018-04-02 23:58:47 1733 2

原创 Matplotlib入门

Matplotlib是著名的python绘图库，主要用于二维绘图，下面是一个简单的例子。import numpy as npimport matplotlib.pyplot as pltx = np.linspace(0,10,1000) # 范围为0-10的数组，元素个数1000y = np.sin(x) + 1z = np.cos(x**2)+1 plt.fig...

2018-03-08 23:27:17 207

原创用Python实现B2M算法：将二进制文件映射为灰度图片

其具体过程如下：对于给定的恶意代码可执行文件，即二进制文件，读取8位为一个无符号的整形（范围为0-255），固定的行宽为一个向量，整个文件最后生成一个二维数组。将此数组可视化为一个灰阶图像，该二维数组中每个元素的范围为0-255，正好为灰度图像中每个像素的取值范围，即每个数组元素对应图像中的一个像素。例子：将如下文件映射为图片：代码为：import numpy, scipy, os, array...

2018-03-08 00:48:55 3072

原创 spark程序消费kafka数据报错：java.lang.NoSuchMethodError: net.jpountz.util.Utils.checkRange([BII)V

spark版本：2.1.1，kafka API版本：0.8错误如下：[WARN ] 2018-01-25 14:54:01,332 org.apache.spark.scheduler.TaskSetManager - Lost task 3.0 in stage 0.0 (TID 3, ip-10-0-155-42.eu-west-1.compute.internal, executor 8):...

2018-02-27 19:46:33 2874

原创 Spark Streaming通过直连的方式消费Kafka中的数据

本文实现了用Spark通过直连的方式去消费Kafka中的数据，并在消费完数据后对偏移量进行了更新，并且在创建stream时考虑了偏移量的修正，避免了直接使用API时出现的一些异常。

2017-10-26 23:51:44 9415

原创 Spark GraphX实现Bron–Kerbosch算法-极大团问题

本文使用Spark GraphX实现了Bron–Kerbosch算法，用来求解无向图中的极大团（即完全子图）问题

2017-10-22 22:56:53 1711 1

原创 Linux进程与端口号的查询

Linux进程与端口号的查询

2017-09-06 17:38:35 424

原创 Hive典型应用场景之行列转换

在使用Hive处理数据时，经常遇到行列转换的场景，本文将对Hive的行列转换操作做详细的说明。

2017-08-30 02:24:19 7141 2

原创 Hadoop学习之MapReduce运行流程

MapReduce运行流程

2017-08-29 15:20:40 257

原创 Hadoop学习之HDFS读写流程

HDFS的读写流程

2017-08-28 23:27:25 523

原创 Spark GraphX学习（一）Connected Components算法

本文采用Spark GraphX三大算法之一的Connected Components算法实现社交网络中的社区发现。

2017-08-18 19:56:29 10944 1

原创 Spark集群搭建（HA）

以三台服务器为例，搭建Spark高可用（HA）集群

2017-08-15 02:11:50 298

原创用Scala模拟Spark集群启动过程

本文使用Scala语言实现了对Spark集群启动过程的模拟，方便对Spark集群启动过程的理解。

2017-08-14 19:44:00 507

原创用Scala模拟RPC通信

用scala实现简单的rpc

2017-07-27 20:22:10 280

原创 Storm集群的搭建

Storm集群的搭建集群规划下载软件包 http://storm.apache.org解压并重命名tar -zxvf apache-storm-0.9.7.tar.gz -C /home/hadoop/appsmv apache-storm-0.9.7.tar.gz修改环境变量export STORM_HOME=/home/hadoop/apps/storm

2017-07-26 19:04:36 308

zryowen123的博客