joshuasea-CSDN博客

原创 spark编程基础

Hadoop为用户提供了系统底层细节透明的分布式计算架构。Hadoop是基于java语言开发的，具有很好的跨平台性。Hadoop的核心是分布式文件系统（Hadoop distributed File system,HDFS）和Java Archive Downloads - Java SE 7 | Oracle 日本。

2023-01-09 20:17:06 236

什么是推荐系统，推荐系统的作用？推荐系统的任务就是联系用户和信息一方面帮助用户发现对自己有价值的信息，另一方面让信息能够展现在对它感兴趣的用户上实现双赢。推荐系统应用· 电子商务· 电影和视频网站· 个性化音乐网络电台· 社交网站· 个性化阅读· 个性化邮件· 个性化广告协同过滤介绍协同过滤就是指用户可齐心协力，不断地和产品互动，使自己的推荐列表不断过滤掉自己不感兴趣的物品，从而越来越满足自己的需求。显性反馈：评价。打分。隐形反馈：购买日志，阅读日..

2021-06-29 20:51:57 129

原创 SpringBoot

what?SpringBoot简化了Spring框架开发中各种复杂配置，使开发者快速、敏捷的开发基于Spring框架的应用程序。 SpringBoot使用 “约定优于配置” 的思想来摆脱Spring对XML配置文件的依赖，同时又集成了大量的常用第三方库配置（如Redis，Mongo，Mail），在Spring Boot应用中这些第三方库几乎可以零配置的开箱即用，使开发者能够从繁杂的配...

2019-08-24 09:11:36 899 1

原创 JAVA笔记

What：JAVA分为三个版本： Java SE：Standard Edition Java EE：Enterprise Edition Java ME：Micro Edition ┌───────────────────────────┐│Java EE ││ ┌────────────────────┐ ...

2019-07-15 15:35:43 137

原创 Spark--共享变量与文件数据读写

当Spark在集群的多个不同节点的多个任务上并行运行一个函数时，它会把函数中涉及到的每个变量，在每个任务上都生成一个副本。但是，有时候，需要在多个任务之间共享变量，或者在任务（Task）和任务控制节点（Driver Program）之间共享变量。为了满足这种需求，Spark提供了两种类型的变量：广播变量（broadcast variables）和累加器（accumulators）。广播变量用来把变...

2019-05-14 11:01:12 623

原创键值对RDD

键值对RDD的创建第一种创建方式：从文件中加载我们可以采用多种方式创建键值对RDD，其中一种主要方式是使用map()函数来实现，如下：scala> val lines = sc.textFile("file:///usr/local/spark/mycode/pairrdd/word.txt")lines: org.apache.spark.rdd.RDD[String...

2019-05-13 15:50:52 618

原创 Spark学习第一节---

Spark的设计与运行原理关于SparkSpark是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。 Spark具有如下几个主要特点：运行速度快：Spark使用先进的DAG（Directed Acyclic Graph，有向无环图）执行引擎，以支持循环数据流与内存计算，基于内存的执行速度可比Hadoop MapReduce快上百倍，基于磁盘的执行速...

2019-05-12 19:38:04 611

原创 RDD编程知识点总结

RDD创建可以通过两种方式创建：* 第一种：读取一个外部数据集。比如，从本地文件加载数据集，或者从HDFS文件系统、HBase、Cassandra、Amazon S3等外部数据源中加载数据集。Spark可以支持文本文件、SequenceFile文件（Hadoop提供的 SequenceFile是一个由二进制序列化过的key/value的字节流组成的文本存储文件）和其他符合Hadoop...

2019-05-10 19:44:06 1180

原创 RDD Programming Guide

Overview 在较高的层次上，每个Spark应用程序都包含一个驱动程序，该程序运行用户的主要功能并在群集上执行各种并行操作。 Spark提供的主要抽象是弹性分布式数据集（RDD），它是跨群集节点分区的元素的集合，可以并行操作。 RDD是通过从Hadoop文件系统（或任何其他Hadoop支持的文件系统）中的文件或驱动程序中的现有Scala集合开始并对其进行转换而创建的。用户还可以...

2019-05-04 07:46:51 166

原创常用的排序算法（Python代码）

快速排序（quickSort）快排的思想：首先任意选取一个数据（通常选用数组的第一个数）作为关键数据，然后将所有比它小的数都放到它前面，所有比它大的数都放到它后面，这个过程称为一趟快速排序。然后对所取的那个数据作为分界点，对左右两边的字数串进行递归上一步。一趟快速排序的算法是：1）设置两个变量i、j，排序开始的时候：i=0，j=N-1；2）以第一个数组元素作为关键数据，...

2019-04-11 19:46:17 81

原创 C++知识点总结

C和C++内存模型C分为四个区：堆，栈，静态全局变量区，常量区C++内存分为5个区域（堆栈全常代）：堆 heap ：由new分配的内存块，其释放编译器不去管，由我们程序自己控制（一个new对应一个delete）。如果程序员没有释放掉，在程序结束时OS会自动回收。涉及的问题：“缓冲区溢出”、“内存泄露”栈 stack ：是那些编译器在需要时分配，在不需要时自动清除的存储...

2019-03-27 10:04:56 153

原创计算机网络知识复习

TCP/IP三次握手我们假设A和B是通信的双方。我理解的握手实际上就是通信，发一次信息就是进行一次握手。第一次握手： A给B打电话说，你可以听到我说话吗？第二次握手： B收到了A的信息，然后对A说：我可以听得到你说话啊，你能听得到我说话吗？第三次握手： A收到了B的信息，然后说可以的，我要给你发信息啦！　　在三次握手之后，A和B都能确定这么一件事：我说的话，你能听到；你...

2019-03-27 08:44:54 99

原创操作系统基础知识复习

进程和线程的区别进程：是执行中一段程序，即一旦程序被载入到内存中并准备执行，它就是一个进程。进程是表示资源分配的的基本概念，又是调度运行的基本单位，是系统中的并发执行的单位。线程：单个进程中执行中每个任务就是一个线程。线程是进程中执行运算的最小单位。关系：线程只能属于一个进程，但是一个进程可以拥有多个线程。多线程处理就是允许一个进程中在同一时刻执行多个任务...

2019-03-26 20:51:07 165

原创 Semi-Supervised Learning with Generative Adversarial Networks

如果你曾经听过或研究过深度学习，你可能听说过MNIST，SVHN，ImageNet，PascalVoc等。每个数据集都有一个共同点。它们由数百和数千个标记数据组成。换句话说，这些集合由（x，y）对组成，其中（x）是原始数据，例如图像矩阵，（y）是数据点（x）代表什么的描述。以MNIST数据集为例。 60,000个数据点中的每一个都是（输入，标签）对。输入是2...

2019-03-22 13:10:09 653

原创机器学习面试知识点总结第三弹

LASSO回归，Ridge回归，Elastic Net（1）范数正则化（Ridge Regression，岭回归）（2）范数正则化（LASSO）（3）正则项正则项结合（Elastic Net）而范数正则化比范数更易获得“稀疏”解，即范数正则化求得的会有更少的非零分量，所以范数可用于特征选择，而范数在参数规则化时经常用到决策树What？从根...

2019-03-22 08:11:07 312

原创深度学习面试知识点总结第一弹

什么是卷积？对图像（不同的数据窗口数据）和滤波矩阵（一组固定的权重：因为每个神经元的多个权重固定，所以又可以看做一个恒定的滤波器filter）做内积（逐个元素相乘再求和）的操作就是所谓的『卷积』操作，也是卷积神经网络的名字来源。作用：一个卷积核的滤波可以用来提取特定的特征。池化层作用卷积网络也经常使用池化层来缩减模型的大小，提高计算速度，同时提高所提取特征的鲁棒性。...

2019-03-21 18:27:34 597

原创机器学习面试知识点总结第二弹

生成模型与判别模型监督学习模型可分为生成模型与判别模型判别模型直接学习决策函数或者条件概率分布直观来说，判别模型学习的是类别之间的最优分隔面，反映的是不同类数据之间的差异生成模型学习的是联合概率分布P(X,Y)，然后根据条件概率公式计算P(Y|X) 判别模型 K 近邻、感知机（神经网络）、决策树、逻辑斯蒂回归、最大熵模型、SVM、提升方法、条件随机场 ...

2019-03-21 14:47:38 393

原创机器学习面试知识点总结第一弹

偏差与方差what？偏差与方差分别是用于衡量一个模型泛化能力的误差的两个方面；模型的偏差，指的是模型预测的期望值与真实值之间的差；模型的方差，指的是模型预测的期望值和预测值之间的差的平方和；偏差用于描述模型的拟合能力；方差用于描述模型的稳定性why？偏差通常是做了错误的假设，或者模型的复杂度不够（欠拟合）。方差通常是模型的复杂度太高（过拟合）造...

2019-03-19 09:47:26 906

原创推荐系统

推荐系统应用广告推荐豆瓣电影推荐电商推荐日常生活中的2种简单的推荐方法第一种就是非定制的推荐系统；第二种就是定制化的推荐系统。非定制的推荐系统简单来说就是，什么最热卖，什么关注的人多，就推荐你什么。定制化推荐系统协同过滤：（基于统计的算法）目的：找相似，可以是找相似的人，也可以找相似的东西。比如，我们找到相似的一群人，我们就能用其中一些人喜欢的...

2019-03-17 19:16:07 133

原创 Transposed convolution arithmetic

对转置卷积的需求通常源于希望使用在正常卷积的相反方向上进行的变换，即，从具有某种卷积输出形状的某种东西到具有其输入形状的某些东西，同时保持与所述卷积兼容的连接模式。例如，可以使用这种变换作为卷积自动编码器的解码层或将特征映射投影到更高维空间。再一次，卷积情况比完全连接的情况复杂得多，后者只需要使用其形状已被转置的权重矩阵。然而，由于每个卷积都归结为矩阵运算的有...

2018-11-19 21:29:51 265

原创 Semi-Supervised Learning with Generative Adversarial Networks 论文笔记

Abstract我们通过强制鉴别器网络输出类标签，将生成对抗网络（GAN）扩展到半监督上下文。我们在数据集上训练生成模型G和鉴别器D，其中输入属于N类之一。在训练时，D用于预测输入所属的N + 1个类中的哪一个，其中添加额外的类以对应于G的输出。我们表明该方法可用于创建更具数据效率的分类器。并且它允许生成比常规GAN更高质量的样本。 1. Introduction ...

2018-11-07 08:33:48 1634

原创 numpy.all()

numpy.all(a, axis=None, out=None, keepdims=<no value>)[source]测试沿给定轴的所有数组元素是否都计算为True。Parameters: a : array_like(输入可转换为数组的数组或对象。)axis : None or int or tuple of ints, optional沿轴或轴执行逻辑...

2018-11-06 14:00:18 12375

原创 Dihedral angle prediction using generative adversarial networks 阅读笔记

使用生成对抗网络的二面角预测Abstract 为蛋白质结构预测及其他应用开发了几种二面角预测方法。然而，预测角度的分布与实际角度的分布不同。为了解决这个问题，我们采用了生成对抗网络（GAN），它在图像生成任务中显示了有希望的结果。生成性对抗网络由两个受过对抗训练的网络组成：鉴别器和发生器。训练鉴别器以区分来自数据集的样本和生成的样本，同时训练生成器以生成实际样本。...

2018-11-05 18:40:10 273

PSSP Based on Data Partition and Semi-Random Subspace Method 论文笔记

Protein Secondary Structure Prediction Based on Data Partition and Semi-Random Subspace MethodAbstract 蛋白质二级结构预测是生物信息学中最重要和最具挑战性的问题之一。机器学习技术已被应用于解决该问题，并在该研究领域取得了实质性成功。然而，在理论极限方面仍有改进的空间。在本文中，...

2018-11-03 09:43:05 731

原创 Protein Secondary Structure Prediction Using Cascaded Convolutional and Recurrent Neural Networks笔记

利用级联卷积和递归神经网络预测蛋白质二级结构 Abstract 蛋白质二级结构预测是生物信息学中的一个重要问题。受近期深度神经网络成功的启发，在本文中，我们提出了一种端到端深度网络，可以从集成的局部和全局上下文特征预测蛋白质二级结构。我们的深层架构利用具有不同内核大小的卷积神经网络来提取多尺度的本地上下文特征。此外，考虑到氨基酸序列中存在的长程依赖性，我们建立了一个双向神经...

2018-10-02 11:04:04 1594 1

原创 ProteinSecondaryStructure-CNN阅读笔记

Introduction蛋白质是通过肽键连接在一起的氨基酸链。由于氨基酸的许多可能组合和链沿着链的多个位置的旋转，这种链的许多构象是可能的。正是这些构象变化导致蛋白质三维结构的差异。蛋白质结构预测是生物信息学和理论化学追求的最重要目标之一; 它在医学（例如，药物设计）和生物技术（例如，设计新型酶）中非常重要。[1]当我们谈论蛋白质的结构时，提到了四种不同的结构水平：初级，次级，...

2018-09-27 21:31:19 1731 1

原创 Protein Secondary Structure Prediction with Long Short Term Memory Networks论文阅读笔记

Abstract 从氨基酸序列预测蛋白质二级结构是经典的生物信息学问题。常用方法使用前馈神经网络或SVM与滑动窗口相结合，因为这些模型不能自然地处理顺序数据。递归神经网络是前馈神经网络的概括，其自然地处理顺序数据。我们使用具有长短期记忆细胞的双向递归神经网络来预测二级结构并使用CB513数据集进行评估。在二级结构8级问题上，我们报告的性能（0.674）比现有技术（0.6...

2018-09-27 11:02:17 481

原创 On the prediction of DNA-binding proteins only from primary sequences: A deep learning approach论文笔记

Abstract DNA结合蛋白在真核和原核蛋白质组的选择性剪接，RNA编辑，甲基化和许多其他生物学功能中发挥关键作用。从一级氨基酸序列预测这些蛋白质的功能正成为基因组功能注释的主要挑战之一。传统的预测方法通常致力于从序列中提取生理化学特征，但忽略图案之间的基序信息和位置信息。同时，训练数据中的小规模数据量和大噪声导致预测的准确性和可靠性较低。在本文中，我们提出了一种基于深度学...

2018-09-14 20:36:03 1084

原创 EL_PSSM-RT论文阅读笔记

原文：EL_PSSM-RT: DNA-binding residue prediction by integrating ensemble learning with PSSM Relation Transformation摘要 Background:DNA结合残基的预测对于理解蛋白质-DNA识别机制是重要的。已经提出了许多用于预测的计算方法，但是它们中的大多数没有考虑残差之间的进...

2018-09-14 20:26:25 1130 2

原创详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

最大似然估计（Maximum likelihood estimation, 简称MLE）和最大后验概率估计（Maximum a posteriori estimation, 简称MAP）是很常用的两种参数估计方法，如果不理解这两种方法的思路，很容易弄混它们。下文将详细说明MLE和MAP的思路与区别。贝叶斯公式就是在描述，你有多大把握能相信一件证据？（how much you can trust...

2018-09-14 10:06:05 1363

原创贝叶斯及其相关基础知识

历史背景贝叶斯全名为托马斯·贝叶斯(Thomas Bayes，1701-1761),是一位与牛顿同时代的牧师，是一位业余数学家，平时就思考些有关上帝的事情，当然，统计学家都认为概率这个东西就是上帝在掷骰子。当时贝叶斯发现了古典统计学当中的一些缺点，从而提出了自己的“贝叶斯统计学”，但贝叶斯统计当中由于引入了一个主观因素（先验概率，下文会介绍），一点都不被当时的人认可。直到20...

2018-09-13 14:37:28 2724

原创李宏毅GAN课堂笔记 part4：Theory behind GAN

假设我们要生成的图片是二次元人脸的话，他有一个固定的图案是他的分布，这个分布在蓝色的这个区域生成的图片被判别器识别的准确率是高的。我们的目的是找出这个分布。Maximum Likelihood Estimation 我们提供一个分布由这个θ控制。比如高斯分布，θ指平均值和方差从Pdata（X）中抽样中m个data 把这些几率全部乘起来是我们要maximu...

2018-09-12 19:23:24 590

原创李宏毅GAN课堂笔记 part2：Conditional Generation by GAN

Conditional GAN 原始的GAN只是输入一个噪声z，而条件GAN还加入了条件c。而相应的辨别器也要相应的改变，它同样接受两个参数。而它要做的事情有两件，第一是判断生成的图片是否是真实的。第二是判断c和x是否匹配。 ...

2018-09-12 13:46:45 445

原创李宏毅GAN课堂笔记 part1：introduction

Basic Idea of GAN 随便给定一个向量就可以生成一个图片。假设第一向量元素对应的是头发长度，假设倒数第二个元素对应的是头发蓝色的程度，值越大，越蓝。Generator v.s. Discriminatorfix这里意为固定这个生成模型的输入是一个向量，输出是一个数值。中间是一个大的网络，中间其中一个隐藏层的数值是中...

2018-09-11 20:34:54 824

原创 Bayesian 6 days 学习笔记---day1.part2

贝叶斯推理Problem 1SettingThe Dark MarkI stays with 20% probability if the makes dies I stays with 100% probability if the maker is still aliveThe Dark Lord survived his attack on Harry Potter...

2018-09-11 14:39:03 140

原创 Bayesian 6 days 学习笔记---day1.part1

贝叶斯框架条件和边缘分布条件分布 = 联合/边缘产品规则：任何联合分布都可以表示为一维条件分布的乘积求和规则：通过整合不必要的变量，可以从联合分布中获得任何边际分布Arbitrary conditioning 任意调节假设我们有三组变量p（X，Y，Z）的联合分布我们观察Z并且对预测X感兴趣 Y的值是未知的，与我们无关如何从p...

2018-09-11 10:45:17 154

原创 100-Days-Of-ML-Code知识点积累 day1,day2

使用sklearn-preprocessing Imputer进行数据预处理在scikit-learn的模型中都是假设输入的数据是数值型的，并且都是有意义的，如果有缺失数据是通过NAN，或者空值表示的话，就无法识别与计算了。要弥补缺失值，可以使用均值，中位数，众数等等。Imputer这个类可以实现。from sklearn.preprocessing import Impu...

2018-09-10 14:49:43 290

原创 Bayesian Deep Learning 学习笔记

为什么要学习贝叶斯深度学习？它是一个模型构建和理解泛化的强大框架不确定性表示（对决策至关重要）更好的点估计从概率论的角度来看，神经网络不那么神秘。缺点可以在计算上难以处理（但不一定是）可能涉及很多运动部件（但不必）。我们如何构建学习和概括的模型？概率方法我们可以在模型中明确说明噪音。对于i.i.d，通常需要ε（x）= N（0;σ2）。 ...

2018-09-10 14:49:19 2241

原创马尔可夫链

1.什么是随机过程顾名思义，它其实就是个过程，比如今天下雨，那么明天下不下雨呢？后天下不下雨呢？从今天下雨到明天不下雨再到后天下雨，这就是个过程。那么怎么预测N天后到底下不下雨呢？这其实是可以利用公式进行计算的，随机过程就是这样一个工具，把整个过程进行量化处理，用公式就可以推导出来N天后的天气状况，下雨的概率是多少，不下雨的概率是多少。说白了，随机过程就是一些统计模型，利用这...

2018-09-10 14:48:21 3866 2

原创 Bayesian Generative Adversarial Networks in Tensorflow DOC

Introduction在贝叶斯GAN中，我们提出了生成器和鉴别器权重的条件后验，并通过随机梯度哈密顿蒙特卡罗将这些后验边缘化。贝叶斯方法对GAN的关键属性包括：（1）对半监督学习问题的准确预测; （3）响应对抗性反馈的推理的推理性表述; （4）避免模式崩溃; （5）数据的多个互补的生成和判别模型的表示，形成概率集合。我们说明了生成器参数的多模式后验。这...

2018-09-09 09:55:13 424

空空如也

空空如也