一碗竹叶青-CSDN博客

原创教你复现顶会论文网络结构（二）--DCN模型网络结构(tensorflow2.0)

参考文章：1、https://blog.csdn.net/roguesir/article/details/797632042、论文：https://arxiv.org/abs/1708.051233、https://www.jianshu.com/p/77719fc252fa4、https://zhuanlan.zhihu.com/p/55234968 edition=yidianzix...

2020-01-07 16:50:13 1785

原创最小二乘法多项式曲线拟合原理与实现（数学公式详细推导，代码方面详细注释）

最小二乘法概念：最小二乘法（又称最小平方法）是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法推导过程给定函数y=f(x)，在点x1x1x_1,x2x2x_2, x3x3x_3 ,,,,xnxnx_n 处的函数值y1y1y_1，y2y2y_2，y3y3y_3，，，...

2018-09-03 15:19:03 52084 2

原创 Libsvm格式存储

参考：https://www.it-swarm.net/zh/apache-spark/%E5%A6%82%E4%BD%95%E4%BB%8Edataframe%E5%87%86%E5%A4%87%E6%95%B0%E6%8D%AE%E5%88%B0libsvm%E6%A0%BC%E5%BC%8F%EF%BC%9F/828617867/两个步骤：1.将特征转换为LabeledPoint数据X，或者将采用vectorAssembler将特征转化为稀疏矩阵2.然后以libsvm格式保存X.// 采用v

2020-11-04 20:20:40 472

原创 RDD、Dataframe和Dataset

RDDRDD是spark建立的核心API，是一种由容错机制的特殊集合。提供分布式low-level API来操作，包括transformation和actionRDD 缺点：无论是集群间的通信，还是IO操作都需要对对象的结构和数据进行序列化和反序列化。频繁地创建和销毁对象，势必会增加 GC 开销。Dataset/DataframeDataFrame也是不可变分布式弹性数据集，DataFrame 的设计是为了让大数据处理起来更容易，并做了 higher-level 的抽象。DataFrame提

2020-11-04 20:20:17 441

原创 One hot 编码

参考：https://my.oschina.net/kyo4321/blog/2050708https://cloud.tencent.com/developer/article/1021585对于one hot编码首先需要将数据数值化，然后把将数值进行onehot所有的操作都是对dataframe来进行的，参看如何RDD转换dataframe数值化import org.apache.spark.ml.feature.{OneHotEncoder, StringIndexer, VectorAs

2020-11-04 20:20:06 536

原创构建Spark ML推荐模型

将用户数据（u.user）复制到HDFS上hadoop fs -put u.user /home/hadoop/data/查看是否复制成功：hadoop fs -ls /home/hadoop/data/读取数据import org.apache.spark.ml.evaluation.RegressionEvaluatorimport org.apache . spark.ml.recommendation.ALSimport org.apache.spark.sql.SparkSessi

2020-11-04 20:18:15 488 1

原创构建Spark ML分类模型

数据预处理scala> import org.apache.spark.ml.feature.LabeledPointscala> import org.apache.spark.ml.linalg.Vectorsval data = records.map {r =>val trimmed = r.map （一 .replaceAll （”＼””，””｝）val label= trimmed(r.size - l).torntval features = trimmed.

2020-11-04 20:17:03 212

原创混淆矩阵(Confusion Matrix)

参考：https://blog.csdn.net/joeland209/article/details/71078935混淆矩阵是除了ROC曲线和AUC之外的另一个判断分类好坏程度的方法。以下有几个概念需要先说明：TP(True Positive): 真实为0，预测也为0FN(False Negative): 真实为0，预测为1FP(False Positive): 真实为1，预测为0TN(True Negative): 真实为1，预测也为1分类模型总体判断的准确率(包括了所有class的总

2020-11-04 20:16:13 597 1

原创评估指标与api

对2分类或者多分类模型的评估：// Precision by thresholdval precision = metrics.precisionByThresholdprecision.foreach { case (t, p) => println(s"Threshold: $t, Precision: $p")}// Recall by thresholdval recall = metrics.recallByThresholdrecall.foreach { case

2020-11-04 20:15:16 376

原创查看dataframe的缺失值以及选取每个类目下前topN的数据

// 显示每个类目的缺失值data.select(data.columns.map(c => sum(col(c).isNull.cast("int")).alias(c)): _*).showdata.groupBy("cate1").count().show(30)println(data.count()) //3046def SortedCate(df:DataFrame): DataFrame ={// 循环类别赋值label val N = 10 val window =

2020-11-04 20:13:54 321 1

原创 spark dataframe列归一化以及读写

val embddding_seq_data = ss.read.option("sep","\t") .csv("hdfs://ss-sng-dc-v2/stage/outface/SNG/g_sng_weishi_ws_growth/tdw_parkerlin/qq/feature/embedding/bert_embedding/"+endTime_1 +"/") .toDF("feedid","embedding")embddding_seq_data以tfrecode形式写入hdfs

2020-11-04 20:12:40 1477

原创 addFile函数addJar函数

https://www.iteblog.com/archives/1704.html我们在使用Spark的时候有时候需要将一些数据分发到计算节点中。一种方法是将这些文件上传到HDFS上，然后计算节点从HDFS上获取这些数据。当然我们也可以使用addFile函数来分发这些文件。addFile方法可以接收本地文件（或者HDFS上的文件），甚至是文件夹（如果是文件夹，必须是HDFS路径），然后Spark的Driver和Exector可以通过SparkFiles.get()方法来获取文件的绝对路径（Get th

2020-11-04 20:10:18 1405

原创 MLlib基本数据类型

https://www.jianshu.com/p/c6f15063d521https://blog.csdn.net/qq_33938256/article/details/52584964#%E8%A1%8C%E7%9F%A9%E9%98%B5rowmatrix简介：MLLib提供了一系列基本数据类型以支持底层的机器学习算法。主要的数据类型包括标注点Labeled Point）、本地向量（Local Vector）、本地矩阵、分布式矩阵等。单机模式存储的本地向量与矩阵，以及基于一个或多个RDD的

2020-10-30 13:20:38 1158

原创删除hdfs路径数据和添加hdfs数据

删去hdfs的数据和添加hdffs数据val conf = new SparkConf().setMaster("yarn-cluster")conf.set("spark.sql.shuffle.partitions", shufflePart)val hadoopConf: Configuration = sc.hadoopConfigurationvar sngfs = new Path("hdfs://ss-sng-dc-v2/").getFileSystem(hadoopConf)va

2020-10-30 13:12:53 507 1

原创创建键值对RDD

键值对RDD的创建第一种创建方式：从文件中加载（map函数实现）scala> val lines = sc.textFile("file:///usr/local/spark/mycode/pairrdd/word.txt")lines: org.apache.spark.rdd.RDD[String] = file:///usr/local/spark/mycode/pairrdd/word.txt MapPartitionsRDD[1] at textFile at <conso

2020-10-30 13:07:25 744

原创 broadcast广播变量常见问题

https://www.jianshu.com/p/3bd18acd2f7f广播变量定义：broadcast 就是将数据从一个节点发送到其他各个节点上去。这样的场景很多，比如 driver 上有一张表，其他节点上运行的 task 需要 lookup 这张表，那么 driver 可以先把这张表 copy 到这些节点，这样 task 就可以在本地查表了。问题1：为什么只能broadcast只读的变量?就涉及一致性的问题，如果变量可以被更新，那么一旦变量被某个节点更新，其他节点要不要一块更新？如果多个节点

2020-10-30 12:06:29 909

原创 Spark的共享变量（广播变量和累加器）

https://blog.csdn.net/happyAnger6/article/details/46576831https://www.cnblogs.com/xlturing/p/6652945.html共享变量：我们知道Spark是多机器集群部署的，分为Driver/Master/Worker，Master负责资源调度，Worker是不同的运算节点，由Master统一调度，而Driver是我们提交Spark程序的节点，并且所有的reduce类型的操作都会汇总到Driver节点进行整合。节点之间

2020-10-30 12:05:12 412

原创 Spark的rdd创建与操作

RDD创建RDD可以通过两种方式创建：第一种：读取一个外部数据集，从本地加载数据集或者从HDFS文件系统，HBASE，Cassandra，AmazonS3等外部数据源中加载数据集。第二种：调用SparkContext的parmallelize方法，在Driver中一个已经存在的集合（数组）上创建。从文件系统中加载数据创建RDDSpark采用textfile（）方法从文件系统中加载数据创建RDD，该方法把文件的URL作为参数，这个URL可以是本地文件系统的地址，或者是分布式文件系统HDFS的地址，或

2020-10-30 12:03:48 2596

原创 SparkRDD简介

Spark的核心是建立在统一的抽象RDD之上，使得Spark的各个组件可以无缝进行集成，在同一个应用程序中完成大数据计算任务。RDD的设计理念源自AMP实验室发表的论文《Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing》。1.RDD设计背景在实际应用中，存在许多迭代式算法（比如机器学习、图算法等）和交互式数据挖掘工具，这些应用场景的共同之处是，不同计算阶段之间会重用中间

2020-10-30 12:01:28 252

原创分布式框架

大数据处理引擎：mapreduce，sparktensorflow、MPI分布式计算模型：提出一种计算的方法，通过这种计算方法，就能够解决大量数据的分布式计算问题。区别在于提出的分布式计算模型不同，Mapreduce：一个基本的map-reduce式计算模型。Spark：定义一套RDD模型，本质上是一系列map、reduce组成的一个DAG图。RDD模型比较适合哪种没有相互关联的数据并行任务。tensorflow计算模型是一张图，但是需要为图中的每个节点和做出定义。适合处理特定类型的而计算（神经

2020-10-30 11:59:47 307

原创 Spark简介及运行架构

Spark学习网站建议从学习Spark官方文档开始：Quick Start - Spark 2.1.1 DocumentationSpark Programming Guide这里有对应的中译版：Spark官方文档－快速入门Spark官方文档-Spark编程指南spark中文文档参考链接：http://dblab.xmu.edu.cn/blog/972-2/基础概念重要概念：RDD：是弹性分布式数据集（Resilient Distributed Dataset）简称。分布式内存的一个

2020-10-30 11:51:24 773

原创教你复现顶会论文网络结构（五）--NFM模型网络结构

参考文章：TensorFlow 2.0 implementation of NFMReference:Neural Factorization Machines for Sparse Predictive Analyticshttps://www.jianshu.com/p/4e65723ee632概述该系列主要是复现一些经典的网络结构与顶会论文的网络结构，我一开始看论文，以为看到网络...

2020-02-08 19:42:38 993

原创教你复现顶会论文网络结构（四）--PNN模型网络结构

参考文章：TensorFlow 2.0 implementation of Product-based Neural Network[1]Reference:[1] Product-based Neural Networks for User ResponsePrediction,Yanru Qu, Han Cai, Kan Ren, Weinan Zhang, Yong Yu, Ying...

2020-01-07 17:25:12 1432

原创教你复现顶会论文网络结构（三）--Wide&Deep模型网络结构

参考文章：1、https://github.com/brightnesss/deep-cross/blob/master/CDNet.py2、https://zhuanlan.zhihu.com/p/92279796概述该系列主要是复现一些经典的网络结构与顶会论文的网络结构，我一开始看论文，以为看到网络结构和了解结构原理后，就完全学到了这篇论文的精髓，谁知，等到自己想要用这个网络结构时，无...

2020-01-07 17:14:57 898

原创教你复现顶会论文网络结构（一）--DCN模型网络结构（Keras）

参考文章：1、https://blog.csdn.net/roguesir/article/details/797632042、论文：https://arxiv.org/abs/1708.051233、https://www.jianshu.com/p/77719fc252fa4、https://zhuanlan.zhihu.com/p/55234968 edition=yidianzix...

2019-12-03 20:26:15 2798 6

转载从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史

转载自：https://zhuanlan.zhihu.com/p/49271699张俊林 Bert最近很火，应该是最近最火爆的AI进展，网上的评价很高，那么Bert值得这么高的评价吗？我个人判断是值得。那为什么会有这么高的评价呢？是因为它有重大的理论或者模型创新吗？其实并没有，从模型创新角度看一般，创新不算大。但是架不住效果太好了，基本刷新了很多NLP的任务的最好性能，有些任务还被刷爆了，这个...

2019-03-16 15:55:05 354

转载《A Neural Probabilistic Language Model》

其实我阅读完原文后，本来想翻译出来，但是网上有很多这样的译文，我就没有翻译，直接转载了。转载地址：https://blog.csdn.net/u014568072/article/details/78557837?locationNum=4&fps=1Yoshua Bengio 2003Abstract统计语言模型建模（Statistical Language Modeling）目...

2018-12-20 21:01:13 1563

转载国外程序员整理的机器学习算法库和软件包

[Machine Learning] 国外程序员整理的机器学习资源大全阅读目录　　本文汇编了一些机器学习领域的框架、库以及软件（按编程语言排序）。1. C++1.1 计算机视觉CCV —基于C语言/提供缓存/核心的机器视觉库，新颖的机器视觉库OpenCV—它提供C++, C, Python, Java 以及 MATLAB接口，并...

2018-12-20 20:26:34 474

转载 [Algorithm & NLP] 文本深度表示模型——word2vec&doc2vec词向量模型

[Algorithm & NLP] 文本深度表示模型——word2vec&doc2vec词向量模型阅读目录1. 词向量2.Distributed representation词向量表示3.词向量模型4.word2vec算法思想5.doc2vec算法思想6.参考内容　　深度学习掀开了机器学习的新篇章，目前深度学习应用于图像和语音已经产生了突...

2018-12-20 20:14:27 419

原创采用Keras 自编码器（SAE）实现Mnist的多分类问题

堆栈式自编码器的原理请看：https://blog.csdn.net/hjimce/article/details/49106869这里直接进行代码的实现代码结构分为：1.mnist的读取，2.数据预处理，3.模型的训练过程。1.mnist的读取''' 采用keras的堆栈式Autoencode 将mnist的图片进行分类'''import numpy as npimport os...

2018-12-20 17:30:54 7316 9

翻译神经网络训练中，Epoch、Batch Size和iteration的名词理解

在我们进行深度学习时，会设置epoch，Batch size、iteration等参数，这些参数的概念与理解至关重要。这里详细解释下。参考链接：http://www.dataguru.cn/article-12193-1.htmlhttps://medium.com/towards-data-science/epoch-vs-iterations-vs-batch-size-4dfb9c7c...

2018-12-18 19:53:16 564

原创 Linux安装 Anaconda、Tensorflow-GPU、Keras、pytorch-gpu过程

linux安装anaconda一定要进入anaconda官网查看对应的你想安装的python3.x and linux的版本–即sh文件例如（Anaconda3-5.2.0-Linux-x86_64.sh）。然后利用 bash Anaconda3-5.2.0-Linux-x86_64.sh 即可。最后或有一个选择：Do you wish the installer to initializ...

2018-12-10 15:31:26 608

原创基于深度学习的处理文本数据的四步法（Embed,encode,attend,predict:）

转载来自：https://explosion.ai/blog/deep-learning-formula-nlp在过去六个月，一种强大的新型神经网络工具出现应用于自然语言处理。新型的方法可以总结为四步骤：嵌入（embed），编码（encode），加入（attend），预测（predict）。本篇文章解释了新方法的各个部分。并在最近的两个系统中展示如何使用。当人们思考机器学习的改善时，他们通常会...

2018-11-11 20:51:31 899

原创基于移动最小二乘法的曲线曲面拟合(python语言实现)

1.移动最小二乘法上篇论文采用最小二乘法来拟合曲线，如果离散数据量比较大，形状复杂，还需要分段拟合和平滑化，因此采用移动最小二乘法进行曲线拟合，可以克服上面的缺点，还具有一些优点；移动最小二乘法与传统的最小二乘法相比，有两个比较大的改进：（ 1）拟合函数的建立不同。这种方法建立拟合函数不是采用传统的多项式或其它函数，而是由一个系数向量 a(x)和基函数 p(x)构成，这里 a(...

2018-09-04 11:29:31 22154 10

原创基于MATLAB的模拟退火算法求解TSP问题

旅行商问题，即TSP问题（Travelling Salesman Problem）又译为旅行推销员问题、货郎担问题，是数学领域中著名问题之一。假设有一个旅行商人要拜访n个城市，他必须选择所要走的路径，路径的限制是每个城市只能拜访一次，而且最后要回到原来出发的城市。路径的选择目标是要求得的路径路程为所有路径之中的最小值。来自百度百科解释这里写链接内容先写上模拟退火算法主干：function [SA

2017-07-23 19:33:29 6686 5

原创基于MATLAB利用模拟退火算法解决费马点问题

数据来源：安徽各市的坐标。安徽内一点到所有各市的距离最短。代码实现了各点的连线组成不交叉的普通多边形。实现图形的显示，将各市连接。代码如下 %费马点问题求解 %给n个点，找出一个点，使这个点到n点的距离之和最小，也就是求费马点。 function SA=SA_fun(T,delta,x0,y0,eps) % FPI=fopen('axis.txt','rt'); % NELEM=f

2017-07-16 20:17:11 3751 4

原创基于MATLAB的有限元法求解EIT技术的正问题

有限元法（Finite Element Method）是基于!近代计算机的快速发展而发展起来的一种近似数值方法, 用来解决力学，数学中的带有特定边界条件的偏微分方程问题（PDE）。而这些偏微分方程是工程实践中常见的固体力学和流体力学问题的基础。有限元和计算机发展共同构成了现代计算力学（Computational Mechanics）的基础。有限元法的核心思想是“数值近似”和“离散化”，所以它在历

2017-07-16 16:20:28 3726 2

原创 python再计算无限循环小数的循环节

循环节：如果无限小数的小数点后，从某一位起向右进行到某一位止的一节数字循环出现，首尾衔接，称这种小数为循环小数，这一节数字称为循环节。 #寻找1000以内的n，使得1/n的循环小数节长度最长#问题化简，首先不是素数的数的循环节长度必定可以由其他数组成比如14可以由2*7组成，#那么1/14与1/7有相同的循环节长度，所以只需找出所有的素数不（包括2与5），求的他们的循环节长度

2017-05-01 23:02:00 8673

转载生成器对象的send方法

转载

2017-05-01 22:36:47 1442

原创 python计算完美数据的和

问题： A perfect number is a number for which the sum of its proper divisors is exactly equal to the number. For example, the sum of the proper divisors of 28 would be 1 + 2 + 4 + 7 + 14 = 28, which mean

2017-04-30 23:19:05 843

模拟退火算法计算费马点

电阻抗成像技术

有限元法工具代码

网格划分工具

空空如也