自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(40)
  • 资源 (3)
  • 收藏
  • 关注

原创 神经网络机器翻译(一)

文章目录序言Encoder-Decoder模型原理应用范围局限性注意力机制(Attention)模型原理原理图示自注意力 (self-attention)原理介绍图示讲解keras代码简单实现多头attention(Multi-head attention)attention优缺点位置嵌入(Position Embedding)序言​ 机器翻译是指使用机器将一种语言自动翻译成另外一种语言的技术,传统的机器翻译一般是采取基于规则或者基于词组统计规律的方法。与传统方法不同的是,神经网络机器翻译(NMT)将源

2021-05-25 17:53:08 3537

原创 Apk反编译

文章目录一、工具下载二、编译Apk1、解压apk文件2、编译成dex文件3、编译成jar文件一、工具下载\qquad首先官网下载 apktool.bat,直接右键保存,命名为 apktool.bat;其次下载apktool_2.4.0.jar,下载较缓慢,建议使用外网下载,将下载的jar重命名为apktool.jar,将apktool.bat 和apktool.jar 放入同一目录下,并设置环...

2020-02-27 17:12:19 278

原创 Docker使用总结

一、Docker容器1、创建容器create 新建容器docker@default:~$ docker create -it ubuntuc62f0a2b48e65831cf6b0875826a043f1e301603bb83733b9cea8852b848a015docker@default:~$ docker ps -aCONTAINER ID IMAGE ...

2019-03-25 14:44:04 343

原创 数据库导入导出文件

1、mysql导入-- 将文件private.txt内容导出到PRIVATE表,前提建好该表-- 该文件无表头,且放在data下load data infile 'private.txt' into table PRIVATE fields terminated by '#' lines terminated by '\r\n';导出-- 将表内容导出,带表头,文件位置在da...

2019-02-21 10:33:16 242

原创 Spark学习总结

文章目录1、spark读取文件1、spark读取文件\qquadspark读取文件,可以读取格式csv、json、parquet等,有2中读取方式。// 1种,指定formatval data = spark.read.format("csv").load("xx.csv")// 2种,使用封装的val data

2019-02-15 17:09:02 242

原创 Scala学习总结

文章目录1、可变长参数1、可变长参数\qquadScala 允许你指明函数的最后一个参数可以是重复的,允许向函数传入可变长度参数列表。\qquad想要标注一个重复参数,在参数的类型之后放一个星号。例如:def echo(args: String*): Unit = for (arg <- args) print(arg)\qquad这样定义, echo 可以被零个至多个 Stri...

2019-02-15 17:01:50 194

转载 凹凸性和Jensen不等式

参照:凹凸性:https://blog.csdn.net/hqh131360239/article/details/82751791Jensen不等式:https://blog.csdn.net/phoenix198425/article/details/783885971、凹凸性1.1、同济大学高等数学定义\qquad凹凸函数在同济大学高等数学中的定义符合人们的思维定式。在国际上的...

2019-02-15 12:06:19 6693

转载 Lasso回归算法: 坐标轴下降法与最小角回归法小结

原文链接\qquad线程回归的L2正则化-Ridge回归,以及线程回归的L1正则化-Lasso回归。1. 回顾线性回归\qquad首先我们简要回归下线性回归的一般形式:hθ(x)=Xθh_\theta(x)=X\thetahθ​(x)=Xθ\qquad需要极小化的损失函数是: J(θ)=12(Xθ−Y)T(Xθ−Y)J(\theta) = \dfrac{1}{2}(X\theta-Y)^T...

2019-02-15 09:39:17 1074 2

转载 线性判别分析LDA原理总结

原文链接\qquadLDA(Linear Discriminant Analysis)在模式识别领域(比如人脸识别,舰艇识别等图形图像识别领域)中有非常广泛的应用,有必要将其自然语言处理领域的LDA区别开来,在自然语言处理领域, LDA是隐含狄利克雷分布(Latent Dirichlet Allocation,简称LDA),他是一种处理文档的主题模型。我们本文只讨论线性判别分析,因此后面所有的L...

2019-02-02 21:19:28 315

转载 sklearn学习主成分分析(PCA)

原文链接1. sklearn PCA类介绍\qquad在scikit-learn中,与PCA相关的类都在sklearn.decomposition包中。最常用的PCA类就是sklearn.decomposition.PCA。\qquad除了PCA类以外,最常用的PCA相关类还有KernelPCA类,在原理篇我们也讲到了,它主要用于非线性数据的降维,需要用到核技巧。因此在使用的时候需要选择合适...

2019-02-01 14:57:09 7170 2

转载 主成分分析(PCA)原理总结

原文链接1. PCA的思想PCA顾名思义,就是找出数据里最主要的方面,用数据里最主要的方面来代替原始数据。具体的,假如我们的数据集是n维的,共有mmm个数据(x(1),x(2),…,x(m))(x^{(1)},x^{(2)},\dots,x^{(m)})(x(1),x(2),…,x(m))。我们希望将这mmm个数据的维度从nnn维降到n′n'n′维,希望这mmm个n′n&am...

2019-01-31 21:02:17 693

转载 Xpath进阶总结

指定元素的轴操作1、child 选取当前节点的所有子元素\qquad /child::AAA 等价于/AAA2、parent 选取当前节点的父节点\qquad //DDD/parent::* 获取所有节点DDD的父节点3、descendant 选取当前节点的所有后代元素(子、孙等)\qquad/descendant::* 选择文档根元素的所有后代,即所有的元素被选择4、ances...

2019-01-31 11:57:41 512

转载 sklearn学习谱聚类

原文链接1. sklearn谱聚类概述\qquad在sklearn的类库中,sklearn.cluster.SpectralClustering实现了基于Ncut的谱聚类,没有实现基于RatioCut的切图聚类。同时,对于相似矩阵的建立,也只是实现了基于K邻近法和全连接法的方式,没有基于ϵ\epsilonϵ-邻近法的相似矩阵。最后一步的聚类方法则提供了两种,K-Means算法和 discret...

2019-01-30 12:11:05 5042 2

转载 谱聚类原理总结

原文链接\qquad谱聚类(spectral clustering)是广泛使用的聚类算法,比起传统的K-Means算法,谱聚类对数据分布的适应性更强,聚类效果也很优秀,同时聚类的计算量也小很多,更加难能可贵的是实现起来也不复杂。在处理实际的聚类问题时,个人认为谱聚类是应该首先考虑的几种算法之一。下面我们就对谱聚类的算法原理做一个总结。1. 谱聚类概述\qquad谱聚类是从图论中演化出来的算法...

2019-01-30 11:36:08 678

转载 sklearn学习DBSCAN聚类

原文链接1. sklearn中的DBSCAN类\qquad在sklearn中,DBSCAN算法(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)类为sklearn.cluster.DBSCAN。要熟练的掌握用DBSCAN类来聚类,除了对DBSCAN本身的原理有较深的理解以外,还要对最近邻的思想...

2019-01-29 16:46:31 3733

转载 sklearn学习BIRCH聚类

原文链接1. sklearn之BIRCH类\qquad在sklearn中,BIRCH类实现了基于特征树CF Tree的聚类。因此要使用BIRCH来聚类,关键是对CF Tree结构参数的处理。\qquad在CF Tree中,几个关键的参数为内部节点的最大CF数B,叶子节点的最大CF数L, 叶节点每个CF的最大样本半径阈值T。这三个参数定了,CF Tree的结构也基本确定了,最后的聚类效果也基本...

2019-01-29 15:22:20 3204

转载 sklearn和pandas线性回归

原文链接1. 获取数据,定义问题数据的介绍在这: http://archive.ics.uci.edu/ml/datasets/Combined+Cycle+Power+Plant数据的下载地址在这:http://archive.ics.uci.edu/ml/machine-learning-databases/00294/\qquad里面是一个循环发电场的数据,共有9568个样本数据,每...

2019-01-29 12:00:51 5586

转载 sklearn K-Means使用小结

原文链接\qquad本文我们就来讨论用sklearn来学习K-Means聚类。重点讲述如何选择合适的k值。1、K-Means类概述\qquad在sklearn中,包括两个K-Means的算法,一个是传统的K-Means算法,对应的类是KMeans。另一个是基于采样的Mini Batch K-Means算法,对应的类是MiniBatchKMeans。一般来说,使用K-Means的算法调参是比较...

2019-01-28 16:23:56 56622 7

转载 维比特算法与分词实例

\qquad对于一个有很多分词可能的长句子,我们当然可以用暴力方法去计算出所有的分词可能的概率,再找出最优分词方法。但是用维特比算法可以大大简化求出最优分词的时间。\qquad大家一般知道维特比算法是用于隐式马尔科夫模型HMM解码算法的,但是它是一个通用的求序列最短路径的方法,不光可以用于HMM,也可以用于其他的序列最短路径算法,比如最优分词。\qquad维特比算法采用的是动态规划来解决这个最...

2019-01-23 11:45:43 707

原创 Matplotlib总结

文章目录1、简单图形绘制2、figure的简单使用3、坐标轴相关3.1、设置坐标轴刻度3.2、设置坐标轴位置4、绘制点和注解5、绘制散点图6、绘制等高线图7、绘制Image8、绘制多图8.1、subplot多图8.2、figure多图8.3、figure图的嵌套9、3D绘制1、简单图形绘制import numpy as npimport matplotlib.pyplot as plt...

2019-01-17 10:26:56 323

转载 sklearn K近邻法类库使用小结

原文链接 1. scikit-learn 中KNN相关的类库概述        在scikit-learn 中,与近邻法这一大类相关的类库都在sklearn.neighbors包之中。KNN分类树的类是KNeighborsClassifier,KNN回归树的类是KNeighborsRegressor。除此之外,还有KNN的扩展,即限定半径最近邻分类树的类RadiusNeighborsC...

2019-01-16 15:27:33 839

原创 windows下各种安装版本查询

Python版本查询python -Vpip 版本查询pip -Vpython安装包版本查询pip listcuda版本查询nvcc --version

2019-01-07 14:12:24 843

原创 Tensorflow总结

1、查看device信息import osimport tensorflow as tf# os.environ['TF_CPP_MIN_LOG_LEVEL'] = '3'a = tf.constant([1., 2., 3.], shape=[3], name='a')b = tf.constant([1., 2., 3.], shape=[3], name='b')c = a...

2019-01-02 20:04:51 164

转载 sklearn随机森林调参小结

原文链接\qquad本文就从实践的角度对RF做一个总结。重点讲述scikit-learn中RF的调参注意事项,以及和GBDT调参的异同点。1. sklearn随机森林类库概述\qquad在sklearn中,RF的分类类是RandomForestClassifier,回归类是RandomForestRegressor。当然RF的变种Extra Trees也有, 分类类ExtraTreesCla...

2018-12-29 16:10:12 1527

转载 sklearn梯度提升树(GBDT)调参小结

原文链接1. sklearn GBDT类库概述\qquad在sklearn中,GradientBoostingClassifier为GBDT的分类类, 而GradientBoostingRegressor为GBDT的回归类。两者的参数类型完全相同,当然有些参数比如损失函数loss的可选择项并不相同。这些参数中,类似于Adaboost,我们把重要参数分为两类,第一类是Boosting框架的重要参...

2018-12-29 15:05:29 8145 2

转载 sklearn决策树类库使用小结

原文链接1. sklearn决策树类库介绍\qquadsklearn决策树算法类库内部实现是使用了调优过的CART树算法,既可以做分类,又可以做回归。分类决策树的类对应的是DecisionTreeClassifier,而回归决策树的类对应的是DecisionTreeRegressor。两者的参数定义几乎完全相同,但是意义不全相同。下面就对DecisionTreeClassifier和Decis...

2018-12-29 13:57:20 1617

转载 奇异值分解(SVD)原理小结

原文链接  奇异值分解(Singular Value Decomposition,以下简称SVD)是在机器学习领域广泛应用的算法,它不光可以用于降维算法中的特征分解,还可以用于推荐系统,以及自然语言处理等领域。是很多机器学习算法的基石。本文就对SVD的原理做一个总结,并讨论在在PCA降维算法中是如何运用运用SVD的。1、回顾特征值和特征向量  我们首先回顾下特征值和特征向量的定义如下:Ax...

2018-12-26 21:11:29 559

转载 集成学习原理小结

原文链接  集成学习(ensemble learning)可以说是现在非常火爆的机器学习方法了。它本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。也就是我们常说的“博采众长”。集成学习可以用于分类问题集成,回归问题集成,特征选取集成,异常点检测集成等等,可以说所有的机器学习领域都可以看到集成学习的身影。本文就对集成学习的原理做一个总结。1、集成学习概述  从下...

2018-12-26 14:22:12 185 2

转载 梯度下降(Gradient Descent)

  在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法。这里就对梯度下降法做一个完整的总结。1、梯度  在微积分里面,对多元函数的参数求∂偏导数,把求得的各个参数的偏导数以向量的形式写出来,就是梯度。比如函数f(x,y)f(x,y)f(x,y), 分别对x,yx,yx,y求偏导数,求得的梯度向量就是(...

2018-12-24 17:01:54 202

原创 Linux总结

一、文件内容按行去重$ cat file1hellonihaohelloniniworld  去重,使用shell的数组概念,shell的数组index可以为字符串,实现一种字典的概念。$ awk '!a[$0]++ {print $0}' file1hellonihaoworld二、screen用法常用命令screen -S session 创建一个会话(...

2018-11-30 12:09:22 146

原创 Python总结

一、迭代器与列表generatorgen = (i for i in range(5))print(2 in gen) # Trueprint(1 in gen) # False  迭代器迭代到元素后,之前的元素会丢弃。list/tuplegen = (i for i in range(5))gl = list(gen)print(2 in gl) # Truepri...

2018-11-30 10:18:46 142

转载 OneHotEncoder独热编码和 LabelEncoder标签编码

一、机器学习中的特征类别:连续型特征和离散型特征1、连续型特征  获取的原始特征,必须对每一特征分别进行归一化,比如,特征A的取值范围是[-1000,1000],特征B的取值范围是[-1,1].如果使用logistic回归,w1∗x1+w2∗x2w_1*x_1+w_2*x_2w1​∗x1​+w2​∗x2​,因为x1x_1x1​的取值太大了,所以x2x_2x2​基本起不了作用,所以,必须进行特...

2018-11-29 18:14:28 609

转载 AdaBoost实例

试用AdaBoost算法学习一个强分类器训练数据集序号12345678910x0123456789y111-1-1-1111-1解:初始化数据权值分布D1=(w1,1,w1,2,…,w1,10)w1,i=0.1,i=1,2,…,10D_1=(w_{1,1},w_{1,2},\dots,w_{1,10...

2018-11-20 17:17:16 818

转载 多项式核函数相关推导

定义 设x=(x1,x2,…,xn)T∈Rnx=(x_1,x_2,\dots,x_n)^T \in R^nx=(x1​,x2​,…,xn​)T∈Rn,则称乘积xj1xj2…xjdx_{j_1}x_{j_2}\dots x_{j_d}xj1​​xj2​​…xjd​​为xxx的一个ddd阶多项式,其中j1,j2,…,jd∈{1,2,…,n}j_1,j_2,\dots,j_d \in \{1,2,\d...

2018-11-20 15:48:10 9592

转载 线性支持向量机-合页损失函数(Hinge Loss)

  线性支持向量机学习有另一种解释,那就是最小化以下目标函数:∑i=1N[1−yi(w⋅xi+b)]++λ∣∣w∣∣2\sum_{i=1}^N[1-y_i(w · x_i+b)]_+ + \lambda ||w||^2i=1∑N​[1−yi​(w⋅xi​+b)]+​+λ∣∣w∣∣2目标函数得第一项是经验损失函数或者经验风险,函数L(y(w⋅x+b))=[1−y(w⋅x+b)]+L(y(w·...

2018-11-18 14:15:24 2516 1

原创 朴素贝叶斯原理

(1)全概率公式  如果事件组B1,B2,…B_1,B_2,\dotsB1​,B2​,…满足:B1,B2,…B_1,B_2,\dotsB1​,B2​,…两两互斥,即Bi∩Bj=∅B_i ∩ B_j = \emptysetBi​∩Bj​=∅ ,i≠ji≠ji̸​=j, i,j=1,2,…i,j=1,2,\dotsi,j=1,2,…,且P(Bi)>0,i=1,2,…P(B_i)&a...

2018-11-18 13:20:13 212

转载 伯努利模型的极大似然估计和贝叶斯估计

  定义随机变量A为一次伯努利试验的结果,AAA的取值为[0,1],概率分布为P(A)P(A)P(A):P(A=1)=θP(A=1)=\thetaP(A=1)=θ,P(A=0)=1−θP(A=0)=1-\thetaP(A=0)=1−θ下面分别使用极大似然估计和贝叶斯估计来估计θ\thetaθ。极大似然估计L(θ)=∏i=1nP(Ai)=θk(1−θ)n−kL(\theta) = \prod...

2018-11-10 09:49:26 7382

原创 Numpy总结

1、numpy array的排序和元素交换现有一组数据data,每一个数据可以看成x1,x2x_{1},x_{2}x1​,x2​ data = [[2, 3], [5, 4], [9, 6], [4, 7], [8, 1], [7, 2]]现需要按照x1x_{1}x1​从小到大排序数组。如果是array,则排序,交换元素下标即可。 for i in range(len(dat...

2018-11-09 23:42:27 858

转载 拉格朗日对偶性

  在约束最优化问题中,常常利用拉格朗日对偶性将原始问题转换为对偶问题,通过解对偶问题而得到原始问题的解。该方法应用在许多统计学习方法中,例如,最大熵模型与支持向量机。1、原始问题  假设f(x)f(x)f(x),ci(x)c_{i}(x)ci​(x),hj(x)h_{j}(x)hj​(x)是定义在RnR^nRn上的连续可微函数。考虑约束最优化问题(C.1)min⁡x∈Rnf(x)\min...

2018-11-07 17:18:02 444

转载 提升树实例

提升树(实例)已知训练数据如上表所示,x的取值范围为区间[0.5,10.5],y的取值范围为区间[5.0,10.0],学习这个回归问题的提升树模型,考虑只用树桩作为基函数。解  既然是一个提升树, fM(x)=∑m=1MT(x;θm)f_M (x)=\sum_{m=1}^{M}T(x;θ_m )fM​(x)=∑m=1M​T(x;θm​),那么第一步需要求f1(x)f_1 (x)f1​(x...

2018-11-07 15:18:33 517

知网机器翻译-中英文语料.zip

知网机器翻译-中英文语料.zip

2021-05-14

知网机器翻译-中英文语料.zip

知网机器翻译-中英文语料.zip

2021-05-14

Termux.7z 安卓相关apk

Termux.7z 安卓相关apk

2021-03-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除