自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 资源 (5)
  • 收藏
  • 关注

原创 gensim之word2vec用法总结

初始化模型>>> from gensim.test.utils import common_texts, get_tmpfile>>> from gensim.models import Word2Vec>>>>>> path = get_tmpfile("word2vec.model")>>>&...

2019-08-08 20:37:41 459

原创 word2ve的python源码解析

#!/usr/bin/env python# -*- coding: utf-8 -*-## Author: Shiva Manne <[email protected]># Copyright (C) 2018 RaRe Technologies s.r.o.# Licensed under the GNU LGPL v2.1 - http://www.gnu.org...

2019-08-08 20:37:32 1571 1

原创 马尔科夫链

2019-07-17 13:46:09 151

原创 词向量

2019-07-11 15:07:50 108

原创 LINE 方法部分

本文有很多问题,LINE方法暂时略过1. 一阶相似性联合概率:一阶相似性实质上是一个sigmoid function函数,向量越接近,点积越大,联合概率越大(有点硬扯)经验概率:两点之间边的权值越大,经验概率越大为了保持一阶相似性,一个简单的办法是最小化两者之间的相对熵因此一阶相似度只能用于无向图,不能用于有向图2. 二阶相似性二阶相似度假设共享邻居的顶点彼此相似。每个顶点扮演两...

2019-07-09 20:50:55 529

原创 基于边采样的网络表示模型

1. 整体过程2.sigmoid 函数求导过程

2019-07-07 13:08:13 344

原创 负采样方法

1. 负采样方法高频词被采样的概率大,低频词被采样的概率小2. CBOW模型在这里插入图片描述3. Skip-Gram模型

2019-07-05 23:15:51 2669

原创 skip-gram模型

将上下文的概率乘起来即可CBOW的图,拿来看一下结合上面的图,得到的公式求得还是当前值的向量

2019-07-05 22:13:56 106

原创 机器学习典型算法包含的步骤

训练过程:已知输入,根据输出,运用梯度下降等方法调整参数。验证过程(使用过程):最后的效果是根据输入和中间参数,得到输出,使输出最接近现实情况词向量:训练过程的中间参数,即中间产物,类似的词其词向量也应该类似。一般方法:...

2019-07-04 21:00:18 276

原创 Word2Vec模型精简和本质

1. 模型框架CBOW模型,上下文预测中心词,目标函数为Skip-gram模型,中心词预测上下文,目标函数为2. Hierarchical SoftmaxCBOW模型

2019-07-04 20:11:40 116

原创 信息论基础知识

信息论基础知识1. 熵2. 联合熵和条件熵3. 互信息4. 相对熵5. 交叉熵

2019-07-03 22:05:26 155

原创 概率论基本概念

统计模型预备知识概率

2019-07-03 14:04:06 102

原创 网络节点表征学习

采样策略

2019-07-02 16:24:46 477

原创 Graph embedding techniques, applications, and performance: A survey 论文阅读和理解

1. 图嵌入的分类:1.1基于矩阵分解1.2基于随机游走1.2.1 DeepWalk:通过随机游走保留了高阶属性https://blog.csdn.net/qq_32294855/article/details/890060781.2.2 Node2Vec:深度优先和宽度优先1.2.3暂缓1.2.4暂缓1.3基于深度学习2. 图嵌入的应用网络压缩、可视化、节点聚类、链路预测、节...

2019-05-21 09:40:48 293

原创 图论的一些基本概念

图论的一些基本概念Edge betweenness: 具体而言,首先对每一对节点寻找最短路径,得到一个n * (n-1)/2的最短路径集合S,然后看这个集合中有多少最短路径需要通过某个具体的节点。一个边的edge betweenness就是S集合里的最短路径包含该边的个数。定义了边的betweenness后,就可以通过迭代算法来进行社区划分了。具体做法是先计算所有边的betweenness,然...

2019-05-17 21:05:56 799

转载 最小生成树算法

最小生成树1. 图的几个概念定义连通图: 在无向图中,若任意两个顶点viv_ivi​和vjv_jvj​都有路径相通,则称该无向图为连通图。强连通图: 在有向图中,若任意两个顶点viv_ivi​和vjv_jvj​都有路径相通,则称该有向图为强连通图。连通网: 在连通图中,若图的边具有一定的意义,每一条边都对应着一个数,称为权;权代表着连接两个顶点的代价,称这种连通图叫做连通网。...

2019-05-17 19:44:34 220

原创 矩阵及矩阵运算

1. 矩阵的转置把矩阵A的行和列互相交换所产生的矩阵称为A的转置矩阵,这一过程称为矩阵的转置。矩阵的转置满足以下运算律:2. 单位矩阵单位矩阵是方阵,对角线值为1,其余值为0单位阵的性质是任何矩阵乘上它都等于原矩阵,即AI=A,IA=A。3. 逆矩阵设有一个方阵A,若存在一个方阵B,使得AB=I或BA=I,则称B是A的逆矩阵,用A-1表示(事实上若AB=I,则必有BA=I)。...

2019-05-11 21:41:11 1057

转载 奇异值分解(SVD)原理与在降维中的应用

奇异值分解(Singular Value Decomposition,以下简称SVD)是在机器学习领域广泛应用的算法,它不光可以用于降维算法中的特征分解,还可以用于推荐系统,以及自然语言处理等领域。是很多机器学习算法的基石。本文就对SVD的原理做一个总结,并讨论在在PCA降维算法中是如何运用运用SVD的。1. 回顾特征值和特征向量我们首先回顾下特征值和特征向量的定义如下:Ax=λxAx=\l...

2019-05-11 21:32:22 109

转载 特征值和特征向量的几何意义

奇异值分解(Singular Value Decomposition,以下简称SVD)是在机器学习领域广泛应用的算法,它不光可以用于降维算法中的特征分解,还可以用于推荐系统,以及自然语言处理等领域。是很多机器学习算法的基石。本文就对SVD的原理做一个总结,并讨论在在PCA降维算法中是如何运用运用SVD的。1. 回顾特征值和特征向量我们首先回顾下特征值和特征向量的定义如下:Ax=λxAx=\l...

2019-05-11 20:54:15 14651 6

转载 社区检测算法一二三

用一句话来概括马尔科夫链的话,那就是某一时刻状态转移的概率只依赖于它的前一个状态。举个简单的例子,假如每天的天气是一个状态的话,那个今天是不是晴天只依赖于昨天的天气,而和前天的天气没有任何关系。这么说可能有些不严谨,但是这样做可以大大简化模型的复杂度,因此马尔科夫链在很多时间序列模型中得到广泛的应用,比如循环神经网络RNN,隐式马尔科夫模型HMM等。假设状态序列为⋯...xt−2,xt−1,xt...

2019-05-09 12:38:02 1758

转载 聚类算法之层次聚类

一. 层次聚类层次聚类(hierarchical clustering)是一种基于原型的聚类算法,试图在不同层次对数据集进行划分,从而形成树形的聚类结构。数据集的划分可采用"自底向上"的聚合策略,也可以采用"自顶向下"的分拆策略。层次聚类算法的优势在于,可以通过绘制树状图(dendrogram),帮助我们使用可视化的方式来解释聚类结果。层次聚类的另一个优点就是,它不需要事先指定簇的数量。二. ...

2019-05-02 21:41:54 2228

原创 metapath2vec:异构网络的可扩展表示学习

1. metapath2vec++算法输入:一个异构信息网络G=(V,E,T),一个元路径模式P,每个节点随机游走w次,每次随机游走的步长为l,嵌入向量维度d,领域大小k输出:嵌入向量X∈R∣V∣×dX\in\R^{|V|\times d}X∈R∣V∣×d初始化向量空间X...

2019-04-08 16:08:07 3069

原创 基于异构网络节点表示的推荐系统(HERec)

论文链接:https://arxiv.org/abs/1711.10730本文中,我们提出一种新奇的基于异构网络节点表示学习的异构网络推荐方法:HERec。为了学习网络节点的表示,我们设计了一种基于Meta-Path的随机游走方法来生成许多有意义的节点序列。1. 基于元路径的随机游走采样方法如图3所示,为了学习用户和项目的有效表示,我们只考虑起始类型为用户类型或项目类型的元路径。这样,我们就...

2019-04-07 19:14:35 5566 3

原创 线性回归

线性回归

2019-04-06 23:01:10 101

原创 逻辑回归

1. 线性回归和逻辑回归线性回归模型可用于回归学习,但若要做的是分类任务该怎么办?答案很简单,只需找一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来,这是最理想的是“单位阶跃函数”。单调阶跃函数但是,阶跃函数不连续,在数学上不好处理,于是我们希望找到能在一定程度上近似单位阶跃函数的“替代函数”,并希望它单调可微,sigmoid函数就是这样的一个函数。单调阶跃函数与...

2019-04-06 23:00:22 86

原创 模型评估与选择

1. 欠拟合和过拟合2. 回归模型的评估3. 分类模型的评估分类结果混淆矩阵混淆举证表中,T和F代表预测结果的真假,P和N代表预测成正例还是反例,根据这张表可以求出很多性能评估指标准确率(Accuracy):分类正确的样本数占样本总数的比例错误率(Error rate):分类错误的样本数占样本总数的比例精确率、查准率(Precision):被预测为正例的样本中实际为正例的比例...

2019-04-06 22:30:28 132

原创 向量和矩阵

Andrew Ng机器学习算法入门((五):矩阵和向量

2019-04-06 20:56:51 200

原创 第一次在github上提交代码

第一次在github上提交代码

2019-04-06 20:51:46 130

原创 归一化数值

K-近邻算法样本数据处理不同取值范围的特征值时,我们通常采用的方法是将数值归一化,如将取值范围处理为0到1或者-1到1之间,处理的公式如下:newValue=(oldValue-min)/(max-min)...

2019-04-06 17:03:23 1235

原创 DeepWalk算法

DeepWalk算法

2019-04-03 22:04:00 2781

原创 K-近邻算法(KNN)

K-近邻算法的一般流程计算已知类别数据集中的点与当前点之间的距离;按照距离递增次序排序;选取与当前点距离最小的k个值(k-近邻);确定前k个点所在类别的出现频率;返回前k个点出现频率最高的类别作为当前点的预测分类。...

2019-04-02 12:18:28 125

word2vec源代码

可以用来训练词向量,做文本分类的word2vec源代码,C++版本

2019-03-24

R2018b_win64 安装包和安装教程

R2018b_win64 安装包和安装教程,亲测有效,文件太大,附百度云

2019-02-24

中文维基百科语料库(截止2019年2月20日)

这是最新的中文维基百科语料库(截至2019年2月20日),可以用来训练word2vec词向量,做文本分类,官网特别难下载,因此分享出来

2019-02-24

基于Three.js的3D书店(带书店后台,有商品查询,销售,购物车等功能,有完整开发文档)

使用Three.js做的一个3D书架,书架可以放大,缩小,拖拽和旋转,书架上有书,点击书本可以查看书本信息,并跳转到购买页面,想学习Three.js的朋友可以下载参考。将项目导入到eclipse里面,就可以运行了,内含完整开发文档。

2018-12-28

Three.js做的一个3D书店项目

使用Three.js做的一个3D书架,书架可以放大,缩小,拖拽和旋转,书架上有书,点击书本可以查看书本信息,想学Three.js的朋友可以下载参考,直接运行"3D书店.html"文件就可以了。

2018-10-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除