sigmeta-CSDN博客

原创【C#】Dictionary的TryGetValue和Contains效率对比：TryGetValue效率并不一定更好

但是，我在某些情况下发现TryGetValue方法速度非常慢，经过测试发现TryGetValue的速度仅为判断再取值的十分之一。这是因为当Dictionary的value是复杂对象的时候，TryGetValue会将value转换为Object再转换为对应类型，这个装箱拆箱过程对复杂对象耗时很高。而字典索引的方法会直接将value的对象返回。

2021-11-25 15:10:05 1928 3

原创 windows下编译的fasttext 0.9.2 命令行工具

基于官方代码在windows下编译的命令行工具，fasttext 0.9.2最新release版本，支持autotune等功能。csdn下载链接：fasttext0.9.2windowscommandlinetools-机器学习文档类资源-CSDN下载或到github免费下载，大家可以帮忙star一下~：sigmeta/fastText-Windows: fastText built for Windows (github.com)...

2020-12-30 17:11:32 344

原创 How to Fine-Tune BERT for Text Classification 论文笔记

How to Fine-Tune BERT for Text Classification 论文笔记论文地址：How to Fine-Tune BERT for Text Classification？BERT在NLP任务中效果十分优秀，这篇文章对于BERT在文本分类的应用上做了非常丰富的实验，介绍了一些调参以及改进的经验，进一步挖掘BERT的潜力。实验主要在8个被广泛研究的数据集上进行，在...

2019-11-13 23:35:07 3021

原创使用NLTK对英文文章分句，避免缩略词标点符号干扰

对于英文语料，我们想要获得句子时，可以通过正则或者NLTK工具切分。例如，NLTK：from nltk.tokenize import sent_tokenizedocument=''sentences=sent_tokenize(document)NLTK会根据“.?!”等符号切分。但是当句子中含有缩写词时，可能会产生错误的切分：sent_tokenize('fight a...

2019-06-10 11:45:43 3784

原创 Wikipedia corpus英文语料处理，获得原文

我们在预训练word vector或其他预训练任务时，需要大量的语料数据，Wikipedia开放了英文语料，大约11G：wiki英文语料下载链接该语料库是.bz2格式，但是不能直接解压，需要使用工具处理，我们介绍两种常用的处理工具，gensim和wikiextractor。Gensimgensim提供了处理工具，但是只能够获得文章的词列表，丢失了段落句子以及标点符号。from ...

2019-06-10 11:34:28 4398

原创 windows下安装使用fairseq框架

最近，Facebook又开源了fairseq的PyTorch版：fairseq-py。大家从最新的文章可以看出，用CNN来做机器翻译，达到顶尖的准确率，速度则是RNN的9倍；同时，Facebook还开放了seq2seq学习工具包fairseq的Torch源代码和已训练的系统。fairseq-py优势与介绍fairseq-py包含论文中描述的全卷积模型，支持在一台机器上用多GPU进行训练，以...

2019-01-07 21:56:36 13210 13

原创 QANet 论文笔记

QANet 论文笔记文章目录QANet 论文笔记摘要简介模型1. Input embedding layerword embeddingcharacter embedding2. Embedding encoder layer(1) position encoding(2) depthwise separable convolutions(3) self-attention(4) feed-f...

2018-12-04 17:54:47 1390

原创 Attention Is All You Need 论文笔记

Attention Is All You Need 论文笔记本文主要讲述Self-Attention机制+Transformer模型。自己看过论文与其他人文章的总结，不是对论文的完整翻译。论文原文翻译可看这篇，翻译质量还可以。关于Attention的讲解可以看这里：Visualizing A Neural Machine Translation Model (Mechanics of S...

2018-12-04 16:26:35 3369 1

原创 unable to execute 'x86_64-conda_cos6-linux-gnu-gcc': No such file or directory 问题解决

在linux上（python3）安装fasttext时，遇到以下编译错误：unable to execute 'x86_64-conda_cos6-linux-gnu-gcc': No such file or directoryerror: command 'x86_64-conda_cos6-linux-gnu-gcc' failed with exit status 1找不到编译...

2018-11-21 17:48:04 11018 1

转载分解机(Factorization Machines)推荐算法原理

　　对于分解机(Factorization Machines，FM)推荐算法原理，本来想自己单独写一篇的。但是看到peghoty写的FM不光简单易懂，而且排版也非常好，因此转载过来，自己就不再单独写FM了。...

2018-11-19 16:41:22 508

转载最大熵马尔可夫模型MEMM

信息与熵熵(信息熵)可被认为是系统不确定性(混乱程度)的度量，熵值越大，系统越混乱。一个X值域为{x1, ..., xn}的随机变量的熵值H定义为：其中，E 代表了期望函数，而I(X)是X的信息量（又称为信息本体），熵是随机变量的各值域概率及其信息量积的加总。信息量是用来衡量单一随机变量发生时所含信息的的多寡，随机变量发生的概率越低，其发生后消除系统不确定性的能力越强，所含信...

2018-11-02 11:25:17 2202

转载 RNN & LSTM 网络结构及应用

http://www.jianshu.com/p/f3bde26febed/这篇是 The Unreasonable Effectiveness of Recurrent Neural Networks（by Andrej Karpathy，Stanford的Li Fei-Fei的博士生。文章介绍了RNN和LSTM，同时也介绍了RNN取得的各种瞩目成果。）以及Understanding LS...

2018-10-09 23:30:35 2257

转载使用SimHash进行海量文本去重

阅读目录1. SimHash与传统hash函数的区别2. SimHash算法思想3. SimHash流程实现4. SimHash签名距离计算5. SimHash存储和索引6. SimHash存储和索引7. 参考内容　　在之前的两篇博文分别介绍了常用的hash方法（[Data Structure & Algorithm] Hash那点事儿）以及局部敏感hash算法（[Algorithm] 局...

2018-07-13 15:12:14 1394

原创【数据挖掘学习笔记】12.复杂类型数据挖掘

一、模糊挖掘不确定性挖掘方法——模糊挖掘– 基于概率– 基于粗糙集– 基于模糊集模糊集的表示（1）Zadeh表示法（2）序偶表示法（3）向量表示法模糊集运算定义：设A，B是论域U的两个模糊子集，定义模糊统计法模糊矩阵定义：设 R = (rij)m×n ,0 ≤ rij ≤ 1,称R为模糊矩阵。当 rij 只取0或1时，称R为布尔（Boole）矩阵。当模糊方阵 R = (rij)n×n的对角线上的元...

2018-07-07 03:20:01 2863

原创 scrapy爬虫遇到相对路径问题的解决

网站中很多链接用的是相对路径，直接爬取会产生报错：Missing scheme in request url: ../index.html在python3中使用from urllib.parse import urljoin>>> urljoin("http://www.asite.com/folder/currentpage.html", "anotherpage.html")...

2018-07-06 14:36:42 3364

原创【数据挖掘学习笔记】11.频繁模式挖掘进阶与关联规则

一、关联规则关联规则步骤：– 1、找个这个“同一项集”，相同的项集对应的规则有相同的支持度，找到支持度≥minsup的项集– 2、计算项集中所有规则的置信度，找到置信度≥minconf的规则由频繁项集生成关联规则生成关联规则– 给定频繁项集L，找出L的所有非空子集f，满足f →L–f 的置信度不小于最小置信度阈值– 如果{A,B,C,D}是频繁项集，则候选的规则有： ABC →D, ABD ...

2018-07-04 00:05:59 2375

原创【数据挖掘学习笔记】10.频繁模式挖掘基础

一、基本概念频繁模式– 频繁的出现在数据集中的模式– 项集、子序或者子结构动机– 发现数据中蕴含的事物的内在规律• 项(Item) – 最小的处理单位 – 例如：Bread, Milk• 事务(Transaction) – 由事务号和项集组成 – 例如：<1, {Bread,Milk}> • 事务数据库 – 由多个事务组成• 项集(Itemset)– 一个或多个项(item) 的集 ...

2018-07-03 23:44:18 6773

转载随机森林算法学习(RandomForest)

随机森林算法学习最近在做kaggle的时候，发现随机森林这个算法在分类问题上效果十分的好，大多数情况下效果远要比svm，log回归，knn等算法效果好。因此想琢磨琢磨这个算法的原理。要学随机森林，首先先简单介绍一下集成学习方法和决策树算法。下文仅对该两种方法做简单介绍（具体学习推荐看统计学习方法的第5章和第8章）。Bagging和Boosting的概念与区别该部分主要学习自：http://www....

2018-06-26 13:03:03 1615

原创【数据挖掘学习笔记】9.高级聚类方法

一、密度聚类基于距离的方法– 适用于发现类球状的簇– 在交通等领域，非球状簇的挖掘效果较差– 判断是否“聚”的依据不仅仅有距离基于密度进行聚类的思想– 发现“密”的区域– 判断密的区域的连通性– DBSCAN（Density-Based Spatial Clustering of Applications with Noise）适应噪声的基于密度的空间聚类应用对象的ε-临域– 对象为中心、以ε为半...

2018-06-23 23:16:13 1977

原创【数据挖掘学习笔记】8.聚类基础

一、聚类分析基础什么是聚类分析？– 将物理或抽象对象的集合分成相似的对象类的过程称为聚类– 在同一个聚类（簇）中的对象彼此相似– 不同簇中的对象则相异聚类分析的作用– 分类是人类认知世界的重要活动– 区分不同类依靠类的特征– 找出标识分类的特征，以区分不同的类典型应用– Marketing– 图像处理– 生物学– 交通– 房地产分析内容主题识别群体发现行为模式无指导的学习：没有预定义的类编号...

2018-06-23 21:30:55 1356

原创【数据挖掘学习笔记】7.决策树与链接分析

一、决策树决策树– 提供了一种展示类似在什么条件下会得到什么值这类规则的方法– 每个分支要么是一个新的决策节点，要么是树的叶子。在沿着决策树从上到下遍历的过程中，在每个节点都会遇到一个问题，对每个节点上问题的不同回答导致不同的分支，最后会到达一个叶子节点。这个过程就是利用决策树进行分类的过程，利用几个变量（每个变量对应一个问题）来判断所属的类别（最后每个叶子会对应一个类别）。– 功能强大且相当被受...

2018-06-23 18:31:58 1108

原创【数据挖掘学习笔记】6.随机过程与抽样

一、马尔可夫模型马尔可夫性(无后效性)– 过程（或系统）“将来”的情况与“过去”的情况无关，则成过程（或系统）具有马尔可夫性– 具有马尔可夫性的随机过程称为马尔可夫过程– 时间和状态都是离散的马尔可夫过程称为马尔可夫链转移概率称条件概率为马氏链在时刻m处于状态ai条件下,在时刻m+n转移到状态aj的转移概率。说明: 转移概率具有特点由转移概率组成的矩阵称为马氏链的转移概率矩阵.此矩阵的每一行元素之...

2018-06-23 01:21:36 3463

原创【数据挖掘学习笔记】5.分类基础

一、特征与分类特征作用数据库通常存放大量的细节数据。然而，用户通常希望以简洁的描述形式观察汇总的数据集提供一类数据的概貌，或将它与对比类相区别方便、灵活地以不同的粒度和从不同的角度描述数据集概念描述方法数据泛化解析特征挖掘类比较数据泛化数据泛化是一个过程，它将大的、任务相关的数据集从较低的概念层抽象到较高的概念层解析特征– 通过属性相关性分析，过滤掉统计不相关或弱相关的属性，保留与挖掘任务最...

2018-06-22 22:34:34 1735

原创【数据挖掘学习笔记】4.数据预处理

数据预处理概述数据预处理 data preprocessing– 在主要的处理以前对数据进行的一些处理– 现实世界的数据通常无法直接进行数据挖掘，或挖掘结果差强人意，为了提高数据挖掘的质量需要对现实数据进行处理数据预处理形式其他可能需要数据预处理的情况– 数据的压缩存储– 数据形式的转换– 数据内容的筛选和梳理例子预处理方法 ★数据清理数据集成与变换数据归约离散化和概念分层1、数据清理现实世...

2018-06-22 01:10:05 4000 2

原创【数据挖掘学习笔记】3.数据仓库与数据模型

2018-06-21 21:42:35 262

原创【数据挖掘学习笔记】2.认识数据

2018-06-21 21:40:37 219

原创【数据挖掘学习笔记】1.数据挖掘概述

2018-06-21 17:02:34 254

转载 word2vec词向量训练及gensim的使用

一、什么是词向量词向量最初是用one-hot represention表征的，也就是向量中每一个元素都关联着词库中的一个单词，指定词的向量表示为：其在向量中对应的元素设置为1，其他的元素设置为0。采用这种表示无法对词向量做比较，后来就出现了分布式表征。在word2vec中就是采用分布式表征，在向量维数比较大的情况下，每一个词都可以用元素的分布式权重来表示，因此，向量的每一维都表示一个特征向量，作用...

2018-06-08 11:42:25 2458

转载 BPR [Bayesian Personalized Ranking] 算法详解

在推荐系统的实现中，几乎总会遇到从较多候选集中为用户选取特定的少数几个物品进行推荐，这本质上是一个Ranking问题。在推荐场景中用户更缺乏耐性，对推荐结果的消费也十分有限。因此，排序的好坏直接决定了用户对一个准确率为90%的推荐候选集的满意度是否真的有90%。这里我们为大家介绍一种“基于贝叶斯后验优化的个性化排序算法”：Bayesian Personalized Ranking。其本身并不优...

2018-05-30 23:37:15 6768 1

转载深度学习在推荐系统上的应用

转载于携程技术团队近些年，深度学习在语音识别、图像处理、自然语言处理等领域都取得了很大的突破与成就。相对来说，深度学习在推荐系统领域的研究与应用还处于早期阶段。　　携程在深度学习与推荐系统结合的领域也进行了相关的研究与应用，并在国际人工智能顶级会议AAAI 2017上发表了相应的研究成果《A Hybrid Collaborative Filtering Model with Deep Struct...

2018-05-22 23:21:06 2992

原创 Web开发常见安全问题及解决

Web攻击动机：恶作剧；关闭Web站点，拒绝正常服务；篡改Web网页，损害企业名誉；免费浏览收费内容；盗窃用户隐私信息，例如Email；以用户身份登录执行非法操作，从而获取暴利；以此为跳板攻击企业内网其他系统；网页挂木马，攻击访问网页的特定用户群；仿冒系统发布方，诱骗用户执行危险操作，例如用木马替换正常下载文件，要求用户汇款等1.SQL注入(SQL Injection)定义由于程序中对用户输入检查...

2018-05-22 22:36:38 17360

转载推荐系统常用评测指标

推荐系统常用评测指标预测准确度（Precision）评分预测准确度一般通过均方根误差（RMSE）和平方根误差（MAE）计算。对于测试集中的一个用户u和物品i，令评分预测：（测试集的一个用户u和物品i，令ruirui是用户u对物品的实际评分，而r^uir^ui是推荐算法给出的预测评分。假设我们用一个列表records存放用户评分数据，令records[i] = [u,i,rui,pui],其中r...

2018-05-19 20:21:56 883

转载推荐系统入门

1. 推荐系统是什么？推荐系统又叫个性化推荐系统，它会基于用户行为数据或物品数据，通过一定的算法，为用户推荐符合他需求的物品。试想一下这样的场景，我们有一个电商网站，有数千万种商品。有一天，进来了三个客人，A是电子产品发烧友，B是化妆品爱好者，C超级爱买书。他们想买一些符合自己喜好的商品，但是看到密密麻麻的分类列表，大脑有点转不过来。我们呢，想最快的把商品推到他们眼前，最好能让他们第一眼就看到自己...

2018-05-17 23:04:52 845

转载常用推荐算法

内容主要围绕电商中用到的一些推荐算法，参考了Xavier Amatriain在CMU的Machine Learning暑期学校上的讲授的内容。PS：建议阅读方式——点击图片，横屏阅读

2018-05-17 23:03:45 2562 1

转载 SVD在推荐系统中的应用详解以及算法推导

转载请声明出处http://blog.csdn.net/zhongkejingwang/article/details/43083603 前面文章SVD原理及推导已经把SVD的过程讲的很清楚了，本文介绍如何将SVD应用于推荐系统中的评分预测问题。其实也就是复现Koren在NetFlix大赛中的使用到的SVD算法以及其扩展出的RSVD、SVD++。记得刚接触SVD是在大二，那会儿跟师兄在...

2018-05-17 23:01:53 592

转载奇异值分解(SVD)原理详解及推导

转载请声明出处http://blog.csdn.net/zhongkejingwang/article/details/43053513 在网上看到有很多文章介绍SVD的，讲的也都不错，但是感觉还是有需要补充的，特别是关于矩阵和映射之间的对应关系。前段时间看了国外的一篇文章，叫A Singularly Valuable Decomposition The SVD of a Matrix，觉得...

2018-05-17 23:00:39 288

原创 apache2.4+Django2+python3.5+Windows10配置环境

我用的是wamp，自带apache2.4.23，python版本3.5，django2。apache和django的安装可参考其他教程apache路径：F:\wamp64\bin\apache\apache2.4.231.下载mod_wsgi Python的插件 http://www.lfd.uci.edu/~gohlke/pythonlibs/#mod_wsgi我的是python3.5，选择的是...

2018-04-25 16:39:25 733

转载一只兔子帮你理解 kNN

导语：商业哲学家 Jim Rohn 说过一句话，“你，就是你最常接触的五个人的平均。”那么，在分析一个人时，我们不妨观察和他最亲密的几个人。同理的，在判定一个未知事物时，可以观察离它最近的几个样本，这就是 kNN（k最近邻）的方法。作者：肖睿编辑：宏观经济算命师本文由JoinQuant量化课堂推出，本文的难度属于进阶（上），深度为 level-1简介kNN（k-Nearest Neighb...

2018-04-11 17:33:50 299

原创 numpy.linalg.svd报错memory error解决

U,Sigma,VT = la.svd(dataMat,False)我是200000*93的矩阵分解，报错memory error，是由于U和VT过大查看文档：numpy.linalg.svd(a, full_matrices=True, compute_uv=True)[source]Singular Value Decomposition.When a is a 2D array, it is...

2018-04-11 10:31:21 2404

原创使用navicat连接阿里云服务器

1.连接->MySQL，新建连接2.再常规中写入信息，连接名自己起，主机要写：localhost，密码是阿里云中数据库的密码，不是阿里云的登陆密码数据库密码在阿里云的应用详情里可以找到3.设置ssh主机是阿里云主机的ip，用户名root，密码是阿里云的登陆密码。4.点击连接测试，连接成功...

2018-04-08 13:32:46 3679 2

fasttext 0.9.2 windows command line tools

空空如也