自然语言处理-nlp-CSDN博客

原创序列模型 RNN-LSTM-GRU

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、RNN1.为什么需要RNN？2.结构及原理3.优缺点二、LSTM1.为什么需要LSTM?2.结构及原理3.优缺点三、GRU1.为什么需要GRU?2.结构及原理总结前言提示：这里可以添加本文要记录的大概内容：本文记录学习RNN-LSTM-GRU-Attention-self Attention-transformer的过程及遇到的问题。提示：以下是本篇文章正文内容，下面案例可供参考RNN一、RNN1.为什么.

2022-04-19 20:55:41 1392 1

原创 pycharm 按Ctrl+鼠标左键，不能进入类或方法

文章目录1、出现问题2、解决方法1、出现问题python 项目想要溯源，结果发现以下问题：2、解决方法1>找到项目根目录右键找到Mark Directory as 显示cancel Exclusion2>点击cancel Exclusion 问题解决...

2021-01-08 11:13:37 10095 3

原创 linux上安装anaconda3，linux上运行jupyter，并添加函数提示功能

linux上安装anaconda3，linux上运行jupyter简介Anaconda是一个用于科学计算的Python发行版，支持 Linux,Mac, Windows系统，提供了包管理与环境管理的功能，可以很方便地解决多版本python并存、切换以及各种第三方包安装问题。下载https://www.anaconda.com/distribution/点击download 直接跳到当前页面最底端下载处点击要下载的对应的系统，选择好版本直接点击下载安装找到下载好的安装包：Anaconda3

2020-09-28 15:26:21 1850

原创 windows指定python版本安装kafka

背景：在window上运行测试代码时，需要连接kafka，报错信息：AssertionError: Unrecognized configs: {'max_poll_interval_ms': 600000}经过排查是跟windows上的kafka版本冲突，需要在windows上安装其他版本kafka解决方法：先将原有的kafka卸载C:\7-9\datainterface\test\Scripts\python.exe -m pip uninstall kafka...

2020-09-18 17:41:51 935

原创 fixture ‘apply_condition‘ not found ...... use ‘pytest --fixtures [testpath]‘ for help on them

从git上拉下来的项目，运行的时候具体报错信息如下：________________________ ERROR at setup of test_label _________________________file C:\tojoy\policy_copy\test\test_label.py, line 13 def test_label(apply_condition):E fixture 'apply_condition' not found> av...

2020-09-08 16:08:51 3492 10

原创 tar.xz文件如何解压

编译python3 版本时遇到一个 tar.xz的文件要解压 tar.xz文件所在目录：【 /home/gyd/datainterface/sqlite/Python-3.6.7.tar.xz】原来XZ 是linux 最新压缩率之王，它的压缩比比较高，官网链接：https://tukaani.org/xz/官网介绍到：压缩后的文件大小 gzip 小30％，比bzip2小15％。经测试：压缩比： xz >biz2 > gzip参数解析：-z 强制执行压缩, 默...

2020-05-25 16:03:55 7326

转载基于PaddlePaddle的官方NLP模型总览

摘要：自然语言处理（NLP）主要是研究实现人与计算机之间用自然语言进行有效通信的各种理论和方法。基于神经网络的深度学习技术具有强大的表达能力、端到端解决问题的能力，因而在NLP任务的应用上越来越广泛和有效。引言自然语言处理（NLP）主要是研究实现人与计算机之间用自然语言进行有效通信的各种理论和方法。基于神经网络的深度学习技术具有强大的表达能力、端到端解决问题的能力，因而在NLP任务的应用上...

2019-09-29 11:43:19 4772

原创 pycharm每次新建项目都需要重新安装库

关于pycharm每次新建项目都需要重新安装库，解决方式：1 .新建项目后：file --> settings --> project:${你项目的名称} --> project Interpreter --> 右边有个设置选项点击 --> Add (图如下)==>Add如图：点击Existing environment 找到你之前项目...

2019-09-03 10:43:52 4100 1

转载 python的文件读写操作

本节内容：I/O操作概述文件读写实现原理与操作步骤文件打开模式 Python文件操作步骤示例 Python文件读取相关方法文件读写与字符编码一、I/O操作概述I/O在计算机中是指Input/Output，也就是Stream(流)的输入和输出。这里的输入和输出是相对于内存来说的，Input Stream（输入流）是指数据从外（磁盘、网络）流进内存，Output Stream...

2019-04-28 08:30:49 17931 2

转载 BP神经网络算法推导

从知乎上看到的一篇超好的文章，货很干，含着泪也要读完！一科普：生物上的神经元就是接收四面八方的刺激（输入），然后做出反应（输出），给它一点就灿烂。仿生嘛，于是喜欢放飞自我的某些人就提出了人工神经网络。一切的基础-->人工神经单元，看图：▌二. 通往沙漠的入口: 神经元是什么，有什么用：开始前，需要搞清楚一个很重要的问题：人工神经网络里的神经元是什么，有什么用。...

2019-04-24 09:19:29 2769

原创 numpy.random.seed()的理解

代码一是使用了随机数种子seed()，种子数28，seed( ) 是用于指定随机数生成时所用算法开始的整数值，代码中每执行一次都使用了相同的随机数种子28，所以生成的随机数是相同的。代码一：for i in range(5): np.random.seed(28) print(np.random.random())运行结果：0.72901374228911...

2019-04-23 12:30:07 19170 1

原创运行Tensorboard 1.13.1 时报错：OSError:[Errno 22] Invalid argument

在使用tensorboard可视化时出现了以下错误：解决方案：在tensorflow环境下查找...\Lib\site-packages\tensorboard路径下的manager.py 打开修改_type_timestamp的定义下的serialize，serialize=lambda dt: int(dt.strftime("%S"))如下：后重新执行命令：...

2019-04-18 12:30:06 1184 5

原创 Jupyter Notebook修改密码

1.打开Anaconda prompt2.执行jupyter notebook password3.在用户下.jupyter目录下的jupyter_notebook_config.json文件中生成一段秘钥，复制4.找到.jupyter目录下的配置文件jupyter_notebook_config.py中的c.NotebookApp.password 变量把复制的秘钥赋值给它,打开...

2019-03-14 10:21:45 4372

原创 git使用

花了一天时间了解并使用git进行版本控制，首先看了廖雪峰的git系统讲解，很是清晰易懂,可以让你系统了解git的内部结构及使用。下面是记录使用IDEA提交项目等的步骤，适合新手，没什么技术含量。Gitlab的团队开发方式：所有人初始操作：安装Git客户端打开Git Bash 设置全局变量： $ git config --global user.name "Your N...

2019-02-26 14:57:48 281

转载 svm原理详解，看完就懂（七）：松弛变量part2

接下来要说的东西其实不是松弛变量本身，但由于是为了使用松弛变量才引入的，因此放在这里也算合适，那就是惩罚因子C。回头看一眼引入了松弛变量以后的优化问题：注意其中C的位置，也可以回想一下C所起的作用（表征你有多么重视离群点，C越大越重视，越不想丢掉它们）。这个式子是以前做SVM的人写的，大家也就这么用，但没有任何规定说必须对所有的松弛变量都使用同一个惩罚因子，我们完全可以给每一个离群点都使用...

2019-02-15 17:18:36 2463

转载 svm原理详解，看完就懂（六）：松弛变量part1

现在我们已经把一个本来线性不可分的文本分类问题，通过映射到高维空间而变成了线性可分的。就像下图这样：圆形和方形的点各有成千上万个（毕竟，这就是我们训练集中文档的数量嘛，当然很大了）。现在想象我们有另一个训练集，只比原先这个训练集多了一篇文章，映射到高维空间以后（当然，也使用了相同的核函数），也就多了一个样本点，但是这个样本的位置是这样的：就是图中黄色那个点，它是方形的，...

2019-02-15 17:17:13 2703

转载 svm原理详解，看完就懂（五）：为何需要核函数

生存？还是毁灭？——哈姆雷特可分？还是不可分？——支持向量机之前一直在讨论的线性分类器,器如其名（汗，这是什么说法啊），只能对线性可分的样本做处理。如果提供的样本线性不可分，结果很简单，线性分类器的求解程序会无限循环，永远也解不出来。这必然使得它的适用范围大大缩小，而它的很多优点我们实在不原意放弃，怎么办呢？是否有某种方法，让线性不可分的数据变得线性可分呢？有！其思想说来也简单，来用一...

2019-02-15 17:15:36 2811

转载 svm原理详解，看完就懂（四）：线性分类器求解part3转化

让我再一次比较完整的重复一下我们要解决的问题：我们有属于两个类别的样本点（并不限定这些点在二维空间中）若干，如图，圆形的样本点定为正样本（连带着，我们可以把正样本所属的类叫做正类），方形的点定为负例。我们想求得这样一个线性函数（在n维空间中的线性函数）：g(x)=wx+b使得所有属于正类的点x+代入以后有g(x+)≥1，而所有属于负类的点x-代入后有g(x-)≤-1（之所以总跟1比...

2019-02-15 17:13:04 411

转载 svm原理详解，看完就懂（三）：线性分类器求解part2

从最一般的定义上说，一个求最小值的问题就是一个优化问题（也叫寻优问题，更文绉绉的叫法是规划——Programming），它同样由两部分组成，目标函数和约束条件，可以用下面的式子表示：（式1）约束条件用函数c来表示，就是constrain的意思啦。你可以看出一共有p+q个约束条件，其中p个是不等式约束，q个等式约束。关于这个式子可以这样来理解：式中的x是自变量，但不限定它的维数必须为1（...

2019-02-15 17:11:51 538

转载 svm原理详解，看完就懂（二）：线性分类器的求解part1

上节说到我们有了一个线性分类函数，也有了判断解优劣的标准——即有了优化的目标，这个目标就是最大化几何间隔，但是看过一些关于SVM的论文的人一定记得什么优化的目标是要最小化||w||这样的说法，这是怎么回事呢？回头再看看我们对间隔和几何间隔的定义：间隔：δ=y(wx+b)=|g(x)|几何间隔：可以看出δ=||w||δ几何。注意到几何间隔与||w||是成反比的，因此最大化几何间隔与最小化...

2019-02-15 17:08:59 677

转载 svm原理详解，看完就懂（一）

（一）SVM的八股简介支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中[10]。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性（即对特定训练样本的学习精度，Accur...

2019-02-15 17:06:39 29672 2

转载销售预测

这里有两个问题，第一个问题，预测是怎么做出来的？第二个问题是：对于同一件事情它是预测出不同的结果，什么结果是好与坏？第一个问题是怎么预测的问题，第二个问题是预测的效果好与坏的问题。这就引出了我的主题，《机器学习对销售预测的研究》。机器学习是常用的日常分析的方法，另一方面机器学习在海量数据中挖掘其中的规律效果非常好。首先，说说，销售预测的现状和痛点。销售只是一个商业问题，要做的是满足用户的需...

2019-01-11 16:56:51 15706 3

转载 collections.defaultdict()的使用

1、以一个例子开始：统计一个列表里各单词重复次数words = ['hello', 'world', 'nice', 'world']counter = dict()for kw in words: counter[kw] += 1这样写肯定会报错的，因为各词的个数都没有初始值，引发KeyError2、改进一下：加入if判断words = ['hello', 'wor...

2018-12-29 17:19:29 3029 2

原创 HashSet、TreeSet及HashSet、HashMap的区别

总结借鉴了其他人的文章整理下这篇文章。　　先了解一下HashMap跟HashSet HashSet：　　HashSet实现了Set接口，它不允许集合中出现重复元素。当我们提到HashSet时，第一件事就是在将对象存储在HashSet之前，要确保重写hashCode（）方法和equals（）方法，这样才能比较对象的值是否相等，确保集合中没有储存相同的对象。如果不重写上述两个...

2018-12-29 17:11:29 743

转载 NLP第1课：中文自然语言处理的完整机器处理流程

2016年全球瞩目的围棋大战中，人类以失败告终，更是激起了各种“机器超越、控制人类”的讨论，然而机器真的懂人类吗？机器能感受到人类的情绪吗？机器能理解人类的语言吗？如果能，那它又是如何做到呢？带着这样好奇心，本文将带领大家熟悉和回顾一个完整的自然语言处理过程，后续所有章节所有示例开发都将遵从这个处理过程。首先我们通过一张图来了解 NLP 所包含的技术知识点，这张图从分析对象和分析内容两个不同的...

2018-12-21 16:10:45 1893

原创 SyntaxError: from future imports must occur at the beginning of the file

上篇忘记记录下测试nltk中内置函数出现的错误了，再写一篇记录下吧。解决办法：from __future__ import division放在Python文件导包的第一行。即：# -*- coding: utf-8 -*-from __future__ import divisionfrom nltk.book import * 问题解决。执行代码：# -*-...

2018-12-20 13:26:35 13675 1

原创 python3安装nltk

最近在通读Python自然语言这本书，尝试安装nltk及测试。Windows平台：以下操作前提，已经安装Python，只需要安装NLTK。若没有安装Python，请按照官网或者点击按照下面的链接安装Python。https://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/0013...

2018-12-20 12:28:30 4992 1

转载使用python+机器学习方法进行情感分析(详细步骤)

不是有词典匹配的方法了吗？怎么还搞多个机器学习方法。因为词典方法和机器学习方法各有千秋。机器学习的方法精确度更高，因为词典匹配会由于语义表达的丰富性而出现很大误差，而机器学习方法不会。而且它可使用的场景更多样。无论是主客观分类还是正负面情感分类，机器学习都可以完成任务。而无需像词典匹配那样要深入到词语、句子、语法这些层面。回复此公众号“web”获取源码，以及word版原文查看。向...

2018-12-19 11:03:09 4924 1

原创 Python遍历list（情感分析）

最近在看情感分析的项目中，为了看效果，（得出的数据结果如下：）3.8$这款手机大小合适，配置也还可以，很好用，只是屏幕有点小。。。总之，戴妃+是一款值得购买的智能手机。-2.0$这手机的画面挺好，操作也比较流畅。不过拍照真的太烂了！系统也不好。代码如下：#-*- coding:utf-8 -*-import numpy as npimport pandas as pd...

2018-12-19 10:10:05 372

原创 This application failed to start because it could not find or load the Qt platform plugin "windows"

今天在使用matplotlib时遇到了下面的问题导致不能显示图形界面：测试代码如下：#-*- coding: utf-8 -*-import pandas as pdfrom numpy import *import matplotlib.pyplot as pltts = pd.Series(random.randn(1000), index=pd.date_range('...

2018-12-17 15:46:55 2402 1

转载用深度学习解决大规模文本分类问题

声明：本文由入驻搜狐公众平台的作者撰写，除搜狐官方账号外，观点仅代表作者本人，不代表搜狐立场。举报　　　　作者：清凇　　阿里巴巴搜索排序算法工程师　　原文：https://zhuanlan.zhihu.com/p/25928551　　AI技术投稿、约稿、请发送邮件至[email protected]　　近来在同时做一个应用深度学习解决淘宝商品的类目预测问题的项目，恰好硕士...

2018-12-17 15:20:25 672 1

转载 jieba分词-词性标注

结巴分词4--词性标注作者：zhbzz2007 出处：http://www.cnblogs.com/zhbzz2007 1 简介词性（part-of-speech）是词汇基本的语法范畴，通常也称为词类，主要用来描述一个词在上下文的作用。例如，描述一个概念的词就是名词，在下文引用这个名词的词就是代词。有的词性经常会出现一些新的词，例如名词，这样的词性叫做开放式词性。另外一些词性中的词比较...

2018-12-12 12:39:40 6161 1

原创 windows下安装Django

近期想利用Python web搭建个小型网站，接触到了Django，下面介绍一下在windows下安装成功的过程。一、首先看下windows下安装的Python版本号和路径。1、进入cmd命令2、查看python版本：输入python 3、查看python安装路径：where python再看下对应的可以安装的Django版本。参考：https://docs.djangopro...

2018-12-02 15:46:36 42526 8

原创 windows和linux下查看python的版本、安装路径

windows 下命令：1、进入cmd命令2、查看python版本：输入python 3、查看python安装路径：where pythonLinux 下命令：查看python版本：python -V （直接执行命令：python）查看python安装路径：whereis python...

2018-11-30 12:30:25 1443 1

原创 windows下安装mysql(简单)

下载zip安装包的看这里：链接：MySQL 5.7 Windows (x86, 32-bit), ZIP Archive ：https://dev.mysql.com/downloads/file/?id=480558MySQL 5.7 Windows (x86, 64-bit), ZIP Archive ：https://dev.mysql.com/downloads/file/?i...

2018-11-30 11:34:52 436

转载 windows下安装mysql(复杂)

正文：现在作为服务器操作系统的一般有三种，Windows Server，Linux，Unix，在这里我们只介绍在windows下和linux下安装mysql，Unix下安装应该和linux差不多。Windows下安装MySQL：1. 在浏览器中打开https://dev.mysql.com/，进入MySQL的官方网站，国内的网打开可能有点儿慢，稍微等待一下2. 在打开的网页中选择d...

2018-11-30 11:16:15 580

转载利用Kryo序列化库是你提升Spark性能要做的第一件事

本文基于Spark2.1.0版本套用官文Tuning Spark中的一句话作为文章的标题：*Often, choose a serialization type will be the first thing you should tune to optimize a Spark application. *在Spark的架构中，在网络中传递的或者缓存在内存、硬盘中的对象需要进行序列化...

2018-11-30 10:43:23 196

转载 sql中的正则函数

SQL 中的正则函数ORACLE中支持正则表达式的函数主要有下面四个：1，REGEXP_LIKE ：与LIKE的功能相似，比LIKE强大得多。2，REGEXP_INSTR ：与INSTR的功能相似。3，REGEXP_SUBSTR ：与SUBSTR的功能相似。4，REGEXP_REPLACE ：与REPLACE的功能相似。REGEXP_REPLACE(source_string,pa...

2018-10-31 10:51:31 4451

转载线性回归和逻辑回归的区别

回归问题的条件/前提：1）收集的数据2）假设的模型，即一个函数，这个函数里含有未知的参数，通过学习，可以估计出参数。然后利用这个模型去预测/分类新的数据。1. 线性回归假设特征和结果都满足线性。即不大于一次方。这个是针对收集的数据而言。收集的数据中，每一个分量，就可以看做一个特征数据。每个特征至少对应一个未知的参数。这样就形成了一个线性模型函数，向量表示形式：这个...

2018-10-30 10:36:02 54101 3

转载机器学习中分类与回归的解决与区别

机器学习可以解决很多问题，其中最为重要的两个是回归与分类。这两个问题怎么解决，它们之间又有什么区别呢？以下举几个简单的例子，以给大家一个概念1. 线性回归回归分析常用于分析两个变量X和Y 之间的关系。比如 X＝房子大小和 Y＝房价之间的关系， X=(公园人流量，公园门票票价）与 Y=(公园收入) 之间的关系等等。那么你的数据点在图上可以这么看现在你想找到房子大...

2018-08-31 15:06:15 2209

空空如也

空空如也