自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 资源 (5)
  • 收藏
  • 关注

转载 2021-11-01

寻找两个dataframe中相同关键列中元素的差集问题有以下两个数据集,df1、df2,其中df1的VendorName和df2的VendorName的特征是相同的,现在要找出特征在df1中但是不在df2中的集合。#找到交集df_transactions_IN = df_transactions[df_transactions["VendorName"].isin(df_approved["VendorName"])]#找df_1 - df_2 差集df_unapproved = df_t

2021-11-01 11:19:24 110

转载 2021-10-24

Pandas apply 应用函数方法链接: link.

2021-10-24 20:36:51 83

转载 欧几里得空间定义与基本性质

欧几里得空间定义与基本性质

2021-05-22 11:28:15 687

转载 熵(entropy)、交叉熵(cross-entropy)

原文:一文搞懂熵(Entropy),交叉熵(Cross-Entropy)一、熵1、混乱程度,不确定性,信息量?不同的人对熵有不同的解释:混乱程度,不确定性,惊奇程度,不可预测性,信息量等等,面对如此多的解释,第一次接触时难免困惑。本文第一部分,让我们先一起搞明白 熵 究竟是什么?信息论中熵的概念首次被香农提出,目的是寻找一种高效/无损地编码信息的方法:以编码后数据的平均长度来衡量高效性,平均长度越小越高效;同时还需满足“无损”的条件,即编码后不能有原始信息的丢失。这样,香农提出了熵的定义:无损编码事

2021-05-21 11:55:42 1243

原创 关于standford core nlp运行时报错RuntimeError: Java not found.

关于standford core nlp运行时报错RuntimeError: Java not found.有两种可能:java jdk版本问题删除C:\Windows\System32 下的java.exe、javaw.exe和javaws.exe详情参考:java版本问题导致standfordcorenlp报错standfordcorenlp占用资源问题为了循环处理大数据集,我写了个循环。 while True: try: nlp = Stan

2021-03-03 09:42:09 1280 1

原创 在windows10下,pycharm运行指针生成网络的数据预处理make_datafiles.py时,遇到的坑

指针生成网络python3源码链接:https://github.com/becxer/pointer-generator/数据预处理/python3源码链接:https://github.com/becxer/cnn-dailymail/原文是在linux系统下运行的,在windows下略有不同:一、启动脚本Linux下启动sh文件传入两个story路径,具体方法参考上面链接。windows下,在pycharm中,点击右上角make_datafiles小三角,点击edit configura

2021-01-01 22:31:58 294 1

转载 记录复现指针生成网络时数据预处理中遇到的问题

原论文中数据预处理部分链接:https://github.com/becxer/cnn-dailymail/运行python make_datafiles.py /path/to/cnn/stories /path/to/dailymail/stories,报“找不到或无法加载主类 edu.stanford.nlp.process.PTBTokenizer”错误。再尝试运行echo “Please tokenize this text.” | java edu.stanford.nlp.process.P

2020-12-30 23:20:41 420

第三周:浅层神经网络.pdf

吴恩达深度学习与神经网络课程笔记。第三周:浅层神经网络(Shallow neural networks)

2020-07-03

第二周 - 神经网络基础.pdf

吴恩达深度学习与神经网络第二周课程笔记。神经网络的编程基础(Basics of Neural Network programming)

2020-07-03

Sentiment Analysis by Capsules.pdf

在本文中,我们提出了RNN-Capsule,这是一种基于递归神经网络(RNN)的胶囊模型,用于情感分析。对于给定的问题,针对每个情感类别(例如“正”和“负”)构建一个胶囊。每个胶囊都有一个属性,一个状态和三个模块:表示模块,概率模块和重建模块。胶囊的属性是分配的情感类别。给定一个由典型RNN在隐藏矢量中编码的实例,表示模块将通过注意力机制构建胶囊表示。根据胶囊表示,概率模块计算胶囊的状态概率。如果胶囊的状态概率在给定实例的所有胶囊中最大,则该胶囊的状态为活动,否则为非活动。在两个基准数据集(即Movie Review和Stanford Sentiment Treebank)和一个专有数据集(即

2020-04-06

Bag of Tricks for Efficient Text Classification.pdf

本文探讨了一种简单有效的文本分类基准。 我们的实验表明,我们的快速文本分类器fastText在准确性方面经常与深度学习分类器相提并论,其训练和评估速度要快多个数量级。 我们可以使用标准的多核CPU在不到十分钟的时间内训练10亿多个单词上的fastText,并在一分钟之内将312K类中的50万个句子分类。

2020-04-06

Character-levelConvolutionalNetworksforText Classification

本文提供了使用字符级卷积网络(ConvNets)进行文本分类的实证研究。 我们构建了几个大型数据集,以表明字符级卷积网络可以达到最新水平或竞争结果。 可以与传统模型(例如单词袋,n-gram及其TFIDF变体)以及深度学习模型(例如基于单词的ConvNets和递归神经网络)进行比较。

2020-04-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除