窗边的小七酱-CSDN博客

原创【专利练习4】深度学习模型用于专利分类

深度学习模型用于专利分类仍然是对专利分类代码的学习https://github.com/newzhoujian/LCASPatentClassification深度学习模型（七个）Word2Vec+ANN.py（人工神经网络）Word2Vec+ATT.pyWord2Vec+GRU.pyWord2Vec+BiGRU.pyWord2Vec+TextCNN.pyWord2Vec+BiG...

2020-08-05 10:08:41 1222 1

原创【专利练习3】用传统机器学习方法进行专利分类（TFIDF+LR:DT:RF）

用传统机器学习方法进行专利分类（TFIDF+LR:DT:RF）代码出自：https://github.com/newzhoujian/LCASPatentClassification/tree/master本博客对该代码进行一个学习把并记录数据预处理好像只有去停用词以及一些格式转化，详见代码训练tfidf模型TfidfVectorizer可以把原始文本转化为tf-idf的特征矩阵fr...

2020-02-01 17:30:23 779

原创【专利练习2】Doc2vec实践

Doc2vec训练及实践上篇文章已经训练了Word2Vec，这里将每篇专利训练为一个向量（即 Doc2Vec），这样就可以对专利进行分类、聚类等下游任务了。1 Doc2Vec的原理转载自：https://blog.csdn.net/fendouaini/article/details/80327250进行了一定简化和加工Doc2Vec类似word2vec，这里不进行详细阐述，大致描述一下...

2020-01-31 15:29:43 502

Word2Vec实践1 gensim word2vec API概述2 模型训练1、读取数据2、数据预处理3、模型训练4、效果测试3 与Fasttext对比1 Fasttext简介2 Fasttext模型训练3 两者对比之前了解过Word2Vec的原理，但是没有做过项目实践，这次得到一批专利数据，所以自己上手实践一下。数据参考：https://github.com/newzhoujian/LC...

2020-01-31 14:02:37 392 1

转载【转】使用anaconda安装tensorflow （windows10环境）

打开Anaconda Prompt，输入清华仓库镜像，速度明显有提升conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/conda config --set show_channel_urls yeshttps://blog.csdn.net/ebzxw/article/de...

2019-06-20 00:46:38 107

原创 DataFrame的基本操作

最近数据科学导论的作业要用DataFrame，不会用，很头疼，所以就一边查一边记一下，毕竟自己没脑子。1、获取yelp_dataframe列名叫做’stars’的那一列值为i的那些条数据,最后形成的是一个包含符合要求值的dataframeyelp_dataframe[yelp_dataframe['stars'] == i ]2、index.tolist()得到符合要求的某些行元素所在的...

2018-11-26 15:17:23 512

原创 jupyter notebook报错：Bad config encountered during initialization

最近乱七八糟配置了一堆环境，按理说没有影响C盘的东西，anoconda也很稳健，但是今天磨蹭了好久开始写作业，发现jupyter notebook崩了，直接打开闪退，用cmd打开报错如下：通过anoconda重新安装了几次，并没有什么用，上网搜https://blog.csdn.net/yihenghua/article/details/81147292按照这个方法，可以启动以下复制自上...

2018-11-26 10:18:28 1337 2

原创用自己的数据（txt格式的标签）制作VOC数据集

制作VOC数据集，VOC格式如下Annotations文件夹该文件下存放的是xml格式的标签文件，每个xml文件都对应于JPEGImages文件夹的一张图片。JPEGImages文件夹改文件夹下存放的是我们已按统一规则命名好的原始图像，包括训练和测试图片。ImageSets文件夹该文件夹下存放了三个文件，分别是Layout、Main、Segmentation。在这里我们只用存放图像数...

2018-11-21 20:54:32 3208 5

weixin_40064136的博客