weixin_40902563-CSDN博客

原创 python实现隐马可夫算法和维特比算法，用于中文标注

（一）算法介绍隐马尔可夫模型（HMM）就是估算隐藏于表面事件背后的事件的概率模型。一般包含观测序列，隐序列，转移概率分布，发射概率分布以及初始状态。维特比（viterbi）算法属于隐马尔可夫模型中的对于解码时的一种算法，依据最后一个时刻中概率最高的状态，逆向通过找其路径中的上一个最大部分最优路径，从而找到整个最优路径。（二）算法原理假设观测序列长度为T，隐序列长度为N，Vt[s，t]表示在...

2020-04-08 23:59:48 577

原创 MatchZoo进阶——自动调参方法

本人在这里已经给出了MatchZoo的一个简单上手，这一次我会给出为模型自动调参的方法。这一次使用的变量，和简单上手中的变量是一样的，所以我都是直接复制，并删掉一些不需要的地方。加载数据：train_pack_processed = preprocessor.fit_transform(train) # 其实就是做了一个字符转id操作，所以对于中文文本，不需要分词dev_pack_pro...

2019-12-25 11:16:53 538 2

MatchZoo是一个Python环境下基于TensorFlow开发的开源文本匹配工具，让大家更加直观地了解深度文本匹配模型的设计、更加便利地比较不同模型的性能差异、更加快捷地开发新型的深度匹配模型。文本匹配包含了文本相似度、文本蕴含、问答匹配等问题，在这里，我会简单的使用微软公开的MSR数据集进行相似度计算解说，代码由本人参考matchzoo官方的解说完成的，如果有什么错误，请大胆指出，我会进...

2019-12-23 17:44:12 1515 2

原创 python简单思维实现K-means

自己定义了几个点，随机选择初始中心，也可以random去选取#!/usr/bin/python3# -*- coding:utf-8 -*-# Author:ChenYuanimport mathdata = [[2, 10], [2, 5], [8, 4], [5, 8], [7, 5], [6, 4], [1, 2], [4, 9]]cluster_center = [[2, 1...

2019-10-30 22:07:58 107

原创 python实现概率最大中文分词算法

需要环境：python3.x，numpy，pandas需要文档：中文词典和对应的词频，中文词的个数尽可能多，最好计算该文档的语料库足够大样例如下：#!/usr/bin/python3# -*- coding:utf-8 -*-# Author:ChenYuanimport pandas as pdimport numpy as npclass Pwms(object): ...

2019-10-16 14:24:03 713

原创 python实现正向最大匹配算法和反向最大匹配算法

正向最大匹配算法：从左到右将待分词文本中的几个连续字符与词表匹配，如果匹配上，则切分出一个词，并且要做到最大匹配。反向最大匹配算法：从右到左将待分词文本中的几个连续字符与词表匹配，如果匹配上，则切分出一个词，并且要做到最大匹配。这份代码对正向最大匹配算法和反向最大匹配算法进行封装，需要在代码的目录下存放一份词典，词典取名为：chineseDic.txt。样例如下：冮,nr劼人,nr勍,...

2019-10-06 21:29:07 2500

原创安装stanfordnlp以及简单使用

请注意：不是stanfordcorenlp如果直接在CMD下，pip install stanfordnlp，我遇到了这个错误：于是我直接下载torch也遇到了错误，所以我在conda下，建立了一个虚拟环境，conda create -n pytorch python=3.6 //创建虚拟环境activate pytorch // 激活虚拟环境conda install torch ...

2019-09-10 22:31:55 1077 1

原创使用WikiExtractor提取维基百科语料

WikiExtractor的链接：https://github.com/attardi/wikiextractor需要的环境官网有写明：The tool is written in Python and requires Python 2.7 or Python 3.3+ but no additional library.意思是:基于python2.7或python3.3，且不需要依赖于第...

2019-08-29 14:55:38 3027 14

原创 python爬取百度图片——翻页式网站爬取

小编大约于这个月月初写的这一份代码，但很不幸，大概20号，再次找百度图片翻页流的时候，发现是瀑布流且回不去了，还好代码里面留了翻页流的网址所以，现在来分享给大家。语言：python3.6库：requests， re， urllib除了requests需要pip install之外，其他两个是python自带的模块，直接调用即可。代码中的原网址：https://image.baidu.co...

2019-08-26 22:07:42 391

原创继微信大更新之后，爬取微信文章+评论

微信于2018年12月21号发布了7.0.0的版本，微信手机端界面及相关链接结构改变巨大，之前的fiddle抓包爬取微信文章评论可能不适用，在此，可以直接使用网页进行微信文章+评论的爬取，不需要抓包。本文以爬取CSDN的公众号文章+评论为例。将任意一篇CSDN的文章用浏览器打开。刷新网页，在Network中找到appmsgreport?action（通常是在最下面）在之前的fiddle抓包...

2019-05-21 16:00:13 1721 7

原创基于维基百科构建平行语料库

本文辅助有需求人士建立平行语料库。工具GitHub链接https://github.com/clab/wikipedia-parallel-titles第一步：从” https://en.wikipedia.org/wiki/List_of_ISO_639-2_codes” 上查看自己选的小语种的639-1码第二步：假设我要做的是阿拉伯-英语平行语料库，阿拉伯语的639-1码为ar，英文的为...

2019-04-15 14:20:59 1359 3

原创 Python实现死锁避免算法——银行家算法

在复习操作系统的时候，顺手实现了一遍银行家算法。对于理论，本人理解了，也根据书本提供的文字描述用Python实现了一遍，虽然网上已经有很多相同的例子，但为了理解透彻，自己实现了一遍。#!/usr/bin/env python3# -*- coding: utf-8 -*-""" @Author ChenYuan @Name 银行家算法.py @Describe @Version 1.0"""import numpy as npclass BankerAlgo

2020-07-20 13:06:57 744

原创 python爬取中关村手机信息

需要环境：python3.x，requests，pandas， lxml，re在这里我爬取了中关村手机信息的手机型号、手机图片、参考价格、京东价格、CPU型号、后置摄像头像素、前置摄像头像素、电池容量以及屏幕尺寸#!/usr/bin/python3# -*- coding:utf-8 -*-# Author:ChenYuanimport requestsfrom lxml import...

2020-04-09 00:28:53 2011 11

MSR Paraphrase Corpus data.zip

MSR数据集，是微软公开的相似度计算数据集，其中训练集有4076个句子，其中包含2753个相似度为1，即为正例句子；测试集有1725个句子，其中包含1147个正例句子。

2019-12-23

文件名修改工具.zip

不需要任何编程环境，在windows下可直接运行，里面包含教程和辅助工具。请勿随便更改文件后缀名，谢谢。

2019-09-11

python-readability

python的readability模块安装包，命令行进入该目录下，python setup.py install即可完成安装一个网页内容清洗去噪模块

2019-03-25

计算机二级java题库

计算机等级考试二级，里面包含了Java考试的题型，考试范围等，让我从一个0基础到及格。

2019-03-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

weixin_40902563的博客