自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 资源 (4)
  • 收藏
  • 关注

原创 python实现隐马可夫算法和维特比算法,用于中文标注

(一)算法介绍隐马尔可夫模型(HMM)就是估算隐藏于表面事件背后的事件的概率模型。一般包含观测序列,隐序列,转移概率分布,发射概率分布以及初始状态。维特比(viterbi)算法属于隐马尔可夫模型中的对于解码时的一种算法,依据最后一个时刻中概率最高的状态,逆向通过找其路径中的上一个最大部分最优路径,从而找到整个最优路径。(二)算法原理假设观测序列长度为T,隐序列长度为N,Vt[s,t]表示在...

2020-04-08 23:59:48 577

原创 MatchZoo进阶——自动调参方法

本人在这里已经给出了MatchZoo的一个简单上手,这一次我会给出为模型自动调参的方法。这一次使用的变量,和简单上手中的变量是一样的,所以我都是直接复制,并删掉一些不需要的地方。加载数据:train_pack_processed = preprocessor.fit_transform(train) # 其实就是做了一个字符转id操作,所以对于中文文本,不需要分词dev_pack_pro...

2019-12-25 11:16:53 538 2

原创 中科院深度文本匹配开源项目MatchZoo简单上手

MatchZoo是一个Python环境下基于TensorFlow开发的开源文本匹配工具,让大家更加直观地了解深度文本匹配模型的设计、更加便利地比较不同模型的性能差异、更加快捷地开发新型的深度匹配模型。文本匹配包含了文本相似度、文本蕴含、问答匹配等问题,在这里,我会简单的使用微软公开的MSR数据集进行相似度计算解说,代码由本人参考matchzoo官方的解说完成的,如果有什么错误,请大胆指出,我会进...

2019-12-23 17:44:12 1515 2

原创 python简单思维实现K-means

自己定义了几个点,随机选择初始中心,也可以random去选取#!/usr/bin/python3# -*- coding:utf-8 -*-# Author:ChenYuanimport mathdata = [[2, 10], [2, 5], [8, 4], [5, 8], [7, 5], [6, 4], [1, 2], [4, 9]]cluster_center = [[2, 1...

2019-10-30 22:07:58 107

原创 python实现概率最大中文分词算法

需要环境:python3.x,numpy,pandas需要文档:中文词典和对应的词频,中文词的个数尽可能多,最好计算该文档的语料库足够大样例如下:#!/usr/bin/python3# -*- coding:utf-8 -*-# Author:ChenYuanimport pandas as pdimport numpy as npclass Pwms(object): ...

2019-10-16 14:24:03 713

原创 python实现正向最大匹配算法和反向最大匹配算法

正向最大匹配算法:从左到右将待分词文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个词,并且要做到最大匹配。反向最大匹配算法:从右到左将待分词文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个词,并且要做到最大匹配。这份代码对正向最大匹配算法和反向最大匹配算法进行封装,需要在代码的目录下存放一份词典,词典取名为:chineseDic.txt。样例如下:冮,nr劼人,nr勍,...

2019-10-06 21:29:07 2500

原创 安装stanfordnlp以及简单使用

请注意:不是stanfordcorenlp如果直接在CMD下,pip install stanfordnlp,我遇到了这个错误:于是我直接下载torch也遇到了错误,所以我在conda下,建立了一个虚拟环境,conda create -n pytorch python=3.6 //创建虚拟环境activate pytorch // 激活虚拟环境conda install torch ...

2019-09-10 22:31:55 1077 1

原创 使用WikiExtractor提取维基百科语料

WikiExtractor的链接:https://github.com/attardi/wikiextractor需要的环境官网有写明:The tool is written in Python and requires Python 2.7 or Python 3.3+ but no additional library.意思是:基于python2.7或python3.3, 且不需要依赖于第...

2019-08-29 14:55:38 3027 14

原创 python爬取百度图片——翻页式网站爬取

小编大约于这个月月初写的这一份代码,但很不幸,大概20号,再次找百度图片翻页流的时候,发现是瀑布流且回不去了,还好代码里面留了翻页流的网址所以,现在来分享给大家。语言:python3.6库:requests, re, urllib除了requests需要pip install之外,其他两个是python自带的模块,直接调用即可。代码中的原网址:https://image.baidu.co...

2019-08-26 22:07:42 391

原创 继微信大更新之后,爬取微信文章+评论

微信于2018年12月21号发布了7.0.0的版本,微信手机端界面及相关链接结构改变巨大,之前的fiddle抓包爬取微信文章评论可能不适用,在此,可以直接使用网页进行微信文章+评论的爬取,不需要抓包。本文以爬取CSDN的公众号文章+评论为例。将任意一篇CSDN的文章用浏览器打开。刷新网页,在Network中找到appmsgreport?action(通常是在最下面)在之前的fiddle抓包...

2019-05-21 16:00:13 1721 7

原创 基于维基百科构建平行语料库

本文辅助有需求人士建立平行语料库。工具GitHub链接https://github.com/clab/wikipedia-parallel-titles第一步:从” https://en.wikipedia.org/wiki/List_of_ISO_639-2_codes” 上查看自己选的小语种的639-1码第二步:假设我要做的是阿拉伯-英语平行语料库,阿拉伯语的639-1码为ar,英文的为...

2019-04-15 14:20:59 1359 3

原创 Python实现死锁避免算法——银行家算法

在复习操作系统的时候,顺手实现了一遍银行家算法。对于理论,本人理解了,也根据书本提供的文字描述用Python实现了一遍,虽然网上已经有很多相同的例子,但为了理解透彻,自己实现了一遍。#!/usr/bin/env python3# -*- coding: utf-8 -*-""" @Author ChenYuan @Name 银行家算法.py @Describe @Version 1.0"""import numpy as npclass BankerAlgo

2020-07-20 13:06:57 744

原创 python爬取中关村手机信息

需要环境:python3.x,requests,pandas, lxml,re在这里我爬取了中关村手机信息的手机型号、手机图片、参考价格、京东价格、CPU型号、后置摄像头像素、前置摄像头像素、电池容量以及屏幕尺寸#!/usr/bin/python3# -*- coding:utf-8 -*-# Author:ChenYuanimport requestsfrom lxml import...

2020-04-09 00:28:53 2011 11

MSR Paraphrase Corpus data.zip

MSR数据集,是微软公开的相似度计算数据集,其中训练集有4076个句子,其中包含2753个相似度为1,即为正例句子;测试集有1725个句子,其中包含1147个正例句子。

2019-12-23

文件名修改工具.zip

不需要任何编程环境,在windows下可直接运行,里面包含教程和辅助工具。请勿随便更改文件后缀名,谢谢。

2019-09-11

python-readability

python的readability模块安装包,命令行进入该目录下,python setup.py install即可完成安装 一个网页内容清洗去噪模块

2019-03-25

计算机二级java题库

计算机等级考试二级,里面包含了Java考试的题型,考试范围等,让我从一个0基础到及格。

2019-03-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除