自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (5)
  • 收藏
  • 关注

原创 sklearn 的基本机器学习(分类方法)

1.KNN原理:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中最相似数据(最近邻)的分类标签。一般来说,只选择样本数据集中前k个最相似的数据,这就是KNN算法 k 的出处, 通常 k 是不大于

2017-08-29 14:58:15 9230 1

原创 Kaggle上面命令Proceed (y/n)的处理

遇到要选择的时候Proceed (y/n)后面直接加 --yes 就可以了! pip uninstall bert4keras --yes

2020-08-12 14:53:19 6106 6

转载 CrossEntropyLoss、MSELoss、BCEWithLogitsLoss区别

基于pytorch来讲MSELoss()多用于回归问题,也可以用于one_hotted编码形式,CrossEntropyLoss()名字为交叉熵损失函数,不用于one_hotted编码形式MSELoss()要求batch_x与batch_y的tensor都是FloatTensor类型CrossEntropyLoss()要求batch_x为Float,batch_y为LongTensor类型(1)CrossEntropyLoss() 举例说明:比如二分类问题,最后一层输出的为2个值,比

2020-08-11 10:12:07 3125 1

原创 Bert抽取词向量进行工程运用 | 如word2vec一般丝滑

应用场景:QA对话系统|检索系统任务: 希望能够在数据库中找到与用户问题相似的【句子对|词语】,然后把答案返回给用户。这篇就是要解决这个问题的。方法: 下面提供两个方法,一个是基于google 开源的bert,另一个是基于pytorch-transformer1. BERT 语义相似度BERT的全称是Bidirectional Encoder Representation from Transformers,是Google2018年提出的预训练模型,即双向Transformer的E.

2020-07-28 09:57:19 1305

转载 pytorch基础知识-Cross Entropy

pytorch基础知识-Cross Entropyhttps://cloud.tencent.com/developer/article/1539723上节课介绍了Cross Entropy 与 Enropy的区别,本节介绍Cross Entropy到底在二分类问题中是如何运算的。假设面对的是猫狗的二分类问题,此时的Cross Entropy的表示公式为:为更好的理解,我们以5分类问题进行解释实际值为小猫。当模型预测效果较好时这里注意到使用Cross En...

2020-07-17 15:38:26 464

原创 Bert油管视频学习

原博客位置:https://www.cnblogs.com/tfknight/p/13267870.html我们说的contextualized word embedding 就是取中间这个部分的向量出来,这里是上文的所有信息。高烧退了丞退了这两个向量都是不同的elmo直接用两个参数相加更新, 全都要h = a1*h1 + a2*h2bert抽取出来的[mask 词]的embedding 一定要够准,要不然linear classif...

2020-07-17 11:07:41 169

原创 windows安装MYSQL报错问题解决

报错信息:MySQL 服务正在启动 .......MySQL 服务无法启动。服务没有报告任何错误。请键入 NET HELPMSG 3534 以获得更多的帮助。解决方法:https://blog.csdn.net/Butterfly_resting/article/details/89241058本人出现这个问题的是因为本人在跟换新版本的MySQL的时候,原设置的是系...

2020-04-12 19:54:39 284

原创 kaggle Quora Insincere Questions 总结

第三名:https://www.kaggle.com/wowfattie/3rd-place用到了词向量的拼写检查:https://www.kaggle.com/cpmpml/spell-checker-using-word2vec 第四名:https://www.kaggle.com/tks0123456789/pme-ema-6-x-8-pochs还没仔细看第1...

2019-02-25 11:39:58 827

原创 NLP小白的Kaggle一轮游总结

博主大三,一月中旬期末考试结束之后都放在这个比赛上面了--Quora Insincere Questions Classification。大半个月过来,做了很多尝试,线下成绩提高了不少,线上LB的成绩还是原地踏步 :)。现在来总结一下自己做过的一些工作,给大家以及自己一些参考反思。如果各路大佬有更好的idea,欢迎骚扰交流~该竞赛是个典型的文本二分类问题,用的是美国的知乎(quora...

2019-01-29 15:25:12 1841 1

原创 下载fastai杂谈

https://github.com/fastai/fastai按照官网的指示其实就是两条指令的事情,pip install torch_nightly -f https://download.pytorch.org/whl/nightly/cu92/torch_nightly.htmlpip install fastai 但是在下载的时候报错,说我是:Command"py...

2018-11-24 12:18:38 710 1

原创 python 调参神器hyperopt

最近学习到了一个hyperopt 的一个调参工具(相对于gridsearch的暴力调参,这个速度更加快一点)官网地址:http://hyperopt.github.io/hyperopt-sklearn/1.安装:sudo pip install hyperoptsudo pip install calibration(安装时遇到了安装问题:'generator' object is not su...

2018-06-09 14:13:51 3490

原创 RNN 超详细入门代码(mnist)

最近在看Morvan老师的视频,入门RNN,在这里也贴上自己根据老师的课程修改过的RNN代码,作为学习~用到的是RNN 神经网络,mnist数据集# -*- coding: utf-8 -*-import numpy as npnp.random.seed(1337)from keras.datasets import mnistfrom keras.utils import np_...

2018-05-24 20:59:17 2676

原创 python+CNN超详细入门(mnist数据集)

# -*- coding: utf-8 -*-__author__ = "TF大Q"import numpy as npnp.random.seed(1337) from keras.datasets import mnistfrom keras.models import Sequentialfrom keras.layers import Dense, Dropout, Act...

2018-05-14 14:43:09 17912 13

原创 python 常用中文分词工具

最近在做微博的文本处理,在分词工具的选择上,分别选择了:jieba \ NLPIR \ LTP这三种分词工具,在这里分享下~1.jieba 分词:# -*- coding: UTF-8 -*-import osimport codecsimport jiebaseg_list = jieba.cut('邓超,1979年出生于江西南昌,中国内地男演员、电影导演、投资出品人、互联网投资人。')...

2018-04-13 15:07:48 3823

原创 下载CRFPP杂谈

按照官方下载来,https://taku910.github.io/crfpp/#download,一般下载python源码,都是四个步骤:1   解压压缩包2   ./configure3  make4  sudo make install 但是在make install这步报错.....错误如下:  这里的主要原因是 library 这个东西被默...

2018-01-11 09:58:18 873

原创 两个有序序列的中位数(详解)

1. 实践题目7-3 两个有序序列的中位数 2. 问题描述在一行中输出两个输入序列的并集序列的中位数。时间复杂度不能大于O(logn) 3. 算法描述(不能粘贴程序)因为时间复杂度不能大于logn,所以把原序列排好序再来找中位数是不可能的了(快排nlogn)。故我采用二分法的思想,对原序列进行二分处理,比较中位数。比到最后两个指针的情况如图所示,此时较小的数即为

2017-12-17 12:58:05 11707 4

原创 java 数字三角形

1. 实践题目7-1 数字三角形2. 问题描述给定一个由 n行数字组成的数字三角形如下图所示。试设计一个算法,计算出从三角形 的顶至底的一条路径(每一步可沿左斜线向下或右斜线向下),使该路径经过的数字总和最大。3. 算法描述(不能粘贴程序) 用一个二维数组来储存数据,从底向上的进行叠加,从b[i][j]出发,下一步只能是 b[i-1][j]或者b[i

2017-12-17 12:44:27 2535

原创 改写二分搜索算法

1. 实践题目7-2 改写二分搜索算法2. 问题描述输出小于x的最大元素的最大下标i和大于x的最小元素的最小下标j。当搜索元素在数组中时,i和j相同。 提示:若x小于全部数值,则输出:-1 0 若x大于全部数值,则输出:n-1的值 n的值3. 算法描述(不能粘贴程序)在基本的二分查找里面做改进,满足题目要求。一开始我是对越底界,越高界,直接找得到,以及在两者之间

2017-12-17 12:34:43 1026

原创 keras入门-简单数据集的运用

Keras:Keras是一个高层神经网络API,Keras由纯Python编写而成并基Tensorflow、Theano以及CNTK后端。Keras为支持快速实验而生.Keras的核心数据结构是“模型”,模型是一种组织网络层的方式。Keras中主要的模型是Sequential模型,Sequential是一系列网络层按顺序构成的栈。下面我就用两个经典数据集iris 和 mnist load_iris()mnist.load_data()

2017-10-10 19:59:56 2986

原创 whoosh使用简述

1. whoosh安装2. 添加索引3.创建index4.编辑和删除索引5.查询索引

2017-06-02 08:48:22 3763

原创 mongodb的一些操作

mongodb的一些操作

2017-05-13 16:15:20 693

transformer.zip

bert模型放在 bert_pretain目录下,每个目录下都是三个文件: pytorch_model.bin bert_config.json vocab.txt 已经在THUCNews上面预训练过。 我从THUCNews中抽取了20万条新闻标题文本长度在20到30之间。一共10个类别,每类2万条。数据以字为单位输入模型。

2020-07-17

BERT-BiLSTM-CRF-master.zip

命名实体识别代码,解压即可用 # BERT-BiLSTM-CRF BERT-BiLSTM-CRF的Keras版实现 ## BERT配置 1. 首先需要下载Pre-trained的BERT模型,本文用的是Google开源的中文BERT模型: - https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip 2. 安装BERT客户端和服务器 pip install bert-serving-server pip install bert-serving-client,源项目如下: - https://github.com/hanxiao/bert-as-service 3. 打开服务器,在BERT根目录下,打开终端,输入命令: - bert-serving-start -pooling_strategy NONE -max_seq_len 144 -mask_cls_sep -model_dir chinese_L-12_H-768_A-12/ -num_worker 1

2020-07-17

nlpir-中文分词工具和代码

张华平老师的分词包 用于命名实体识别 稍作修改 nlpir-中文分词工具和代码

2018-04-13

做分词用到的一个工具包CRF++,亲测可以使用

做分词用到的一个工具包CRF++,亲测可以使用.安装过程有什么问题的可以看下我的博客: http://blog.csdn.net/gdufstfknight/article/details/79030743

2018-01-11

word2vec词向量

用word2vec的方法做词向量...........................................................................................................................

2018-01-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除