TFknight-CSDN博客

原创 sklearn 的基本机器学习（分类方法）

１．ＫＮＮ原理：存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中最相似数据（最近邻）的分类标签。一般来说，只选择样本数据集中前k个最相似的数据，这就是KNN算法 k 的出处, 通常 k 是不大于

2017-08-29 14:58:15 9230 1

原创 Kaggle上面命令Proceed (y/n)的处理

遇到要选择的时候Proceed (y/n)后面直接加 --yes 就可以了! pip uninstall bert4keras --yes

2020-08-12 14:53:19 6106 6

转载 CrossEntropyLoss、MSELoss、BCEWithLogitsLoss区别

基于pytorch来讲MSELoss（）多用于回归问题，也可以用于one_hotted编码形式，CrossEntropyLoss()名字为交叉熵损失函数，不用于one_hotted编码形式MSELoss（）要求batch_x与batch_y的tensor都是FloatTensor类型CrossEntropyLoss（）要求batch_x为Float，batch_y为LongTensor类型（1）CrossEntropyLoss（）举例说明：比如二分类问题，最后一层输出的为2个值，比

2020-08-11 10:12:07 3125 1

原创 Bert抽取词向量进行工程运用 | 如word2vec一般丝滑

应用场景：QA对话系统|检索系统任务：希望能够在数据库中找到与用户问题相似的【句子对|词语】，然后把答案返回给用户。这篇就是要解决这个问题的。方法：下面提供两个方法，一个是基于google 开源的bert,另一个是基于pytorch-transformer1. BERT 语义相似度BERT的全称是Bidirectional Encoder Representation from Transformers，是Google2018年提出的预训练模型，即双向Transformer的E.

2020-07-28 09:57:19 1305

转载 pytorch基础知识-Cross Entropy

pytorch基础知识-Cross Entropyhttps://cloud.tencent.com/developer/article/1539723上节课介绍了Cross Entropy 与 Enropy的区别，本节介绍Cross Entropy到底在二分类问题中是如何运算的。假设面对的是猫狗的二分类问题，此时的Cross Entropy的表示公式为：为更好的理解，我们以5分类问题进行解释实际值为小猫。当模型预测效果较好时这里注意到使用Cross En...

2020-07-17 15:38:26 464

原创 Bert油管视频学习

原博客位置：https://www.cnblogs.com/tfknight/p/13267870.html我们说的contextualized word embedding 就是取中间这个部分的向量出来，这里是上文的所有信息。高烧退了丞退了这两个向量都是不同的elmo直接用两个参数相加更新，全都要h = a1*h1 + a2*h2bert抽取出来的[mask 词]的embedding 一定要够准，要不然linear classif...

2020-07-17 11:07:41 169

原创 windows安装MYSQL报错问题解决

报错信息：MySQL 服务正在启动 .......MySQL 服务无法启动。服务没有报告任何错误。请键入 NET HELPMSG 3534 以获得更多的帮助。解决方法：https://blog.csdn.net/Butterfly_resting/article/details/89241058本人出现这个问题的是因为本人在跟换新版本的MySQL的时候，原设置的是系...

2020-04-12 19:54:39 284

原创 kaggle Quora Insincere Questions 总结

第三名：https://www.kaggle.com/wowfattie/3rd-place用到了词向量的拼写检查：https://www.kaggle.com/cpmpml/spell-checker-using-word2vec 第四名：https://www.kaggle.com/tks0123456789/pme-ema-6-x-8-pochs还没仔细看第1...

2019-02-25 11:39:58 827

原创 NLP小白的Kaggle一轮游总结

博主大三，一月中旬期末考试结束之后都放在这个比赛上面了--Quora Insincere Questions Classification。大半个月过来，做了很多尝试，线下成绩提高了不少，线上LB的成绩还是原地踏步：）。现在来总结一下自己做过的一些工作，给大家以及自己一些参考反思。如果各路大佬有更好的idea，欢迎骚扰交流~该竞赛是个典型的文本二分类问题，用的是美国的知乎（quora...

2019-01-29 15:25:12 1841 1

原创下载fastai杂谈

https://github.com/fastai/fastai按照官网的指示其实就是两条指令的事情，pip install torch_nightly -f https://download.pytorch.org/whl/nightly/cu92/torch_nightly.htmlpip install fastai 但是在下载的时候报错，说我是：Command"py...

2018-11-24 12:18:38 710 1

原创 python 调参神器hyperopt

最近学习到了一个hyperopt 的一个调参工具（相对于gridsearch的暴力调参，这个速度更加快一点）官网地址：http://hyperopt.github.io/hyperopt-sklearn/1.安装：sudo pip install hyperoptsudo pip install calibration（安装时遇到了安装问题：'generator' object is not su...

2018-06-09 14:13:51 3490

原创 RNN 超详细入门代码(mnist)

最近在看Morvan老师的视频,入门RNN,在这里也贴上自己根据老师的课程修改过的RNN代码,作为学习~用到的是RNN 神经网络,mnist数据集# -*- coding: utf-8 -*-import numpy as npnp.random.seed(1337)from keras.datasets import mnistfrom keras.utils import np_...

2018-05-24 20:59:17 2676

原创 python+CNN超详细入门(mnist数据集)

# -*- coding: utf-8 -*-__author__ = "TF大Q"import numpy as npnp.random.seed(1337) from keras.datasets import mnistfrom keras.models import Sequentialfrom keras.layers import Dense, Dropout, Act...

2018-05-14 14:43:09 17912 13

原创 python 常用中文分词工具

最近在做微博的文本处理,在分词工具的选择上,分别选择了:jieba \ NLPIR \ LTP这三种分词工具,在这里分享下~1.jieba 分词:# -*- coding: UTF-8 -*-import osimport codecsimport jiebaseg_list = jieba.cut('邓超,1979年出生于江西南昌,中国内地男演员、电影导演、投资出品人、互联网投资人。')...

2018-04-13 15:07:48 3823

原创下载CRFPP杂谈

按照官方下载来，https://taku910.github.io/crfpp/#download,一般下载python源码,都是四个步骤:1 解压压缩包2 ./configure3 make4 sudo make install 但是在make install这步报错.....错误如下: 这里的主要原因是 library 这个东西被默...

2018-01-11 09:58:18 873

原创两个有序序列的中位数（详解）

1．实践题目7-3 两个有序序列的中位数 2. 问题描述在一行中输出两个输入序列的并集序列的中位数。时间复杂度不能大于O（logn） 3. 算法描述（不能粘贴程序）因为时间复杂度不能大于logn，所以把原序列排好序再来找中位数是不可能的了（快排nlogn）。故我采用二分法的思想，对原序列进行二分处理，比较中位数。比到最后两个指针的情况如图所示，此时较小的数即为

2017-12-17 12:58:05 11707 4

原创 java 数字三角形

1．实践题目7-1 数字三角形2. 问题描述给定一个由 n行数字组成的数字三角形如下图所示。试设计一个算法，计算出从三角形的顶至底的一条路径(每一步可沿左斜线向下或右斜线向下)，使该路径经过的数字总和最大。3. 算法描述（不能粘贴程序）用一个二维数组来储存数据，从底向上的进行叠加，从b[i][j]出发，下一步只能是 b[i-1][j]或者b[i

2017-12-17 12:44:27 2535

原创改写二分搜索算法

1．实践题目7-2 改写二分搜索算法2. 问题描述输出小于x的最大元素的最大下标i和大于x的最小元素的最小下标j。当搜索元素在数组中时，i和j相同。提示：若x小于全部数值，则输出：-1 0 若x大于全部数值，则输出：n-1的值 n的值3. 算法描述（不能粘贴程序）在基本的二分查找里面做改进，满足题目要求。一开始我是对越底界，越高界，直接找得到，以及在两者之间

2017-12-17 12:34:43 1026

原创 keras入门－简单数据集的运用

Keras:Keras是一个高层神经网络API，Keras由纯Python编写而成并基Tensorflow、Theano以及CNTK后端。Keras为支持快速实验而生.Keras的核心数据结构是“模型”，模型是一种组织网络层的方式。Keras中主要的模型是Sequential模型，Sequential是一系列网络层按顺序构成的栈。下面我就用两个经典数据集iris 和　mnist　load_iris()mnist.load_data()

2017-10-10 19:59:56 2986

原创 whoosh使用简述

1. whoosh安装2. 添加索引3.创建index4.编辑和删除索引5.查询索引

2017-06-02 08:48:22 3763

原创 mongodb的一些操作

mongodb的一些操作

2017-05-13 16:15:20 693

transformer.zip

bert模型放在 bert_pretain目录下，每个目录下都是三个文件： pytorch_model.bin bert_config.json vocab.txt 已经在THUCNews上面预训练过。我从THUCNews中抽取了20万条新闻标题文本长度在20到30之间。一共10个类别，每类2万条。数据以字为单位输入模型。

2020-07-17

BERT-BiLSTM-CRF-master.zip

命名实体识别代码，解压即可用 # BERT-BiLSTM-CRF BERT-BiLSTM-CRF的Keras版实现 ## BERT配置 1. 首先需要下载Pre-trained的BERT模型，本文用的是Google开源的中文BERT模型： - https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip 2. 安装BERT客户端和服务器 pip install bert-serving-server pip install bert-serving-client，源项目如下： - https://github.com/hanxiao/bert-as-service 3. 打开服务器，在BERT根目录下，打开终端，输入命令： - bert-serving-start -pooling_strategy NONE -max_seq_len 144 -mask_cls_sep -model_dir chinese_L-12_H-768_A-12/ -num_worker 1