自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

要加油

弱小和无知不是生存的障碍,傲慢才是。

  • 博客(81)
  • 资源 (3)
  • 收藏
  • 关注

原创 logstash docker配置和部署

文章目录1. 下载docker2. 配置2.1 创建文件夹及相应的配置文件。2.2 logstash.conf2.5 logstash.yml配置2.4 pipelines.yml 配置2.5 jvm.options 配置3. 启动Logstash是一款轻量级的日志搜集处理框架,可以方便的把分散的、多样化的日志搜集起来,并进行自定义的处理,然后传输到指定的位置,比如某个服务器或者文件。1. 下载docker下载对应环境的安装包:logstash安装下载地址或者直接安装dockerdocker pu

2021-04-13 13:22:17 7850

原创 EM算法原理和实现的学习总结

文章目录0. 写在前面(学习过程总结)1. EM算法的原理2. EM算法的公式推导3. EM算法的代码实现(双硬币问题为例子)0. 写在前面(学习过程总结)我的数学基础不好,所以EM算法折腾了不少时间才真正理解。我对EM算法的理解过程经历了如下几个阶段:看《统计学习方法》上的第9章 EM算法及其推广,对EM算法需要解决的问题和原理有了一个初步的印象;(这个时候其实并不是完全明白)根据 EM算法整理及其python实现 这篇博客,再梳理一遍原理,然后敲了一遍代码。(这个时候已经对EM中 e-s

2021-04-02 14:42:19 561

原创 microsoft 的gpt2模型源码学习记录

相关链接:gpt2论文传送门microsoft Deepspeed gpt2源码传送微软 Deepspeed 中集成的 gpt2 代码感觉比 haggingface 的代码可读性要强很多,这里只用作代码结构的学习,暂时忽略其中模型分片并行的部分。(虽然感觉直接把精华给忽略了Orz)1. GPT2模型概述GPT2 是2018年发布的预训练模型,使用超过40G的近8000万的网页文本数据对模型进行训练。GPT-2 可以理解成是由 transforer 的decoder 堆叠成的,输入是 word

2021-03-23 01:50:42 2344

原创 keras中的callbacks详解之EarlyStopping

keras中的callbacks整体学习见:keras中的callbacks详解1. 认识Early Stopearly stop是训练模型的过程中,避免过拟合,节省训练时间的一种方法2. keras中的EarlyStopping官方api:https://keras.io/api/callbacks/early_stopping/上图是官方给的使用方法说明,部分参数释义如下:monitor: 监控指标,如“val_loss”min_delta: 认为监控指标有提升的最小提升值。如果变化

2020-12-07 23:35:32 5687

原创 keras的学习之路

keras的学习之路从今天开始规范地记录使用 keras 进行 nlp 相关算法的实现、调试过程中的一些知识点。本文为预留的内容索引页。

2020-12-04 15:41:14 129

原创 LSTM+attention 古诗下句生成

原文首发在wx公众号上:附庸风雅,不如train个模型和古人对诗生成模型一直是我认为的非常有意思的东西,记得以前同事搞过一个生成藏头诗的模型,可以根据输入的名字来生成藏头诗,当时就感觉非常有趣。前两天又和朋友聊起来生成模型,朋友说他做了个诗词生成的实验,效果还蛮不错的,于是自己也想实验一下试试。先来看下生成效果,感觉还不错:1. 训练语料准备github上有很多整理好的开源的诗词资源,这里选择了 chinese-poetry 这个开源的库,里面的诗词非常多,足以用作生成模型的训练语料了。js

2020-11-16 13:14:42 1143 1

原创 【微信小程序】使用自定义字体

微信小程序使用自定义字体文章目录微信小程序使用自定义字体1. 微信小程序默认支持的字体2. 自定义字体获取3. 文字提取和字体ttf文件压缩4. 字体ttf文件转Base64格式1. 微信小程序默认支持的字体在小程序的.wxss 中对字体进行样式定义,如font-family: 'Segoe UI', Tahoma, Geneva, Verdana, ans-serif ;显示效果如下图:但是由于微信支持的字体非常有限,不能满足个性化的需求,因此在开发的过程中可能会需要使用自定义字体。小程

2020-09-02 10:00:13 6936

原创 gensim中word2vec python源码理解(二)Skip-gram模型训练

[gensim中word2vec python源码理解(一)初始化构建单词表(https://blog.csdn.net/u014568072/article/details/79071116)gensim中word2vec python源码理解(二)Skip-gram模型训练本文是在上一篇《使用Hierarchical Softmax方法构建单词表》的基础上,继续记录对word2vec源码的...

2019-11-16 10:24:56 2663 2

原创 mysql 8.018 + windows10安装与配置

mysql 8.018 + windows10安装与配置文章目录mysql 8.018 + windows10安装与配置1. mysql下载与安装2. 环境变量配置3. 初始化Mysql4. root密码修改参考博客:1. mysql下载与安装下载地址:Windows (x86, 64-bit), ZIP Archive管理员身份运行 cmd.exe (进入C:\Windows\Sys...

2019-11-09 15:14:00 1890 3

原创 Doc2vec论文阅读及源码理解

《Distributed representationss of Sentences and Documents》Quoc Le and Tomas Mikolov, 2014Model1. Distributed Memory Model of Paragraph Vectors (PV-DM).1.1 模型架构图(有点类似word2vec中的CBOW模型,根据上下文预测当前词)在P...

2019-08-03 11:29:35 2942 1

原创 chrome安装json解析插件

工具下载:JSONView-for-Chromegit clone https://github.com/gildas-lormeau/JSONView-for-Chrome将工具添加到chrome的扩展程序中打开chrome://extensions/选择开发者模式点击【加载已解压的扩展程序】,选择JSONView-for-Chrome/WebContent刷新页...

2019-07-25 12:16:57 4721

原创 【论文阅读】Learning from Imbalanced Data

论文阅读笔记《Learning from imbalanced data》He H, Garcia E A. Learning from imbalanced data[J]. IEEE Transactions on Knowledge & Data Engineering, 2008 (9): 1263-1284.文章目录论文阅读笔记《Learning from imbalance...

2019-07-23 20:06:07 2259

原创 【论文阅读】Slot-Gated Modeling for Joint Slot Filling and Intent Prediction

文章目录论文部分AbstractIntroductionProposed Approach实验部分论文部分Abstract根据slot和intent之间的关系,提出了一种slot gate来学习intent和slot向量之间的关系,通过全局优化来获得更好地语义信息。Introduction由于slot通常高度依赖于intent,因此本工作重点介绍如何通过引入slot gate来建模slo...

2019-07-22 10:22:54 1100

原创 python中staticmethod和classmethod

python 中staticmethod和classmethod@staticmethod和@classmethod是python中的两个装饰器(装饰器理解请见:python装饰器)。@staticmethod将函数转换成为一个静态方法,@classmethod将函数转换成为一个类方法。使用方法# coding=utf-8class Function(object): # In...

2019-03-31 20:23:33 5365

原创 python装饰器

python装饰器文章目录python装饰器预备知识:闭包函数概念示例作用装饰器的使用函数装饰器类方法的装饰器类装饰器参考博客装饰器本质上是一个python函数,其返回值也是一个函数对象。作用: 在不修改原函数的情况下,为已有的函数添加新的功能。如插入日志、性能测试、事务处理、缓存、权限校验等场景。预备知识:闭包函数概念在函数内部定义一个内嵌函数,内嵌函数引用了外部函数的变量,此时内嵌...

2019-03-31 16:58:19 571

原创 github中的markdown无法显示公式解决办法

github中的markdown无法显示公式解决办法google浏览器中安装插件注意:需要科学上网https://chrome.google.com/webstore/detail/mathjax-plugin-for-github/ioemnmodlmafdkllaclgeombjnmnbima/related插件安装完毕后刷新即可显示成功解决方案参考博客:github的markd...

2019-03-28 16:43:26 15038 7

原创 gensim中word2vec python源码理解(一)初始化构建单词表

本文主要谈一谈对gensim包中封装的word2vec python源码中,使用Hierarchical Softmax构建单词表部分代码的理解。

2019-03-10 23:08:15 12717 9

原创 招行网络科技2019笔试题:计算数组中每个数字出现的次数

招银网络科技2019笔试的代码填空题题目描述给定N个数字,范围都在1-N之间,输出每个数字出现的次数。要求:时间复杂度O(N),空间复杂度O(1).思路空间复杂度是O(1)的情况就是要将每个数字出现的次数保存在原数组中。考虑到数字的范围是1-N,如果每个数字都不重复,则数组中第i个位置应该正好是i,即第一个数是1,第二个数是2,依次类推。根据以上思路,可以对第i个进行以下判断:先令...

2019-03-05 08:23:59 1734 1

原创 【leetcode】题目类别整理汇总

更新中。。。相关代码及思路见 github-leetcode

2019-03-01 09:32:41 5703

原创 【剑指offer】55. 字符流中第一个不重复的字符(python)

题目描述请实现一个函数用来找出字符流中第一个只出现一次的字符。例如,当从字符流中只读出前两个字符"go"时,第一个只出现一次的字符是"g"。当从该字符流中读出前六个字符“google"时,第一个只出现一次的字符是"l"。输出描述:如果当前字符流没有存在出现一次的字符,返回#字符。思路《剑指offer》P269考虑使用一个有序字典OrderedDict()来保存每个字符及其出现的次数,字...

2019-02-25 18:29:28 441

原创 【剑指offer】65. 滑动窗口的最大值(python)

题目描述给定一个数组和滑动窗口的大小,找出所有滑动窗口里数值的最大值。例如,如果输入数组{2,3,4,2,6,2,5,1}及滑动窗口的大小3,那么一共存在6个滑动窗口,他们的最大值分别为{4,4,6,6,6,5}; 针对数组{2,3,4,2,6,2,5,1}的滑动窗口有以下6个: {[2,3,4],2,6,2,5,1}, {2,[3,4,2],6,2,5,1}, {2,3,[4,2,6],2,5...

2019-02-25 18:06:41 649 1

原创 【剑指offer】62.序列化二叉树(python)

题目描述请实现两个函数,分别用来序列化和反序列化二叉树。思路《剑指offer》P283序列化序列化的方法可以借鉴先序遍历的思想,当遍历到叶子节点的时候,添加#。反序列化反序列化可以通过递归来实现。定义一个index记录当前的下标,如果当前是数字,则构造一个TreeNode节点,并递归地向后构造其左右孩子。如果当前是#,则构造一个空结点。返回该结点。code# -*- cod...

2019-02-25 12:51:17 351

原创 【剑指offer】63. 二叉搜索树的第k个节点(python)

题目描述给定一棵二叉搜索树,请找出其中的第k小的结点。例如, (5,3,7,2,4,6,8) 中,按结点数值大小顺序第三小结点的值为4。思路《剑指offer》P285根据二叉搜索树的特性可知,其中序遍历即为升序数组。code# -*- coding:utf-8 -*-# class TreeNode:# def __init__(self, x):# ...

2019-02-25 11:31:32 546 2

原创 【剑指offer】59. 对称二叉树(python)

题目描述请实现一个函数,用来判断一颗二叉树是不是对称的。注意,如果一个二叉树同此二叉树的镜像是同样的,定义其为对称的。思路《剑指offer》P277方法一:递归解法先对根节点进行非空判断,然后判断左右子树是否互为镜像,具体做法是:递归地判断左子树的左孩子与右子树的右孩子值是否相等。方法二:非递归先对根结点进行非空判断,然后分别将左右子树放入一个list中。每次去除两个结点,比较...

2019-02-25 11:13:08 713

原创 【剑指offer】58.二叉树的下一个结点(python)

题目描述给定一个二叉树和其中的一个结点,请找出中序遍历顺序的下一个结点并且返回。注意,树中的结点不仅包含左右子结点,同时包含指向父结点的指针。思路《剑指offer》P275给定结点分为两种情况:有右子树——则下一个结点是右子树的最左结点。没有右子树,但是有父节点——则向上找到一个父节点,使得给定节点所在子树,是该父节点的左子树。若不满足以上两种情况,则返回None。code#...

2019-02-25 10:13:54 664

原创 【剑指offer】57. 删除链表中的重复节点(python)

题目描述在一个排序的链表中,存在重复的结点,请删除该链表中重复的结点,重复的结点不保留,返回链表头指针。 例如,链表1->2->3->3->4->4->5 处理后为 1->2->5思路《剑指offer》P273方法一考虑借助一个辅助list,每次放入一个node,记录当前结点的值currValue。当下一个结点值与currValue相等,...

2019-02-25 08:47:06 739

原创 【剑指offer】51. 数组中重复的数字(python)

题目描述在一个长度为n的数组里的所有数字都在0到n-1的范围内。 数组中某些数字是重复的,但不知道有几个数字是重复的。也不知道每个数字重复几次。请找出数组中任意一个重复的数字。 例如,如果输入长度为7的数组{2,3,1,0,2,5,3},那么对应的输出是第一个重复的数字2。思路《剑指offer》P261方法一考虑用一个哈希表来保存已经出现的数字和出现的次数,当遇到第一个重复数字的时候返...

2019-02-24 21:58:10 405

原创 【剑指offer】44. 扑克牌顺子

题目描述从扑克牌中随机抽5张,判断是不是一个顺子,即这5张牌是不是连续的。2~10为数字本身,A为1,J为11,Q为12,K为13,小王和大王可以看成任意数字(在输入中处理为0)思路《剑指offer》P226先对数组进行排序(代码里是写了一个快排,时间复杂度O(nlogn),也可以使用python自带的sorted()函数或者list.sort()函数,时间复杂度也是O(nlogn))...

2019-02-24 20:16:35 114

原创 【剑指offer】41&42. 和为s的两个数 & 和为s的连续正数序列(python)

41. 和为s的两个数题目描述输入一个递增排序的数组和一个数字S,在数组中查找两个数,使得他们的和正好是S,如果有多对数字的和等于S,输出两个数的乘积最小的。输出描述对应每个测试案例,输出两个数,小的先输出。思路《剑指offer》P214设置两个指针,p1从前向后,p2从后向前移动若p1+p2>7,则将p2向前移动一位若p1+p2<7,则将p1向后移动一位举例:...

2019-02-24 19:20:22 130

原创 【剑指offer】38. 数字在排序数组中出现的次数(python)

题目描述统计一个数字在排序数组中出现的次数。思路《剑指offer》P204考虑使用二分法进行统计。第一次二分法,找到该数字出现的位置pos分别对pos左右两边的数组进行多次二分查找,找到首尾出现的位置。注意:k在数组中不存在的情况。code# -*- coding:utf-8 -*-class Solution: def GetNumberOfK(self, dat...

2019-02-24 16:58:00 336

原创 【剑指offer】37. 两个链表的第一个公共节点(python)

题目描述输入两个链表,找出它们的第一个公共结点。思路《剑指offer》P193方法一使用辅助空间栈,遍历两个链表,将节点保存到栈中。然后利用栈先进后出的特点找到公共节点。方法二先遍历一遍得到两个链表的长度m和n,假设m>n,则较长的链表先走m-n步,然后两个链表同时向后走,直到找到第一个公共节点。code方法一# -*- coding:utf-8 -*-# cl...

2019-02-24 12:46:09 613

原创 【剑指offer】36. 数组中的逆序对

题目描述在数组中的两个数字,如果前面一个数字大于后面的数字,则这两个数字组成一个逆序对。输入一个数组,求出这个数组中的逆序对的总数P。并将P对1000000007取模的结果输出。 即输出P%1000000007输入描述题目保证输入的数组中没有的相同的数字数据范围: 对于%50的数据,size<=10^4 对于%75的数据,size<=10^5 对于%100的数据,size...

2019-02-24 12:28:23 111

原创 【剑指offer】35. 第一个只出现一次的字符(python)

题目描述在一个字符串(0<=字符串长度<=10000,全部由字母组成)中找到第一个只出现一次的字符,并返回它的位置, 如果没有则返回 -1(需要区分大小写)思路《剑指offer》P186考虑遍历一遍字符串,将每个字符出现的次数保存在一个orderedDict中,第一次出现的位置保存在Dict中。然后找到一个次数为1的字符,返回它的index。字典的查找和插入的时间复杂度都是O...

2019-02-22 21:58:13 320

原创 【剑指offer】34. 丑数(python)

题目描述把只包含质因子2、3和5的数称作丑数(Ugly Number)。例如6、8都是丑数,但14不是,因为它包含质因子7。 习惯上我们把1当做是第一个丑数。求按从小到大的顺序的第N个丑数。思路《剑指offer》P163从小到大依次所有的丑数,并保存。code# -*- coding:utf-8 -*-class Solution: def GetUglyNumber_Sol...

2019-02-22 21:35:28 208

原创 【剑指offer】29. 数组中出现超过一半的数字(python)

题目描述数组中有一个数字出现的次数超过数组长度的一半,请找出这个数字。例如输入一个长度为9的数组{1,2,3,2,2,2,5,4,2}。由于数字2在数组中出现了5次,超过数组长度的一半,因此输出2。如果不存在则输出0。思路《剑指offer》P163方法一:使用快排的思想,先随机选择一个数字,进行一趟排序,使得该数字左边的数都比其小,右边的数都比其大,然后判断该数字的index是否位于...

2019-02-20 09:53:52 128

原创 【剑指offer】28. 字符串的排列

题目描述输入一个字符串,按字典序打印出该字符串中字符的所有排列。例如输入字符串abc,则打印出由字符a,b,c所能排列出来的所有字符串abc,acb,bac,bca,cab和cba。思路《剑指offer》P154本质上是全排列问题,使用回溯法:有两点要注意:输出的结果必须按照字典序排列。有重复字母的时候,注意剔除重复的组合。code# -*- coding:utf-8 -*...

2019-02-19 17:29:54 191

原创 【剑指offer】27. 二叉搜索树与双向链表

题目描述输入一棵二叉搜索树,将该二叉搜索树转换成一个排序的双向链表。要求不能创建任何新的结点,只能调整树中结点指针的指向。思路《剑指offer》P151对二叉搜索树的中序遍历结果,即为有从小到大的排序结果。遵循这个思路,可以先将二叉搜索树进行中序遍历,将结果保存在list中,然后依次取出node对其左右孩子重新连接。code# -*- coding:utf-8 -*-# class ...

2019-02-19 15:59:33 112

原创 【剑指offer】26. 复杂链表的复制

题目描述输入一个复杂链表(每个节点中有节点值,以及两个指针,一个指向下一个节点,另一个特殊指针指向任意一个节点),返回结果为复制后复杂链表的head。(注意,输出结果中请不要返回参数中的节点引用,否则判题程序会直接返回空)示例1思路《剑指offer》P147参考书中的解析,一共分为三步:对原表的每一个结点进行复制,并插入到被复制结点后。根据原表中的每一个random结点,给复制结点...

2019-02-19 15:36:46 101

原创 【剑指offer】25. 二叉树中和为某一值的路径

题目描述输入一颗二叉树的跟节点和一个整数,打印出二叉树中结点值的和为输入整数的所有路径。路径定义为从树的根结点开始往下一直到叶结点所经过的结点形成一条路径。(注意: 在返回值的list中,数组长度大的数组靠前)思路定义两个list,保存当前的路径的tmp和结果result。对于当前传入的结点root,将其加入结果中,然后判断expectNumber-root.val值是否为0,如果为0,...

2019-02-19 14:31:25 93

原创 【剑指offer】24. 二叉搜索树的后序遍历序列

题目描述输入一个整数数组,判断该数组是不是某二叉搜索树的后序遍历的结果。如果是则输出Yes,否则输出No。假设输入的数组的任意两个数字都互不相同。思路序列的最后一个数字为当前的根结点从头遍历序列,遇到第一个比根结点大的停止。此时序列被分为两个部分,左边的结点值都比根结点值小。判断序列右半部分值是否都比根结点值大,如果不是则不输出No,如果是则将左右两部分分别递归继续判断。(思路和【剑...

2019-02-19 13:12:12 175

sfnttool.zip

ttf文字提取工具,可根据文字内容对ttf进行提取和size的压缩,可根据用到的文字对ttf文件进行压缩,使得ttf文件的大小相对减少很多

2020-09-02

multinli_1.0数据集.zip

multinli 1.0 的数据集下载,NLP实验数据集,由于原网址下载速度非常慢,特分享出来给大家

2020-08-10

LDA漫游指南

LDA漫游指南。LDA算法是主题模型领域著名的算法,值的深入研究。

2019-04-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除