自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(99)
  • 资源 (3)
  • 问答 (1)
  • 收藏
  • 关注

原创 PyTorch深度学习实战

pytorch深度学习实战

2023-02-22 17:18:19 1089

原创 MATLAB绘制GIF格式的动态点和动态曲线随动

【代码】MATLAB绘制GIF格式的动态点和动态曲线随动。

2023-01-19 14:30:14 343

原创 MATLAB绘制GIF格式的动态曲线

【代码】MATLAB绘制GIF格式的动态曲线。

2023-01-19 14:28:09 720

原创 dlib库快速构建人脸识别

概念:引入自2002年以来,Davis King一直是dlib的主要作者。dlib为每个类和函数提供了完整的文档说明。同时还提供了debug模式,打开debug模式后,开发者能够调试代码,查看变量和对象的值,快速定位错误点。不依赖第三方库,就是这么高傲。因此我们无需安装和配置,并且在windows,Mac OS , Linux系统上轻松驾驭。截止2022年5月12日,github上已有个11.1Kstart, 用户量14K,贡献者161人,可见受欢迎程度还是挺不错的。它是一个高性能的计算框架。它是一个C++

2022-05-12 15:06:48 1885

原创 PaddlePaddle在预测图像时出现错误EnforceNotMet: Conv intput should be 4-D or 5-D tensor

BUG:Expected in_dims.size() == 4 || in_dims.size() == 5 == true, but received in_dims.size() == 4 || in_dims.size() == 5:0 != true:1.在运行Paddle教程的时候,会出现在数据加载的时候,数据纬度错误维内托,导致在徐念阶段报错Expected in_dims.size() == 4 || in_dims.size() == 5 == true, but received

2021-12-11 15:22:02 3042

原创 Transformer堪比CV界的ImageNet, NLP战场的主力军

说到Transformer, 可谓是NLP领域的一员猛将! 您应该会看到类似的架构.在NLP领域,科学家们做一一系列的尝试必入tf-idf,word2vec,glove,emlo,SVD的等一系列的预训练模型探索,可惜随着社会的进进步,需要文本表达更加准确,因为文本在计算机里面需要使用向量表达出来.相当于一句话,经过中间人传达,第三方收到消息,作出反应,如果第一个人给第二个人的消息不能很好的表达,第三个人岂不是GG了. 在NLP里面也是一样的, 就拿NER来说吧,对于序列问题,每个字需要soft max

2020-08-25 18:02:46 215

原创 原来word2vec可以这么简单

说到Word2vec,它可谓非结构化数据里面的佼佼者,尤其是在推荐和NLP当中, 足以体现它的优势所在,并且多年一直备受工业界喜爱. 那么word2vec到底是怎么个原理的, 发现身边总是有很多人问, 确不能准确的说出为什么是两个矩阵, 到底是怎么自动反向传播的, 以及对于softMax之后那么大的维度数据,是怎么加速计算的,本文就在这这里做一简单概述.Word2vec实际是一种浅层的神经网络, 它有两种网路结构,分别是CBOW(Continus Bag of Words)和Skip-Gram.通常我们

2020-08-21 22:22:29 453

原创 文本对分类以及多标签分类问题的解决思路

现实生活中,有大量的文本需要人工区分类,而自然语言相关技术的发展使得人们可以通过算法的手段代替手工,极大的加速了社会的发展. 而文本分类任务一直是NLP一只老掉牙的事,从常规的新闻文本分类到特定领域的多类分类(Multiclass classification) 和多标签分类(Multilabel classification).对于多类别分类,就是说在分类任务中, 有n种类别的事物, 而且每一个事物有且仅有一个标签. 这类任务的难点在于, 数据的 极度不平衡, 就拿天池最近的一个入门赛来说, 对于星座

2020-08-17 23:45:13 1258

原创 文本如何在计算机中表示

计算机擅长处理数据,但是我们日常生活中使用的文字应该如何表示成计算机可以看懂的文字呢?对此,自然语言处理(NLP)便成为了一个重要的研究领域,如何表示文本这种非结构化的数据又是NLP的一个重要方向.近年来常见的的文本表示模型有词袋模型(Bag of Words),TF-IDF(Term Frequency-Inverse Document Frequency),主题模型(Topic Model),词嵌入模型(Word Embedding). 它们的作用都是讲文本按照一定的规律,通过向量表示,向量及所含文字

2020-08-17 22:41:46 446

原创 Hanlp在Python环境中安装及使用.md

什么是HanlpHanLP是由一系列模型与算法组成的Java工具包,目标是普及自然 语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构 清晰、语料时新、可自定义的特点。功能:中文分词 词性标注 命名实体识别 依存句法分析 关键词提取 新词发现 短语提取 自动摘要 文本分类 拼音简繁Hanlp环境安装• 1、安装Java和Visual C++:我装的是Java 1.8和Visual C++ 2015。 • 2、安裝Jpype,conda install -c conda-forge j

2020-07-29 17:44:56 3116

原创 剑指 剪绳子动态规划

最近感觉动态规划的题又忘了,索性回过头来再刷一遍题目:剑指 Offer 14- I. 剪绳子链接:https://leetcode-cn.com/problems/jian-sheng-zi-lcof/这到题首先是找最优子问题的的关系式子设定dp[i]为长度为i的绳子最大成绩,那么它可以由三部分组成,参数含义:i:绳子长度,j:绳子长度为i的分割成一段是j的长度,dp[i-j]绳子长度为i的分割成j的长度,剩余部分继续再进行二次分割dp[i]:不需要分割,保持原来长度i-j:分割成两段j的长度

2020-07-29 09:12:29 124

原创 决策【Xgboost】在kaggle上的利器(四)

10 Xgboost 简介及其模型形式XGBOOST 是 GBDT 的一种,也是加法模型和前向优化算法。在监督学习中,可以分为:模型,参数,目标函数和学习方法模型:给定输入 x 后预测输出 y 的方法,比如说回归,分类,排序等。参数:模型中的参数,比如线性回归中的权重和偏置目标函数:即损失函数,包含正则化项学习方法:给定目标函数后求解模型和参数的方法,比如梯度下降法,数学推导等。这四方面的内容也指导着 XGBOOST 系统的设计。模型形式假设要判断一个人是否喜欢电脑游戏,

2020-07-06 15:00:37 222

原创 决策在kaggle上的利器(二)

本文继续接上一篇05 集成学习简介集成学习是通过构建并组合多个学习器来完成学习任务的算法集成学习常用的有两类Bagging:基学习器之间无强依赖关系,可同时生成的并行化方法Boosting:基学习器之间存在强烈的依赖关系,必须串行生成基分类器的方法Bagging (Bootstrap Aggregating)方法let n be the number of boostrap samplesfor i=1 to n do Draw boostrap samples of size m,D

2020-06-29 23:43:04 219

原创 决策在kaggle上的利器(一)

01-目录大纲决策树决策树的直观理解分类树回归树02-决策树的直观理解02 分类树-信息熵2-1 信息熵信息熵是用来衡量信息不确定性的指标,不确定性是一个事出现不同结果的可能性。计算方法如下所示H(x)=−∑i=1nP(X=i)log⁡2P(X=i)H(x)=-\sum_{i=1}^nP(X=i)\log_2P(X=i)H(x)=−i=1∑n​P(X=i)log2​P(X=i)其中:P(X=i)P (X=i)P(X=i)为随机变量ⅹ取值为 i 的概率硬币P

2020-06-29 23:28:48 308

原创 关键字匹配有它, 你就是合格的算法工程师

这两天在构建医疗问答系统的时候, 碰到了有趣的算法,感觉骨骼比较惊奇, 于是记录一下。目的是构建医疗领域的一个actree,在neo4j数据库中查询一些字符的前期处理。 这个时候再用find()感觉自己就不是算法工程师了,这太没有效率了,而且你会发现在同时处理几千个任务的时候,会出现cpu的瓶颈。 如果采用ahocorasick来实现,可以很有效的减轻cpu的消耗。原项目部分代码如下(由于项目的保密性,这里显示部分代码)def build_actree(self, wordlist): """

2020-06-24 13:16:10 350

原创 仅有的几道高含金量算法面试题

一、AI算法基础1、样本不平衡的解决方法?2、交叉熵函数系列问题?与最大似然函数的关系和区别?3、HMM、MEMM vs CRF 对比?4、SVM和LR的区别与联系?5、crf的损失函数是什么?lstm+crf怎么理解?6、GBDT vs Xgboost7、评估指标f1和auc的区别是哪些?8、sigmoid用作激活函数时,分类为什么要用交叉熵损失,而不用均方损失?9、神经网络中的激活函数的对比?二、NLP高频问题1、word2vec和tf-idf 相似度计算时的区别?2、word2

2020-06-22 22:27:10 346

翻译 就在刚刚,陆奇博士演讲《正视挑战把握创业创新机会》

导读:陆奇,毕业于复旦大学,获计算机科学学士、硕士学位,1987年毕业后留校执教。此后就读于卡耐基梅隆大学,获计算机科学博士学位。陆奇博士除了在学术界发表过一系列高质量的研究论文,还持有40多项美国专利。目前为奇绩创坛(原丫C中国)创始人兼CEO,曾任百度集团总裁兼COO、微软全球执行副总裁、雅虎执行副总裁。演讲主题:分享疫情带来的新格局里,有哪些是创业者可以抓住的长期趋势;同时还会分享奇绩创坛观察到的市场需求变化,以及奇绩的技术投资底层逻辑。适合对象:对开发及创业感兴趣的人员。博主评价:博主也看过或

2020-06-16 22:43:33 490

原创 全案超详细LightBGM-GPU 安装

笔者今天进行lightBGM的使用, 全网检索, 没有一个好用的, 不多团队的力量就是强大, 经过几个消失的探索, 终于整理出了一份GPU版的安装教程, 另付测试代码lightgbm GPU源码编译可以官网查看git clone --recursive https://github.com/microsoft/LightGBM ; cd LightGBMmkdir build ; cd build# if you have installed NVIDIA CUDA to a customized

2020-06-13 22:09:33 930

原创 动态规划下的维特比算法在词性预测上的应用

上一篇提到了分词的一些东西, 这片我来写写关于词性的标注问题.对于文章的的每个词语的词性研究有很重要的意义, 通过词与词之间的关系, 可以发掘很多有用的信息.什么是词性标注词性标注(Part-of-Speech tagging 或POS tagging),又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。在汉语中,词性标注比较简单,因为汉语词汇词性多变的情况比较少见,大多词语只有一个词性,或者出现频次最高的词性远远高于第二

2020-06-12 10:32:12 280

原创 语言文字看懂不懂? 怎么搞?先剁碎它! 五马分尸也可以!

在现实生活中, 你有没有对一段文字特别不理解呢? 通常我们的做法即是拆分, 如果实在不行, 新华字典, 词典全部上场, 哈哈, 对了, 我们已经不是上学了, 处于互联网高速发展的=当下, 百度一下, 谷歌一下, 这点事还能难得倒谁?可还是你有没有想过, 网络的如此便利, 也是需要人去进行呵护, 精心设计的, 小编在本文中将给大家介绍一下对于文本类, 计算机是如何理解的.在文本处理的流程当中分词是一项表重要的流程, 我们先看一个简单的例子, 来直观感受一下分词到底能干啥>>> impo

2020-06-07 16:30:40 314

原创 Porter Stemmer详解版

Porter词干算法(或“ Porter stemmer”)是用于从英语单词中删除较常见的词法和不固定词尾的过程。它的主要用途是术语标准化过程的一部分,该过程通常在设置信息检索系统时完成。#!/usr/bin/env pythonimport sysclass PorterStemmer: def __init__(self): """The main part ...

2020-04-30 15:26:50 4220

原创 解决IOPub_data_rate_limit报错

今天在进行coding的时候发现一个很奇怪的现象,记录如下今天在运行下面的代码是的时候出现异常import xlrdexcel_path = excel_path = "data/data.xlsx"excel = xlrd.open_workbook(excel_path)#获取sheet对象all_sheet = excel.sheets()#循环遍历每个sheet对象she...

2020-04-29 16:45:33 1638

转载 The Illustrated Transformer

The Illustrated TransformerDiscussions: Hacker News (65 points, 4 comments), Reddit r/MachineLearning (29 points, 3 comments)Translations: Chinese (Simplified), [Korean](https://nlpinkorean.github.i...

2020-04-15 16:42:05 521 1

原创 千呼万唤始出来,犹抱琵琶半遮面,揭开HMM的神秘面纱

什么是时序模型比如说图像,一个人的特征等都是非时序类型的股票价格,说话的语音,文本,温度等都是时序类型传统模型使用HMM/CRF即可解决问题但是由于硬件的心呢个提升,现在主流RNN/LSTM等深度学习模型什么是HMM他是Directed+Generate model并存的HMM 的参数(ZIZ_IZI​是离散性)以单词词性预测为例来说明问题θ=(A,B,π)\theta=(A...

2020-04-06 23:49:57 522

原创 手撕梯度下降

逻辑回归的梯度下降法Gradient Descent for Logistic RegressianP(y−1∣x,w)=11+e−wTx+bargminw,b=−∑i=1nylog⁡P(y=1∣x,w)+(1−y)log⁡(1−P(y=1∣x,w))P(y-1|x,w)=\frac{1}{1+e^{-w^Tx+b}}\\argmin_{w,b}=-\sum_{i=1}^ny\log P(...

2020-04-01 18:13:21 262

原创 基于 Tensorflow 实现 Mobilenet V1 并基于 CFAR-10 数据训练

基于 Tensorflow 实现 Mobilenet V1 并基于 CFAR-10 数据训练论文:MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications深度可分离卷积将标准卷积分解为深度卷积和逐点卷积传统卷积计算量D_k^2MD_f^2N深度可分离卷积计算量D_k^2MD...

2020-03-23 21:25:27 893

原创 单词词性预测

词性标注pos TaggingS={今天,学习,NLP}通过已知单词,的词性,当给出一个新的句子,求解最后一个单词的词性是什么?P(Z∣S)=P(S∣Z)⋅P(Z)=P(w1w2...wN∣Z1Z2...ZN)P(Z1Z2...Zn)=∏i=1n⋅P(wi∣Zi)⋅P(Z1)⋅P(Z2∣Z1)⋅P(Z3∣Z2)...P(Zn∣Zn−1)\begin{aligned}P(Z|S)&...

2020-03-23 11:27:30 346

原创 纵观 2013 年到 2020 年,深度学习目标检测模型汇总

2014 年R-CNNRich feature hierarchies for accurate object detection and semantic segmentation | [CVPR’ 14]论文:https://arxiv.org/pdf/1311.2524.pdf官方代码 Caffe:https://github.com/rbgirshick/rcnnOverFeat...

2020-03-18 23:52:30 317

原创 Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

将 RCN 中下面 3 个独立模块整合在一起,减少计算量:CNN:提取图像特征SVM:目标分类识别Regression 模型:定位不对每个候选区域独立通过 CN 提取特征,将整个图像通过 CNN 提取特征,然后从 CNN 的特征图中根据 Selection Search 的候选区域通过 Rol Pooling 层提取区域特征Faster R-CNN训练步骤:预训练一个用于分类的CN...

2020-03-18 23:15:51 414

原创 神经网络中的数据表示方式

标量(OD 张量)数字组成的数组叫作向量(vector)或一维张量(1 D 张量)。一维张量只有一个轴。下面是一个 Numpy 向量。(tensorflowcv) turing@localhost ~ % pythonPython 3.7.5 (v3.7.5:5c02a39a0b, Oct 14 2019, 18:49:57) [Clang 6.0 (clang-600.0.57)] on...

2020-03-18 22:43:49 694

原创 Leetcode 836. 矩形重叠

在二维平面上计算出两个由直线构成的矩形重叠后形成的总面积。每个矩形由其左下顶点和右上顶点坐标表示,如图所示。示例:输入: -3, 0, 3, 4, 0, -1, 9, 2输出: 45说明: 假设矩形面积不会超出 int 的范围。这里和Leetcode 836. 矩形重叠是同一类型的题,在上一次已经提交了IOu的概念,这里直接贴上代码,注意点事,没有交集的时候,面积事特例def ...

2020-03-18 21:56:26 259

原创 Leetcode 836. 矩形重叠

矩形以列表 [x1, y1, x2, y2] 的形式表示,其中 (x1, y1) 为左下角的坐标,(x2, y2) 是右上角的坐标。如果相交的面积为正,则称两矩形重叠。需要明确的是,只在角或边接触的两个矩形不构成重叠。给出两个矩形,判断它们是否重叠并返回结果。示例 1:输入:rec1 = [0,0,2,2], rec2 = [1,1,3,3]输出:true示例 2:输入:rec1 ...

2020-03-18 21:03:16 200

原创 Mysql-索引

先创建表mysql> CREATE TABLE test( -> id INT, -> username VARCHAR(16), -> city VARCHAR(16), -> age INT -> );1.普通索引是最基本的索引,它没有任何的限制。有以下几种创建方式(1)直接创建索引:CREATE INDE...

2020-03-17 22:40:35 73

原创 Mysql-表操作

数据之表操作创建表语法:CREATE TABLE table_name (column_name column_type);create table student( -> id INT NOT NULL AUTO_INCREMENT, -> name CHAR(32) NOT NULL, -> age INT NOT NULL, -&gt...

2020-03-17 22:30:54 61

原创 Mysql(一)

关系数据库管理系统(Relational Database Management System)特点数据以表格的形式出现.每行为各种记录名称每列为记录名称所对应的数据域许多的行和列组成一张表单若干的表单组成database术语数据库: 数据库是一些关联表的集合。.数据表: 表是数据的矩阵。在一个数据库中的表看起来像一个简单的电子表格。列: 一列(数据元素) 包含了相同的数...

2020-03-17 22:22:54 78

原创 利用mnist数据集进行深度神经网络

初始神经网络这里要解决的问题是,将手写数字的灰度图像(28 像素 x28 像素)划分到 10 个类别中(0~9)。我们将使用 MINST 数据集,它是机器学习领域的一个经典数据集,其历史几乎和这个领域一样长,而且已被人们深入研究。这个数据集包含 60000 张训练图像和 10000 张测试图像,由美国国家标准与技术研究院(National Institute of Standards and T...

2020-03-17 21:45:37 911

原创 剑指-面试题-07.重建二叉树

输入某二叉树的前序遍历和中序遍历的结果,请重建该二叉树。假设输入的前序遍历和中序遍历的结果中都不含重复的数字。例如,给出前序遍历 preorder = [3,9,20,15,7]中序遍历 inorder = [9,3,15,20,7]返回如下的二叉树: 3 / \ 9 20 / \ 15 7限制:0 <= 节点个数 <= 500...

2020-03-17 17:39:38 92

原创 Leetcode 1160: 拼写单词

给你一份『词汇表』(字符串数组) words 和一张『字母表』(字符串) chars。假如你可以用 chars 中的『字母』(字符)拼写出 words 中的某个『单词』(字符串),那么我们就认为你掌握了这个单词。注意:每次拼写时,chars 中的每个字母都只能用一次。返回词汇表 words 中你掌握的所有单词的 长度之和。示例 1:输入:words = ["cat","bt","hat"...

2020-03-17 16:41:13 122

原创 二叉树的python版本实现过程

定义二叉树是每个节点最多有两个子树的树结构。通常子树被称作“左子树”(left subtree)和“右子树”(right subtree)。性质性质1: 在二叉树的第i层上至多有2^(i-1)个节点(i>0)性质2: 深度为k的二叉树至多有2^k - 1个节点(k>0)性质3: 对于任意一棵二叉树,如果其叶节点数为N0,而度数为2的节点总数为N2,则N0=N2+1;性质4...

2020-03-14 17:00:52 87

原创 mnist的各种版本数据转换npm,gz,pkl,zip

mnist数据集常见格式(npz、gz等)简介1、npz版本网址:https://s3.amazonaws.com/img-datasets/mnist.npz,由于显而易见的原因,无法访问。npz实际上是numpy提供的数组存储方式,简单的可看做是一系列npy数据的组合,利用np.load函数读取后得到一个类似字典的对象,可以通过关键字进行值查询,关键字对应的值其实就是一个npy数据。如...

2020-02-29 20:49:27 3295 2

cmake-3.16.6-Darwin-x86_64.dmg

由于网络原因,下载较慢,现已下载好,直接使用,cmake官网下载,里面包含cmake3.16的windows版本和linux版本。cmake-3.16.0.tar.gz + cmake-3.16.0.zip,所有版本,如果需要,均可后台私信我,帮你下载

2020-04-18

decisinon_tree_computer.zip

通过决策时对用户进行分析,判断用户是法购买电脑,通过决策时对用户进行分析,判断用户是法购买电脑,通过决策时对用户进行分析,判断用户是法购买电脑,通过决策时对用户进行分析,判断用户是法购买电脑,通过决策时对用户进行分析,判断用户是法购买电脑,通过决策时对用户进行分析,判断用户是法购买电脑,通过决策时对用户进行分析,判断用户是法购买电脑,通过决策时对用户进行分析,判断用户是法购买电脑,通过决策时对用户进行分析,判断用户是法购买电脑,

2019-12-13

pipeline.config

运行此文件的json文件,包括train_config,fine_tune_checkpoint,train_input_reader,eval_input_reader的配置

2019-08-21

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除