自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

UK - UofL HW - SDE

Open my eyes, it was only just a dream

  • 博客(113)
  • 资源 (9)
  • 收藏
  • 关注

原创 算法总结10 线段树

如果后面又来了一个更新,破坏了于lazy tag的区间,那么这个区间就得继续递归更新了。更新于查询,如果暴力去做,每个操作都是O(n)的。所以我们需要提升效率。挑选O(n)个特殊区间:build。

2023-09-14 23:57:11 310

原创 算法总结9 高阶DP

以该题作为模板,完成后面的所有题。

2023-09-14 23:56:32 143

原创 算法刷题总结 (十一) 二叉树

二叉树(Binary tree)是树形结构的一个重要类型。许多实际问题抽象出来的数据结构往往是二叉树形式,即使是一般的树也能简单地转换为二叉树,而且二叉树的存储结构及其算法都较为简单,因此二叉树显得特别重要。二叉树特点是每个节点最多只能有两棵子树,且有左右之分。二叉树是n个有限元素的集合,该集合或者为空、或者由一个称为根(root)的元素及两个不相交的、被分别称为左子树和右子树的二叉树组成,是有序树。当集合为空时,称该二叉树为空二叉树。在二叉树中,一个元素也称作一个节点。

2023-05-30 21:42:39 1273

原创 算法刷题总结 (八) 前缀和

前缀和 是从 nums 数组中的第 0 位置开始累加,到第 i 位置的累加结果,我们常把这个结果保存到数组 preSum 中,记为 preSum[i]。在前面计算「前缀和」的代码中,计算公式为 preSum[i] = preSum[i - 1] + nums[i] ,为了防止当 i = 0 的时候数组越界,所以加了个 if (i =\= 0) 的判断,即 i == 0 时让 preSum[i] = nums[i]。

2023-04-21 15:56:50 1547 2

原创 算法刷题总结 (七) 双指针

其实双指针是一个很宽泛的概念,就好像数组,链表一样,其类型会有很多很多, 比如二分法经常用到左右端点双指针。滑动窗口会用到快慢指针和固定间距指针。 因此双指针其实是一种综合性很强的类型,类似于数组,栈等。 但是我们这里所讲述的双指针,往往指的是某几种类型的双指针,而不是“只要有两个指针就是双指针了”。有了这样一个算法框架,或者算法思维,有很大的好处。它能帮助你理清思路,当你碰到新的问题,在脑海里进行搜索的时候,双指针这个词就会在你脑海里闪过。

2023-04-18 00:06:10 1476 1

原创 算法刷题总结 (六) 前缀树 | 字典树 | 单词查找树

字典树英文表示为:trie ,它来自于 retrieval 的中间部分。在wiki百科中,trie表示tree的意思,它属于多叉树结构,是一种哈希树的变种,典型应用场景是统计、保存大量的字符串,经常被搜索引擎系统用于文本词频统计。它的优点是利用字符串的公共前缀来减少查找时间,最大限度的减少无谓字符串的比较和存储空间。

2023-04-10 15:58:19 1256

原创 算法刷题总结 (五) 字符串操作

字符串是 Python 中最常用的数据类型使用频率非常高,并且它非常灵活有非常多的操作,且拥有非常强大的内置库函数。字符串经常作为考题出现,或者为其他主题考题的某一部分,所以熟练的掌握字符串的相关操作对自己编程解决问题的能力的提升至关重要。

2023-03-23 16:56:47 1502 6

原创 算法刷题总结 (二) 回溯与深广搜与并查集算法

回溯与深广搜有相似的做法和理解,所以把他们放在同一个文章之中,文章看似篇幅很长,实际上,题目都是相似的,顺着章节来可以很快的掌握这个算法内容,以后碰到这样的相似题目,会很快想出思路。回溯是递归的纵横拓展,主要是递归(纵)+局部暴力枚举(横)。所以可以从递归和暴力两个方面来拆解回溯问题。

2023-03-23 16:40:30 1264 4

原创 算法刷题总结 (三) 贪心算法

贪心算法是遵循在每个阶段做出局部最优选择从而解决启发式(近似最优解)问题的任何算法。因为贪心策略在很多情况下不会产生最优解,可能大部分是近似最优解,也有小部分可能是最糟糕的结果。但对某些特殊问题,采用贪心可以取到最好的效果,即可以从局部最优可以推导到全局最优。这篇文章会对贪心算法进行详细的讲解。

2023-03-15 20:34:24 955 11

原创 算法刷题总结 (四) 动态规划

动态规划,英文:Dynamic Programming,简称DP,如果某一问题有很多重叠子问题,使用动态规划是最有效的。动态规划中每一个状态一定是由上一个状态推导出来的。而贪心算法不同,贪心没有状态推导,而是从局部直接选最优的。动态规划问题,将被拆解为如下五步:1. 确定dp数组(dp table)以及下标的含义2. 确定递推公式3. dp数组如何初始化4. 确定遍历顺序5. 举例推导dp数组

2023-03-15 13:29:40 3633 14

原创 机器学习从零到入门 逻辑回归详解

逻辑” 为英文单词“Logistic”的音译+简写,或完整叫“逻辑斯蒂”,但还有一种比较高级的叫法为“对数几率”或简称“对数”,即“对数回归”,从数学的角度看,这种叫法最为准确,因为中文“逻辑”与logistic和logit的含义相去甚远。从图中可以看出,该函数将y值转化成一个接近0或1的y值,函数的斜率随着靠近和远离0轴进行放大和缩小,函数“光滑”可导,并且其输出值在y=0附近变化很陡,以0为分界点,数据,比如已知某西瓜的质量有“好”和“坏”这两个种类,要对某样本西瓜质量进行预测,这种情况则称为。

2022-12-25 16:53:35 1469 4

原创 自然语言处理从零到入门 Attention 机制

Attention 正在被越来越广泛的得到应用。尤其是 BERT 火爆了之后。Attention 到底有什么特别之处?他的原理和本质是什么?Attention都有哪些类型?本文将详细讲解Attention的方方面面。

2022-11-08 18:03:46 1122

原创 自然语言处理从零到入门 NLP

每种动物都有自己的语言,机器也是!自然语言处理(NLP)就是在机器语言和人类语言之间沟通的桥梁,以实现人机交流的目的。人类通过语言来交流,狗通过汪汪叫来交流。机器也有自己的交流方式,那就是数字信息。不同的语言之间是无法沟通的,比如说人类就无法听懂狗叫,甚至不同语言的人类之间都无法直接交流,需要翻译才能交流。而计算机更是如此,为了让计算机之间互相交流,人们让所有计算机都遵守一些规则,计算机的这些规则就是计算机之间的语言。

2022-11-07 15:01:09 2387 1

原创 自然语言处理从零到入门 命名实体识别NER

命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。简单的讲,就是识别自然文本中的实体指称的边界和类别。百度百科详情|维基百科详情。

2022-11-07 14:22:53 1142

原创 自然语言处理从零到入门 BERT

BERT的全称是Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder,因为decoder是不能获要预测的信息的。模型的主要创新点都在pre-train方法上,即用了Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的representation。从现在的大趋势来看,使用某种模型预训练一个语言模型看起来是一种比较靠谱的方法。

2022-11-07 14:05:04 1174

原创 自然语言处理从零到入门 文本挖掘

每到春节期间,买火车票和机票离开一线城市的人暴增——这是数据再匹配这些人的身份证信息,发现这些人都是从一线城市回到自己的老家——这是信息回老家跟家人团聚,一起过春节是中国的习俗——这是知识每周末流量会有规律性的上升或者下降,这是为什么?国庆长假,使用 iPad 购物比例比平时要高,这时为什么?…而文本挖掘的意义就是从数据中寻找有价值的信息,来发现或者解决一些实际问题。维基百科:文本挖掘,也称为文本数据挖掘,大致相当于文本分析,是从文本中获取高质量信息的过程。

2022-11-07 13:38:10 1886

原创 自然语言处理从零到入门 Transformer

Transformer在2017年由Google在题为《Attention Is All You Need》的论文中提出。Transformer是一个完全基于注意力机制的编解码器模型,它抛弃了之前其它模型引入注意力机制后仍然保留的循环与卷积结构,而采用了自注意力(Self-attention)机制,在任务表现、并行能力和易于训练性方面都有大幅的提高。transformer过程。

2022-11-07 13:25:01 1255

原创 自然语言处理从零到入门 自然语言理解NLU

自然语言处理(NLP , Natural Language Processing)是使用自然语言同计算机进行通讯的技术, 因为处理自然语言的关键是要让计算机「理解」自然语言,所以自然语言处理又叫做自然语言理解(NLU ,Natural Language Understanding), 也称为计算语言学(Computational Ling uistics)。一方面它是语言信息处理的一个分支, 另一方面它是人工智慧(AI , Artificial Intelligence)的核心课题之一。

2022-11-07 12:25:04 2492

原创 自然语言处理从零到入门 自然语言生成NLG

自然语言生成 – NLG 是 NLP 的重要组成部分,他的主要目的是降低人类和机器之间的沟通鸿沟,将非语言格式的数据转换成人类可以理解的语言格式。本文除了介绍 NLG 的基本概念,还会介绍 NLG 的3个 Level、6个步骤和3个典型的应用。

2022-11-07 11:28:01 1608

原创 自然语言处理从零到入门 依存句法分析

句法分析(syntactic parsing)是自然语言处理中的关键技术之一,它是对输入的文本句子进行分析以得到句子的句法结构的处理过程。对句法结构进行分析,一方面是语言理解的自身需求,句法分析是语言理解的重要一环,另一方面也为其它自然语言处理任务提供支持。例如句法驱动的统计机器翻译需要对源语言或目标语言(或者同时两种语言)进行句法分析。

2022-11-07 00:56:34 983

原创 自然语言处理从零到入门 Word2vec

Word2vec,是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。

2022-11-07 00:41:16 850

原创 自然语言处理从零到入门 词嵌入

词向量(Word embedding),又叫Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。 从概念上讲,它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。生成这种映射的方法包括神经网络,单词共生矩阵的降维,概率模型,可解释的知识库方法,和术语的显式表示 单词出现的背景。当用作底层输入表示时,单词和短语嵌入已经被证明可以提高NLP任务的性能,例如语法分析和情感分析。

2022-11-07 00:11:32 1127

原创 自然语言处理从零到入门 成分句法分析

句子的组成成分叫句子成分,也叫句法成分。在句子中,词与词之间有一定的组合关系,按照不同的关系,可以把句子分为不同的组成成分。句子成分由词或词组充当。句法结构分析是指对输入的单词序列(一般为句子)判断其构成是否合乎给定的语法,分析出合乎语法的句子的句法结构。句法结构一般用树状数据结构表示,通常称之为句法分析树(syntactic parsing tree)或简称分析树(parsing tree),而完成这种分析过程的程序模块称为句法结构分析器(syntactic parser),也简称分析器(parser

2022-11-06 23:04:29 438

原创 自然语言处理从零到入门 词性标注

维基百科上对词性的定义为:In traditional grammar, a part of speech (abbreviated form: PoS or POS) is a category of words (or, more generally, of lexical items) which have similar grammatical properties.词性指以词的特点作为划分词类的根据。

2022-11-06 16:30:03 357

原创 自然语言处理从零到入门 分词

分词是 自然语言理解 – NLP 的重要步骤。分词就是将句子、段落、文章这种长文本,分解为以字词为单位的数据结构,方便后续的处理分析工作。比如将:今天的天气很不错转化为:今天的\天气\很\不错百度百科:中文分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂得多、困难得多。

2022-11-06 13:40:27 730

原创 自然语言处理从零到入门 词干提取与词形还原

词干提取(百度百科)在词法学和信息检索里,词干提取是去除词缀得到词根的过程(得到单词最一般的写法)。对于一个词的形态词根,词干并不需要完全相同;相关的词映射到同一个词干一般能得到满意的结果,即使该词干不是词的有效根。从1968年开始在计算机科学领域出现了词干提取的相应算法。很多搜索引擎在处理词汇时,对同义词采用相同的词干作为查询拓展,该过程叫做归并。词干提取项目一般涉及到词干提取算法或词干提取器。词干提取(维基百科)

2022-11-06 12:12:37 919

原创 自然语言处理从零到入门 Encoder-Decoder 与 Seq2Seq

Encoder-Decoder模型主要是NLP领域里的概念。它并不是特指某种具体的算法,而是一类算法的统称。Encoder-Decoder算是一个通用的框架,在这个框架下可以使用不同的算法来解决不同的任务。将现实问题转化为数学问题,通过求解数学问题,从而解决现实问题。Encoder又称作编码器。将现实问题转化为数学问题。求解数学问题,并转化为现实世界的解决方案。把两个环节连接起来,用通用的图来表达则是下面的样子:不论输入和输出的长度是什么,中间的向量c长度都是固定的。

2022-11-03 16:19:14 828 1

原创 云IDE的简单使用、体验与学习

云IDE的简单使用、体验与学习。简单尝试。官网展示的特点。视频用例:用Cloud IDE快速启动开源项目,用Cloud IDE 在线提交PR。

2022-10-31 21:56:17 631

原创 机器学习从零到入门 集成学习

集成学习,集成学习的具体步骤,集成方法:Bagging及相关模型:Bagging和Random Forest;Boosting及相关模型:Boosting、Adaboost、GBDT、机器学习神器:XGBoost,lightGBM,CatBoost

2022-10-31 18:11:53 797

原创 机器学习从零到入门 GBDT 梯度提升决策树

GBDT 详解一、 梯度的概念1、日常生活中的梯度2、函数中的梯度2.1、走进数学2.2、从数学到机器学习(1)、损失函数的理解 loss function(2)、梯度的理解 gradient(3)、梯度下降与损失函数二、GBDT1、回归树 - Regression Decision Tree,DT2、梯度提升 - Gradient Boosting - GB3、提升树 - Boosting Desicion Tree - BDT三、GBDT的应用1、GBDT的分类与回归2、GBDT+LR一、 梯度的概

2022-10-25 20:53:13 934 2

原创 算法刷题总结 (一) 数组

数组相关的算法,暴力求解,二分法,双指针法,滑动窗口,状态模拟

2022-09-16 02:35:15 1425 2

原创 一、数组经典题型

暴力求解,二分查找,双指针,滑动窗口,过程模拟

2022-09-16 01:45:24 741

翻译 U1C3 介绍SketchEngine和Web语料库研究

U1C3 Introduction to SketchEngine and Web as Corpus research一、Sketch Engine二、单词素描 - word sketch三、一致性 - Concordance四、分布词库 - Distributional Thesaurus五、平行语料库 - Parallel corpus六、 WebBootCat七、术语 - Terminology八、SketchEngine 的其他功能九、网络作为语料库的研究 - Web as Corpus rese

2022-02-07 07:42:37 3062 1

翻译 U1C2 文本预处理

U1C2 Text pre-processing一、正则表达式 - Regular Expressions1、基本正则表达式模式 Basic Regular Expression Patterns2、析取、分组与优先级 Disjunction, Grouping, and Precedence二、更多正则表达式:替换和ELIZA - More Regular Expressions:Substitutions and ELIZA三、词汇和语料库 - Words and Corpora四、单词标记化 - Wo

2022-02-07 01:32:26 1365

翻译 U1C1 数据挖掘与文本分析的背景与实际应用

U1C1 Background and practical applications of data mining and text analytics一、机器学习 与 数据挖掘 (Machine learning / Data mining)1、机器学习2、数据挖掘二、数据挖掘的跨行业标准流程 CRISP-DM1、商业理解 - Business Understanding2、数据理解 - Data Understanding3、数据准备 - Data Preparation4、建模 - Modeling

2022-02-05 03:51:03 503

翻译 统计学基础快速入门

统计学基础快速入门一、随机变量与状态空间 (Stochastic Variables and State Space)二、什么是概率?频率学派与贝叶斯学派 (Frequentist vs Bayesian )1、频率学派 - Frequentist2、贝叶斯学派 - Bayesian三、离散型分布 - Discrete Distributions1、期望值、方差(Expectation values, Variance)2、伯努利分布 Bernoulli3、二项分布(随机漫步) - Binomial - A

2022-02-01 09:14:36 1469

原创 make_classification函数

make_selection函数

2022-01-30 03:58:32 10452 3

原创 决策树结合可视化理解

决策树结合可视化理解决策树结合可视化理解参考修改时间决策树结合可视化理解在掌握了决策树原理的基础上,继续理解可视化决策树上数值的含义。若尚有不明,可参考往期文章:决策树详解 从零到入门直接入手一个例子,做出可视化视图:已知数据:工资(元/月)睡觉时间(小时/天)身高(cm)年龄(年)x1x_1x1​50007.516519x2x_2x2​50008.517021x3x_3x3​80007.517029x4x_4x4​8000

2022-01-28 06:14:30 1952

原创 OneHotEncoder函数

OneHotEncoder函数一、函数功能与参数二、函数使用参考修改时间仅介绍常用功能,详情请看结尾参考链接。一、函数功能与参数将分类特征编码为one-hot数字数组。这个转换器的输入应该是一个类似数组的整数或字符串,表示分类(离散)特征所采用的值。使用 one-hot(又名“one-of-K”或“dummy”)编码方案对特征进行编码。这将为每个类别创建一个二进制列并返回一个稀疏矩阵或密集数组(取决于sparse 参数)。默认情况下,编码器根据每个特征中的唯一值派生类别。或者,您也可以categ

2022-01-28 05:10:17 9658 1

原创 day10 AI面试刷题

day10 AI面试刷题

2022-01-22 05:29:02 106

team_cluster_data.cdv文件为球队排名

使用该文件应用于聚类算法 - KMeans算法,GMM算法等等

2022-02-17

team-cluster-data.cdv文件为球队排名

使用该文件应用于聚类算法 - KMeans算法,GMM算法等等

2022-02-17

Speech and Language Processing(chapter3).zip

第三章节,讲解N-Gram Language Model

2022-02-08

The Sketch Engine ten years on

带你了解 Sketch Engine

2022-02-07

Speech and Language Processing(chapter2)

Regular Expressions, Text Normalization, Edit Distance

2022-02-05

the language machine

数据挖掘与文本分析,类似于英文杂志的阅读科普材料,针对UK的语言机器发展史

2022-02-05

fangtianxia.zip

fangtianxia.zip

2021-04-01

随机的二维平面坐标点

50个数据集

2021-01-17

泰坦尼克号生存者预测训练集

泰坦尼克号生存者预测训练集。泰坦尼克海难是著名的十大灾难之一,究竟多少人遇难,各方统计的结果不一。现在我们可以得到部分的数据。

2020-09-17

泰坦尼克号生存者预测测试集

泰坦尼克号生存者预测测试集。泰坦尼克海难是著名的十大灾难之一,究竟多少人遇难,各方统计的结果不一。现在我们可以得到部分的数据。

2020-09-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除