非本人文章-CSDN博客

原创如何实现搜索引擎中的拼写纠错功能——思路

如何实现搜索引擎中的拼写纠错功能——思路

2022-06-26 23:14:45 751 1

原创分治思想在海量数据处理中的应用

分治算法思想的应用是非常广泛的，并不仅限于指导编程和算法设计。它还经常用在海量数据处理的场景中。

2022-06-19 22:50:33 270

原创好友关系存储-思路

用邻接表来存储这种有向图是不够的。因为我们去查找某个用户关注了哪些用户非常容易，但是如果要想知道某个用户都被哪些用户关注了，也就是用户的粉丝列表，就非常困难了

2022-06-12 23:53:07 427

O(n) 时间复杂度内求无序数组中的第 K 大元素。比如，4， 2， 5， 12， 3 这样一组数据，第 3 大元素就是 4。我们选择数组区间 A[0...n-1]的最后一个元素 A[n-1]作为 pivot，对数组 A[0...n-1]原地分区，这样数组就分成了三部分，A[0...p-1]、A[p]、A[p+1...n-1]。如果 p+1=K，那 A[p]就是要求解的元素；如果 K>p+1, 说明第 K 大元素出现在 A[p+1...n-1]区间，我们再按照上面的思路递归地在 A[p+1..

2022-05-29 22:34:43 501

原创队列在线程池中的应用

线程池没有空闲线程时，新的任务请求线程资源时，线程池该如何处理？各种处理策略又是如何实现的呢？一般有两种处理策略。第一种是非阻塞的处理方式，直接拒绝任务请求；另一种是阻塞的处理方式，将请求排队，等到有空闲线程时，取出排队的请求继续处理。那如何存储排队的请求呢？我们希望公平地处理每个排队的请求，先进者先服务，所以队列这种数据结构很适合来存储排队请求。队列有基于链表和基于数组这两种实现方式。这两种实现方式对于排队请求又有什么区别呢？...

2022-05-22 20:40:35 259

原创基于栈实现浏览器的前进后退功能-思路

使用两个栈，X 和 Y我们把首次浏览的页面依次压入栈 X，当点击后退按钮时，再依次从栈 X 中出栈，并将出栈的数据依次放入栈 Y。当我们点击前进按钮时，我们依次从栈 Y 中取出数据，放入栈 X 中。当栈 X 中没有数据时，那就说明没有页面可以继续后退浏览了。当栈 Y 中没有数据，那就说明没有页面可以点击前进按钮浏览了。比如你顺序查看了 a，b，c 三个页面，我们就依次把 a，b，c 压入栈，这个时候，两个栈的数据就是这个样子：当你通过浏览器的后退按钮，从页面 c 后退到页面 a 之.

2022-05-15 22:43:54 258

原创基于链表实现LRU缓存淘汰算法-思路

如何基于链表实现 LRU 缓存淘汰算法？我的思路是这样的：我们维护一个有序单链表，越靠近链表尾部的结点是越早之前访问的。当有一个新的数据被访问时，我们从链表头开始顺序遍历链表。1. 如果此数据之前已经被缓存在链表中了，我们遍历得到这个数据对应的结点，并将其从原来的位置删除，然后再插入到链表的头部。2. 如果此数据没有在缓存链表中，又可以分为两种情况：如果此时缓存未满，则将此结点直接插入到链表的头部；如果此时缓存已满，则链表尾结点删除，将新的数据结点插入链表的头部。这样我们就用链表实现了一

2022-05-01 22:40:24 833 1

原创数组为何从0开始编号？

为什么数组要从 0 开始编号，而不是从 1 开始呢？从 1 开始不是更符合人类的思维习惯吗？原因：首先数组（Array）是一种线性表数据结构。它用一组连续的内存空间，来存储一组具有相同类型的数据。并且计算机会给每个内存单元分配一个地址，计算机通过地址来访问内存中的数据。当计算机需要随机访问数组中的某个元素时，它会首先通过下面的寻址公式，计算出该元素存储的内存地址：a[i]_address = base_address + i * data_typ...

2022-04-24 22:48:35 1064

原创复杂度分析

一、什么是复杂度分析？1.数据结构和算法解决是“如何让计算机更快时间、更省空间的解决问题”。2.因此需从执行时间和占用空间两个维度来评估数据结构和算法的性能。3.分别用时间复杂度和空间复杂度两个概念来描述性能问题，二者统称为复杂度。4.复杂度描述的是算法执行时间（或占用空间）与数据规模的增长关系。二、为什么要进行复杂度分析？1.和性能测试相比，复杂度分析有不依赖执行环境、成本低、效率高、易操作、指导性强的特点。2.掌握复杂度分析，将能编写出性能更优的代码，有利于降低系统开发和维护

2022-04-17 23:49:13 1073

原创 2022-计划

一、项目总结：梳理公司业务，总结架构图二、7周学完：《数据结构与算法之美》每周至少学习12章，至少总结一篇博客若能坚持做好这些内容，则继续安排下阶段任务数据结构与算法宏观内容：三、零碎时间：巩固基础：目标：12月份，拿到一个offer，用于验证学习总结效果...

2022-04-10 21:51:17 269 1

原创 hive—两例倾斜case优化

6-1:count(Distinct)所产生的倾斜优化前：588.23 seconds 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

2022-03-27 23:55:08 1391

原创 hive-分析、窗口函数的使用

5-1:sum,avg,min,max窗口内聚合分析over (partition by col1 order by col2 rows between unbounded[n] preceding and current row[n following])PRECEDING：往前FOLLOWING：往后CURRENT ROW：当前行UNBOUNDED：起点，UNBOUNDED PRECEDING 表示从前面的起点，UNBOUNDED FOLLOWING：表示到后面的终点select

2022-03-20 22:03:43 2480

原创 hive-数据倾斜

关于数据倾斜在弄清什么是数据倾斜之前,我想让大家看看数据分布的概念:原理：简单的讲，数据倾斜就是我们在计算数据的时候，数据的分散度不够，导致大量的数据集中到了一台或者几台机器上计算，这些数据的计算速度远远低于平均计算速度，导致整个计算过程过慢。表现：任务进度长时间维持在 99%或者 100%的附近，查看任务监控页面，发现只有少量 reduce 子任务未完成数据倾斜的场景：4-1:大小表关联（小表为25M）解决方案：使用map join解决小表关联大表造成的数据倾斜问题。这个方

2022-03-13 23:14:13 1754

原创 hive的相关优化

1、列裁剪、分区裁剪在查询的过程中减少不必要的分区和列，例如：select * from shuidi_dwb.dwb_cf_case_info_full_d应改为：select case_id,ckr_id from shuidi_dwb.dwb_cf_case_info_full_d where dt='2019-08-28';2、尽早尽量过滤数据，减少每个阶段的数据量在多次关联的时候，尽量在每个自查询中（关联前）加上筛选(where)条件以减少下阶段job的数据量。优化前：

2022-02-27 22:40:19 1441

原创 hive-主要操作原理

运行过程（CSDN）了解后，再看一下主要操作的实现原理：join实现原理select u.name, o.orderid from order o join user u on o.uid = u.uid;在map的输出value中为不同表的数据打上tag标记，在reduce阶段根据tag判断数据来源。MapReduce的过程如下Group By的实现原理select rank, isonline, count(*) from city group by rank, isonline;将

2022-02-20 18:25:38 850

原创 hive的运行过程解析

数据的底层存储是文件hive的计算框架是mapreduce，所以我们先了解下mapreduce的原理图上是整个mapreduce的运行过程，在各自的分片中，都是把数据分割以后每个值都对应一个1得到<key,1>，再经过本地reduce（combine过程）把key一样的value=1相加，得到新的<key，values>，再经过shuffle过程，把所有分片中的<key,values>,key一致的values相加，又得到最终的...

2022-02-13 23:10:49 1677 1

原创数据分析-最常用4种分析方法

一、漏斗分析法漏斗分析法能够科学反映用户行为状态，以及从起点到终点各阶段用户转化率情况，是一种重要的分析模型。漏斗分析模型已经广泛应用于网站和APP的用户行为分析中，例如流量监控、CRM系统、SEO优化、产品营销和销售等日常数据运营与数据分析工作中。比如，对一些电商产品来说，最终目的是让用户下单并支付，但转化率取决于整个流程。这时，我们就可以通过漏斗模型一步一步地进行监测。二、留存分析法留存率反应的实际是一种转化率，即由初期的不稳定的用户转化为活跃用户、稳定用户、忠诚用户的过程。随着统计数字的变

2022-01-30 23:50:02 1301

转载高并发-解决方案

一、什么是高并发高并发（High Concurrency）是互联网分布式系统架构设计中必须考虑的因素之一，它通常是指，通过设计保证系统能够同时并行处理很多请求。高并发相关常用的一些指标有响应时间（Response Time），吞吐量（Throughput），每秒查询率QPS（Query Per Second），并发用户数等。响应时间：系统对请求做出响应的时间。例如系统处理一个HTTP请求需要200ms，这个200ms就是系统的响应时间。吞吐量：单位时间内处理的请求数量。QPS：每

2022-01-23 23:49:59 3424

原创数据分析流程

一、分析目的二、数据采集三、数据清洗四、了解数据五、数据分析结合业务动作六、数据可视化7、总结+TODO

2022-01-16 21:56:37 1535 1

原创批判性思维-3

批判性思维-3

2021-12-26 23:21:39 166

原创批判性思维-1

批判性思维-1

2021-12-19 23:06:48 63

原创批判性思维-2

2021-12-19 23:04:59 180

转载《序列化》

序列化是指把一个Java对象变成二进制内容，本质上就是一个byte[]数组。为什么要把Java对象序列化呢？因为序列化后可以把byte[]保存到文件中，或者把byte[]通过网络传输到远程，这样，就相当于把Java对象存储到文件或者通过网络传输出去了。有序列化，就有反序列化，即把一个二进制内容（也就是byte[]数组）变回Java对象。有了反序列化，保存到文件中的byte[]数组又可以“变回”Java对象，或者从网络上读取byte[]并把它“变回”Java对象。我们来看看如何把一个Java对象序

2021-11-21 22:23:01 268

转载 Tomcat

Tomcat就是这么简单什么是TomcatTomcat简单的说就是一个运行JAVA的网络服务器，底层是Socket的一个程序，它也是JSP和Serlvet的一个容器。为什么我们需要用到Tomcat如果你学过html，css，你会知道你写的页面只能自己访问，别人不能远程访问你写的页面，Tomcat就是提供能够让别人访问自己写的页面的一个程序配置Tomcat运行Tomcat需要JDK的支持【Tomcat会通过JAVA_HOME找到所需要的JDK】。新建JAVA_H

2021-11-14 22:47:11 109

转载分布式本质论：高吞吐、高可用、可扩展

承载量是分布式系统存在的原因当一个互联网业务获得大众欢迎的时候，最显著碰到的技术问题，就是服务器非常繁忙。当每天有1000万个用户访问你的网站时，无论你使用什么样的服务器硬件，都不可能只用一台机器就承载的了。因此，在互联网程序员解决服务器端问题的时候，必须要考虑如何使用多台服务器，为同一种互联网应用提供服务，这就是所谓“分布式系统”的来源。然而，大量用户访问同一个互联网业务，所造成的问题并不简单。从表面上看，要能满足很多用户来自互联网的请求，最基本的需求就是所谓性能需求：用户反应网页打开很慢，..

2021-11-07 23:33:18 1457

Angular路由PPT

使用 JFreeChart来创建基于web的图表

JSTL-Jar包

jstl-1_1-mr2-spec PDF

jstl-1_1-mr2-spec.pdf

第6章对错误的处理.ppt

空空如也