TIM33470348-CSDN博客

原创 2022年学习和实习总结——收获颇多

原来按照本科毕业那年既定的计划来看的话，我是打算转Java的。不过，今年2023届秋招Java岗的情况似乎不容乐观，身边好多我觉得能力出众的Java大佬都铩羽而归，最终只去了一些中厂和外资，这些开出的工资和大厂还是有一定差距的，着实惋惜。于是，我也就只能减少了投入到学习Java中的时间，打算重新回归C/C++。

2023-01-09 20:34:50 1372 16

原创 9.30小记——2023年实习总结

自从6月的暑假到现在，我已经换了第三份实习了，可叹又可悲。可叹的是费劲千辛万苦终于找到了一家满意的实习单位。可悲的是今年的就业行情和我今年的实习经历一样捉摸不定——实习跳了好几家，一家比一家好，但是要么我看不上人家单位，要么就是我看得上的，转正机会却渺茫。秋招虽然有几个offer，但各方面完全满意的并没有。不仅我是这样，周围的小伙伴们也是如此。下面我就来讲讲今年的实习经历吧。

2023-09-30 17:33:05 495 2

在互联网行业中，用户在某段时间内开始使用应用，经过一段时间后，仍然继续使用该应用的用户。用户留存一般区分新增用户留存和活跃用户留存。通过区分不同属性的用户留存状况，对不同用户采取精细的运营策略。于是，我们可以得到如下的代码，期中dt是登录/创号的日期，格式是y y y y-yy-dd。表user_create_raw是记录用户创号信息的表，role_login_in是记录用户登陆信息的表。在这段实习中，我遇到了用户留存率计算的需求，这里做个总结。首先来讲下，什么是用户留存？，“第N天登录的用户总数”为。

2023-09-19 16:34:53 757 1

原创大数据岗位秋招面试八股文总结（不定时更新）

第一次是局部聚合，先给每个key都打上一个随机数，比如10以内的随机数，此时原先一样的key就变成不一样的了，比如(hello, 1) (hello, 1) (hello, 1) (hello, 1)，就会变成(1_hello, 1) (1_hello, 1) (2_hello, 1) (2_hello, 1)。然后将各个key的前缀给去掉，就会变成(hello,2)(hello,2)，再次进行全局聚合操作，就可以得到最终结果了，比如(hello, 4)。分区表按照分区字段的值进行分割，容易产生数据倾斜。

2023-08-17 15:29:32 1251

原创 2023.8.8巨人网络数据开发工程师面试复盘

未被external修饰的是内部表，被external修饰的为外部表。内部表数据由Hive自身管理，外部表数据由HDFS管理；内部表数据存储的位置是hive.metastore.warehouse.dir（默认：/user/hive/warehouse），外部表数据的存储位置由自己设置；删除内部表会直接删除元数据（metadata）及存储数据；删除外部表仅仅会删除元数据，HDFS上的文件并不会被删除。

2023-08-17 15:06:10 807

原创饿了么大数据开发凉经

1）map数量由处理的数据分成的block数量决定default_num = total_size / split_size;2）reduce数量为job.setNumReduceTasks(x)中x 的大小。不设置的话默认为 1。

2023-08-16 21:12:35 1746

原创在星环的数据治理实习工作-表级取舍原则

8）预留表：源系统中针对某项功能预留的表，目前系统尚无此功能而未使用该表。因此，只需取当前表中数据即可。5）临时数据表：计算某一最终结果所需的临时过程数据或开发过程中使用的表，此类数据一般不入模型，只取最终的结果数据。4）中间数据表：计算某一最终结果所需的中间过程数据，此类数据一般不入模型，只取最终的结果数据。2）冗余数据表：同一类数据在多张表中都有描述，出现冗余现象时，从中找出最准确的源头获取数据。12）统计数据表：基于一些基础数据进行统计的表，目前先对基础数据进行盘点，统计数据表暂不保留。

2023-08-10 10:32:22 120

原创 SQL中与NULL相关的操作

在SQL中，三值逻辑是指某个条件为真、假或未知。当涉及到null值时，条件的结果可能是未知的。这意味着无法直接使用等号（=）进行null值的比较。这个语句执行的结果时返回一个空表。因为表中的null表示未知数。这与Python的NaN有着异曲同工之妙。我们应该使用 IS NULL来判断。

2023-07-26 10:33:48 793

原创使用wordpress搭建WebStack导航网站记录

首先，我来介绍下，这个webstack导航网站实际上是被做成了wordpress的一个主题，具体这个主题的下载地址如下：WordPress 版 WebStack 导航主题我们不需要使用git clone命令，直接下载zip文件就可以，因为wordpress的主题本来就是要求上传zip文件的。不过，在此之前我们需要先搭建wordpress站点。

2023-07-05 16:04:15 666

原创 Kafka相关的一些基础概念

Kafka是一个分布式的基于发布/订阅模式的消息队列（Message Queue），主要应用于大数据实时处理领域。

2023-06-22 20:50:24 1359

原创 HBase相关的一些基础概念

之前面试前司星环的时候，面试官问到HBase那一块的时候直接把我问懵了。上一次使用HBase还是本科的那个图书推荐系统的项目，已经年代久远了，所以今天我特意整理了下HBase相关的知识点。

2023-06-01 10:42:04 624

原创数据类岗位面试随想录

数据分析或者是偏向数据分析的数据开发岗，要求无非就是SQL、Python和业务相关的问题。1 SQL问答基本这些问题和期末考试的难度比，是简单的。和学校所教的比，基本超纲的问题只会有窗口函数。这一部分面试官一般不会问你难的问题，例如三范式、事务、完整性、锁这些的。他要是问了，请反思你自己是不是说了什么装逼的话，或者简历写了什么装逼的东西，惹面试官不开心了哈哈哈，一般这部分不会为难人的。

2023-05-29 14:24:44 516

原创 23暑期实习投递的一些感悟

今天是23年5月27号，星期六。目前能投的，感兴趣的基本都投了，一共只有3个offer，跟去年同期比多了一个offer，企业规模也比去年的大。总之，个人觉得疫情放开后，行情有所恢复。去年就两offer，一个星环（小厂）还有一个是元星制药（初创自研）。今年三个offer call，公司就不透露了，毕竟还没有决定具体入职的单位。总之一个大厂，一个小厂，一个初创自研。

2023-05-27 14:48:24 135

转载面试踩坑：XHR是什么

前天周一面试的时候，面试官问我爬虫如何寻找json文件的请求地址时，我很自然的回答按F12后，再按network，再选xhr。于是，面试官就问我xhr是什么？我一下愣住了，以前确实学过相关内容，但已经还给老师了，于是这个问题我并没有很好的答出来。这里MARK一下。

2023-05-10 08:28:22 196 1

原创深度学习——基础概念

最近，由于毕业论文需要，我开始阅读了伊恩·古德费洛等人写的《深度学习》一书。此书十分经典，可谓是机器学习的圣经。第一章节是《引言》，大致介绍了升读学习的相关概念。这里，我就将本书的第一章《引言》做个小结。

2023-05-04 08:34:01 116

原创毕业论文-马尔可夫随机场

这篇博客也与我的毕业论文有关，在上个阶段中，我用python代码实现了EM算法，并及进行了细节上的改进，并记录成了博客：毕业论文-EM算法学习总结我们要做的是,结合马尔科夫随机场和EM算法，来修正EM算法在图像分割时无法很好的处理噪声，以及一些不属于同一类但颜色相似的色块但，导致分割结果不理想的问题。老师给我提供了如下的资料，让我进行复现：技术交底材料一、技术领域本发明专利所涉及的技术领域是混合模型图像分割。

2023-04-09 17:10:18 862 1

原创 ubuntu清理挖矿病毒

清理挖矿程序的基本步骤先用top命令查看cpu占用率大的进程的PID，再用systemctl status cpu占用率大的进程的PID命令查看守护进程地址，以用rm命令删除挖矿程序。在用rm命令删除挖矿程序前，应该检查是否存在后门，以防止坏东西通过后门再次侵入。所谓后门，我检查了路由条目和定时任务：是否有多出来的定时任务（非自己加入的定时任务）？是否有多出来的路由条目？是否是应为集群中其他的服务器被感染，该服务器是被传染的？

2023-02-16 09:33:19 1337

原创 hadoop集群debug——无法访问页面（三台服务器不在同一个内网导致）

hadoop集群debug——无法访问页面（三台服务器不在同一个内网导致）1 问题重述这一次配hadoop集群时，遇到了一个匪夷所思的问题：start-dfs.sh和start-yarn.sh后，明明三台服务器的所有节点全部按要求起来了，但是依然访问不了8088和9870这两个端口的页面。具体是resourcemanager、namenode、secondarynamenode各在一台服务器上。是的，包括datanode和datamanager都起来了，但是就是死活打不开页面。

2023-02-02 21:29:37 472

原创用vue3跑通echarts官网的案例：使用线图绘制近100万的纽约街道数据

用vue3跑通echarts官网的案例：使用线图绘制近100万的纽约街道数据

2023-02-01 11:36:13 455

原创用docker部署django后台作为webstack的后台管理系统-其二

docker构建django镜像，无法用pip安装PyPi库依赖：虽然没有报错，但是打开容器后发现没有安装库

2023-01-29 10:20:00 889 4

原创用docker部署webstack导航网站-其一

用docker部署webstack导航网站-其一遇到的问题：webstack容器无法运行网站报错：No application encryption key has been specified

2023-01-19 18:15:02 3145

原创使用docker时报错：YumRepo Error: All mirror URLs are not using ftp, http[s] or file. Eg. Invalid ...

使用docker时报错：YumRepo Error: All mirror URLs are not using ftp, http[s] or file.Eg. Invalid release/repo/arch combination/removing mirrorlist with no valid mirrors: /var/cache/yum/x86_64/6/base/mirrorlist.txtError: Cannot find a valid baseurl for repo:

2023-01-13 09:41:50 532

原创毕业论文-EM算法学习总结

EM算法（Expectation-Maximization Algorithm）是一种通过不断迭代进而使模型的参数收敛，进而得到模型参数的算法。常用于具有隐变量的参数估计（极大似然估计或者极大后验概率估计）。隐变量是不可观测的随机变量，我们通常通过可观测变量的样本对隐变量作出推断。简而言之，我们手里有一堆数据，我们需要将这对数据分成很多类别，但这些数据并没有任何标签信息。虽然没有标签信息但是这些数据都有很多特征变量，我们可以根据这些特征变量给这些数据进行人为的分类，这便称为”聚类“。而用来标记划分出来的

2023-01-07 18:24:42 922

原创为基于elasticsearch和flask的web端检索系统增加新的检索功能

距离上次写博客已经有20天的光阴了，期间我为之前构建的系统增加了新的检索功能，这是记录了之前检索系统的博客：实习工作小结——下载和导入Elasticsearch模块实现自动比对的功能https://timtian.blog.csdn.net/article/details/124319573?spm=1001.2014.3001.5502接下来先看结果展示：基于Flask和ES的检索系统的系统演示在上面的视屏中可以看到，我们实现了多字段的检索，entity_id和entity_type是分开检索的，但是模板

2022-06-21 15:51:39 492

原创实习工作小结-拆分大文件功能和Elasticsearch文档添加新字段

距离上次的博客已经有1个多月了，这个月里我主要精力放在了《计算理论》的期末考试上，28日终于考完了，考完感觉还不错，长舒一口气。上个月，实习单位里的事情也没干多少，跟领导也解释了，领导挺开明的，也没有多怪我。上个月没工作几天，就只完成了两个功能：拆分大文件功能和Elasticsearch文档添加新字段。这个文件一共90来G是读不进内存的，所以我们需要对其拆分。具体是这样的，有一个大文件上面呢有如下字段：pmid, span_start, span_end, entity string, entity typ

2022-06-01 11:44:01 386 1

原创使用flask实现基于elasticsearch的web端搜索功能

概述干这个远程实习也有一个月了，感觉还不错，一天200的薪资对于一个在校大学生来讲已经不低了。上一周，领导布置了这一周的新的任务。大致要求就是做一个web端的搜索页面，大致逻辑如下图所示：首先呢，可以看到要求web端可以用flask也可以用streamlit，但我更熟悉flask，所以我用了flask写的。大致想法是先让用户选择上传文件的类型，是上传Pubmed ID，根据这个ID进行检索呢，还是上传关键字，根据这个key phrases来匹配title和abstract进行搜索。接着就是常规，

2022-04-22 10:18:04 1434

原创实习工作小结——下载和导入Elasticsearch模块实现自动比对的功能

在之前的工作里我实现了批量下载文件和批量写入elasticsearch的功能，具体可以看这个博客：实习工作小结·批量下载文件和批量写入elasticsearchhttps://blog.csdn.net/qq_41938259/article/details/123862320?spm=1001.2014.3001.5501总的思路是，通过lxml解析器对原来的xml文件进行解析，提取出有用的信息，并导入到elasticsearch中去。下载模块是通过观察wget下载链接的规律，通过拆分字符串实现批量下

2022-04-21 13:53:57 1594

原创实习小结·改进代码（解决爆栈问题）

最近几天实习生和新同事也越来越多了，使用我这台EC2工作的小伙伴也越来越多了。前几天代码运行的到没什么问题，很丝滑很流畅。但从前天开始我的elasticsearch和python脚本是不是的就被killed，一开始我还以为是哪个同事干的，但到了昨天被killed的次数越来越多，我不禁疑惑是谁这么缺德，于是我查看了日志：发现是计算机自己把我的进程给Kill的，原因也写的很清楚：out of memory，也就是爆栈，看来该为这一切背锅的是我自己。我反思了下爆栈的原因。这是我原来的代码：fr.

2022-04-02 10:39:41 3263

原创实习工作小结·批量下载文件和批量写入elasticsearch

工作流程大致是先将文件下载下来，然后再解压。解压后的文件后缀是.xml，于是需要通过xml解析库解析出需要的数据，然后格式规整地写入elasticsearch。首先，数据下载的网站地url是这样的：http://ftp.ncbi.nlm.nih.gov/pubmed/baseline/这个目录下的文件名称格式也很整齐：pubmed22nXXXX.xml.gz，其中XXXX是他的编号，观察了下从1到1114为止。至此，我们的下载链接便是http://ftp.ncbi.nlm.nih.gov/pubme

2022-03-31 08:49:44 387

原创实习工作复盘·用Elasticsearch的Python的API实现搜索功能

之前几日，我先实现了用Python脚本导入XML文件到Elasticsearch中。现在我又写了一个初步的脚本，用elasticsearch框架实现了检索的功能，下面的想法可能是做成一个WEB端的检索系统，目前先实现相关的后端功能。具体要求和思路上面给的要求是输入有两种列表，除此之外不会有第三种序列：[str1,str2,······,strN] 这种列表的语义是str1OR str2 OR······strN [(str1,str2),(str3,str4),······(strN-1,..

2022-03-22 22:00:35 2783 2

原创近阶段学习和实习的小结（git、docker和elasticsearch的使用）

我校在2月24日就正式开学了，很不巧老家苏州发生了疫情就一直没能返校，到了3月初学校所在的哈尔滨又发生了疫情于是返校的日程又被耽搁了。这些天里我一直宅在家学习和工作，在此期间我得到了一个实习offer来自上海张江的一个企业，地址正好在百度研发大楼的对面，我是进行的远程实习，所以是不用去单位的。具体的工作内容是研发一个搜索系统，键入一些列的病症，搜索相关的论文。数据使用的是NCBI（美国国家生物信息中心）提供的开源数据集。我的任务主要是将数据录入elasticsearch和制作一个搜索系统，目前先要在命令

2022-03-21 12:42:49 2675

2022年美赛（MCM）C题M奖论文

result.csv K-means算法的数据集（自用）

逻辑回归用例数据集（EXCEL文件）

空空如也