自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

My Struggle

“一个小孩的自我踌躇”

  • 博客(245)
  • 资源 (3)
  • 收藏
  • 关注

原创 2022年学习和实习总结——收获颇多

原来按照本科毕业那年既定的计划来看的话,我是打算转Java的。不过,今年2023届秋招Java岗的情况似乎不容乐观,身边好多我觉得能力出众的Java大佬都铩羽而归,最终只去了一些中厂和外资,这些开出的工资和大厂还是有一定差距的,着实惋惜。于是,我也就只能减少了投入到学习Java中的时间,打算重新回归C/C++。

2023-01-09 20:34:50 1372 16

原创 9.30小记——2023年实习总结

自从6月的暑假到现在,我已经换了第三份实习了,可叹又可悲。可叹的是费劲千辛万苦终于找到了一家满意的实习单位。可悲的是今年的就业行情和我今年的实习经历一样捉摸不定——实习跳了好几家,一家比一家好,但是要么我看不上人家单位,要么就是我看得上的,转正机会却渺茫。秋招虽然有几个offer,但各方面完全满意的并没有。不仅我是这样,周围的小伙伴们也是如此。下面我就来讲讲今年的实习经历吧。

2023-09-30 17:33:05 495 2

原创 SQL模板-用户留存率计算

在互联网行业中,用户在某段时间内开始使用应用,经过一段时间后,仍然继续使用该应用的用户。用户留存一般区分新增用户留存和活跃用户留存。通过区分不同属性的用户留存状况,对不同用户采取精细的运营策略。于是,我们可以得到如下的代码,期中dt是登录/创号的日期,格式是y y y y-yy-dd。表user_create_raw是记录用户创号信息的表,role_login_in是记录用户登陆信息的表。在这段实习中,我遇到了用户留存率计算的需求,这里做个总结。首先来讲下,什么是用户留存?,“第N天登录的用户总数”为。

2023-09-19 16:34:53 757 1

原创 大数据岗位秋招面试八股文总结(不定时更新)

第一次是局部聚合,先给每个key都打上一个随机数,比如10以内的随机数,此时原先一样的key就变成不一样的了,比如(hello, 1) (hello, 1) (hello, 1) (hello, 1),就会变成(1_hello, 1) (1_hello, 1) (2_hello, 1) (2_hello, 1)。然后将各个key的前缀给去掉,就会变成(hello,2)(hello,2),再次进行全局聚合操作,就可以得到最终结果了,比如(hello, 4)。分区表按照分区字段的值进行分割,容易产生数据倾斜。

2023-08-17 15:29:32 1251

原创 2023.8.8巨人网络数据开发工程师面试复盘

未被external修饰的是内部表,被external修饰的为外部表。内部表数据由Hive自身管理,外部表数据由HDFS管理;内部表数据存储的位置是hive.metastore.warehouse.dir(默认:/user/hive/warehouse), 外部表数据的存储位置由自己设置;删除内部表会直接删除元数据(metadata)及存储数据;删除外部表仅仅会删除元数据,HDFS上的文件并不会被删除。

2023-08-17 15:06:10 807

原创 饿了么大数据开发凉经

1)map数量由处理的数据分成的block数量决定default_num = total_size / split_size;2)reduce数量为job.setNumReduceTasks(x)中x 的大小。不设置的话默认为 1。

2023-08-16 21:12:35 1746

原创 在星环的数据治理实习工作-表级取舍原则

8) 预留表:源系统中针对某项功能预留的表,目前系统尚无此功能而未使用该表。因此,只需取当前表中数据即可。5) 临时数据表:计算某一最终结果所需的临时过程数据或开发过程中使用的表,此类数据一般不入模型,只取最终的结果数据。4) 中间数据表:计算某一最终结果所需的中间过程数据,此类数据一般不入模型,只取最终的结果数据。2) 冗余数据表:同一类数据在多张表中都有描述,出现冗余现象时,从中找出最准确的源头获取数据。12)统计数据表:基于一些基础数据进行统计的表,目前先对基础数据进行盘点,统计数据表暂不保留。

2023-08-10 10:32:22 120

原创 SQL中与NULL相关的操作

在SQL中,三值逻辑是指某个条件为真、假或未知。当涉及到null值时,条件的结果可能是未知的。这意味着无法直接使用等号(=)进行null值的比较。这个语句执行的结果时返回一个空表。因为表中的null表示未知数。这与Python的NaN有着异曲同工之妙。我们应该使用 IS NULL来判断。

2023-07-26 10:33:48 793

原创 使用wordpress搭建WebStack导航网站记录

首先,我来介绍下,这个webstack导航网站实际上是被做成了wordpress的一个主题,具体这个主题的下载地址如下:WordPress 版 WebStack 导航主题我们不需要使用git clone命令,直接下载zip文件就可以,因为wordpress的主题本来就是要求上传zip文件的。不过,在此之前我们需要先搭建wordpress站点。

2023-07-05 16:04:15 666

原创 Kafka相关的一些基础概念

Kafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。

2023-06-22 20:50:24 1359

原创 HBase相关的一些基础概念

之前面试前司星环的时候,面试官问到HBase那一块的时候直接把我问懵了。上一次使用HBase还是本科的那个图书推荐系统的项目,已经年代久远了,所以今天我特意整理了下HBase相关的知识点。

2023-06-01 10:42:04 624

原创 数据类岗位面试随想录

数据分析或者是偏向数据分析的数据开发岗,要求无非就是SQL、Python和业务相关的问题。1 SQL问答 基本这些问题和期末考试的难度比,是简单的。和学校所教的比,基本超纲的问题只会有窗口函数。这一部分面试官一般不会问你难的问题,例如三范式、事务、完整性、锁这些的。他要是问了,请反思你自己是不是说了什么装逼的话,或者简历写了什么装逼的东西,惹面试官不开心了哈哈哈,一般这部分不会为难人的。

2023-05-29 14:24:44 516

原创 23暑期实习投递的一些感悟

今天是23年5月27号,星期六。目前能投的,感兴趣的基本都投了,一共只有3个offer,跟去年同期比多了一个offer,企业规模也比去年的大。总之,个人觉得疫情放开后,行情有所恢复。去年就两offer,一个星环(小厂)还有一个是元星制药(初创自研)。今年三个offer call,公司就不透露了,毕竟还没有决定具体入职的单位。总之一个大厂,一个小厂,一个初创自研。

2023-05-27 14:48:24 135

转载 面试踩坑:XHR是什么

前天周一面试的时候,面试官问我爬虫如何寻找json文件的请求地址时,我很自然的回答按F12后,再按network,再选xhr。于是,面试官就问我xhr是什么?我一下愣住了,以前确实学过相关内容,但已经还给老师了,于是这个问题我并没有很好的答出来。这里MARK一下。

2023-05-10 08:28:22 196 1

原创 深度学习——基础概念

最近,由于毕业论文需要,我开始阅读了伊恩·古德费洛等人写的《深度学习》一书。此书十分经典,可谓是机器学习的圣经。第一章节是《引言》,大致介绍了升读学习的相关概念。这里,我就将本书的第一章《引言》做个小结。

2023-05-04 08:34:01 116

原创 毕业论文-马尔可夫随机场

这篇博客也与我的毕业论文有关,在上个阶段中,我用python代码实现了EM算法,并及进行了细节上的改进,并记录成了博客:毕业论文-EM算法学习总结我们要做的是,结合马尔科夫随机场和EM算法,来修正EM算法在图像分割时无法很好的处理噪声,以及一些不属于同一类但颜色相似的色块但,导致分割结果不理想的问题。老师给我提供了如下的资料,让我进行复现:技术交底材料一、技术领域本发明专利所涉及的技术领域是混合模型图像分割。

2023-04-09 17:10:18 862 1

原创 ubuntu清理挖矿病毒

清理挖矿程序的基本步骤 先用top命令查看cpu占用率大的进程的PID,再用systemctl status cpu占用率大的进程的PID命令查看守护进程地址,以用rm命令删除挖矿程序。在用rm命令删除挖矿程序前,应该检查是否存在后门,以防止坏东西通过后门再次侵入。所谓后门,我检查了路由条目和定时任务:是否有多出来的定时任务(非自己加入的定时任务)?是否有多出来的路由条目?是否是应为集群中其他的服务器被感染,该服务器是被传染的?

2023-02-16 09:33:19 1337

原创 hadoop集群debug——无法访问页面(三台服务器不在同一个内网导致)

hadoop集群debug——无法访问页面(三台服务器不在同一个内网导致)1 问题重述这一次配hadoop集群时,遇到了一个匪夷所思的问题:start-dfs.sh和start-yarn.sh后,明明三台服务器的所有节点全部按要求起来了,但是依然访问不了8088和9870这两个端口的页面。具体是resourcemanager、namenode、secondarynamenode各在一台服务器上。是的,包括datanode和datamanager都起来了,但是就是死活打不开页面。

2023-02-02 21:29:37 472

原创 用vue3跑通echarts官网的案例:使用线图绘制近100万的纽约街道数据

用vue3跑通echarts官网的案例:使用线图绘制近100万的纽约街道数据

2023-02-01 11:36:13 455

原创 用docker部署django后台作为webstack的后台管理系统-其二

docker构建django镜像,无法用pip安装PyPi库依赖:虽然没有报错,但是打开容器后发现没有安装库

2023-01-29 10:20:00 889 4

原创 用docker部署webstack导航网站-其一

用docker部署webstack导航网站-其一遇到的问题:webstack容器无法运行网站报错:No application encryption key has been specified

2023-01-19 18:15:02 3145

原创 使用docker时报错:YumRepo Error: All mirror URLs are not using ftp, http[s] or file. Eg. Invalid ...

使用docker时报错:YumRepo Error: All mirror URLs are not using ftp, http[s] or file.Eg. Invalid release/repo/arch combination/removing mirrorlist with no valid mirrors: /var/cache/yum/x86_64/6/base/mirrorlist.txtError: Cannot find a valid baseurl for repo:

2023-01-13 09:41:50 532

原创 毕业论文-EM算法学习总结

EM算法(Expectation-Maximization Algorithm)是一种通过不断迭代进而使模型的参数收敛,进而得到模型参数的算法。常用于具有隐变量的参数估计(极大似然估计或者极大后验概率估计)。隐变量是不可观测的随机变量,我们通常通过可观测变量的样本对隐变量作出推断。简而言之,我们手里有一堆数据,我们需要将这对数据分成很多类别,但这些数据并没有任何标签信息。虽然没有标签信息但是这些数据都有很多特征变量,我们可以根据这些特征变量给这些数据进行人为的分类,这便称为”聚类“。而用来标记划分出来的

2023-01-07 18:24:42 922

原创 为基于elasticsearch和flask的web端检索系统增加新的检索功能

距离上次写博客已经有20天的光阴了,期间我为之前构建的系统增加了新的检索功能,这是记录了之前检索系统的博客:实习工作小结——下载和导入Elasticsearch模块实现自动比对的功能https://timtian.blog.csdn.net/article/details/124319573?spm=1001.2014.3001.5502接下来先看结果展示:基于Flask和ES的检索系统的系统演示在上面的视屏中可以看到,我们实现了多字段的检索,entity_id和entity_type是分开检索的,但是模板

2022-06-21 15:51:39 492

原创 实习工作小结-拆分大文件功能和Elasticsearch文档添加新字段

距离上次的博客已经有1个多月了,这个月里我主要精力放在了《计算理论》的期末考试上,28日终于考完了,考完感觉还不错,长舒一口气。上个月,实习单位里的事情也没干多少,跟领导也解释了,领导挺开明的,也没有多怪我。上个月没工作几天,就只完成了两个功能:拆分大文件功能和Elasticsearch文档添加新字段。这个文件一共90来G是读不进内存的,所以我们需要对其拆分。具体是这样的,有一个大文件上面呢有如下字段:pmid, span_start, span_end, entity string, entity typ

2022-06-01 11:44:01 386 1

原创 使用flask实现基于elasticsearch的web端搜索功能

概述干这个远程实习也有一个月了,感觉还不错,一天200的薪资对于一个在校大学生来讲已经不低了。上一周,领导布置了这一周的新的任务。大致要求就是做一个web端的搜索页面,大致逻辑如下图所示:首先呢,可以看到要求web端可以用flask也可以用streamlit,但我更熟悉flask,所以我用了flask写的。大致想法是先让用户选择上传文件的类型,是上传Pubmed ID,根据这个ID进行检索呢,还是上传关键字,根据这个key phrases来匹配title和abstract进行搜索。接着就是常规,

2022-04-22 10:18:04 1434

原创 实习工作小结——下载和导入Elasticsearch模块实现自动比对的功能

在之前的工作里我实现了批量下载文件和批量写入elasticsearch的功能,具体可以看这个博客:实习工作小结·批量下载文件和批量写入elasticsearchhttps://blog.csdn.net/qq_41938259/article/details/123862320?spm=1001.2014.3001.5501总的思路是,通过lxml解析器对原来的xml文件进行解析,提取出有用的信息,并导入到elasticsearch中去。下载模块是通过观察wget下载链接的规律,通过拆分字符串实现批量下

2022-04-21 13:53:57 1594

原创 实习小结·改进代码(解决爆栈问题)

最近几天实习生和新同事也越来越多了,使用我这台EC2工作的小伙伴也越来越多了。前几天代码运行的到没什么问题,很丝滑很流畅。但从前天开始我的elasticsearch和python脚本是不是的就被killed,一开始我还以为是哪个同事干的,但到了昨天被killed的次数越来越多,我不禁疑惑是谁这么缺德,于是我查看了日志:发现是计算机自己把我的进程给Kill的,原因也写的很清楚:out of memory,也就是爆栈,看来该为这一切背锅的是我自己。我反思了下爆栈的原因。这是我原来的代码:fr.

2022-04-02 10:39:41 3263

原创 实习工作小结·批量下载文件和批量写入elasticsearch

工作流程大致是先将文件下载下来,然后再解压。解压后的文件后缀是.xml,于是需要通过xml解析库解析出需要的数据,然后格式规整地写入elasticsearch。首先,数据下载的网站地url是这样的:http://ftp.ncbi.nlm.nih.gov/pubmed/baseline/这个目录下的文件名称格式也很整齐:pubmed22nXXXX.xml.gz,其中XXXX是他的编号,观察了下从1到1114为止。至此,我们的下载链接便是http://ftp.ncbi.nlm.nih.gov/pubme

2022-03-31 08:49:44 387

原创 实习工作复盘·用Elasticsearch的Python的API实现搜索功能

之前几日,我先实现了用Python脚本导入XML文件到Elasticsearch中。现在我又写了一个初步的脚本,用elasticsearch框架实现了检索的功能,下面的想法可能是做成一个WEB端的检索系统,目前先实现相关的后端功能。具体要求和思路上面给的要求是输入有两种列表,除此之外不会有第三种序列:[str1,str2,······,strN] 这种列表的语义是str1OR str2 OR······strN [(str1,str2),(str3,str4),······(strN-1,..

2022-03-22 22:00:35 2783 2

原创 近阶段学习和实习的小结(git、docker和elasticsearch的使用)

我校在2月24日就正式开学了,很不巧老家苏州发生了疫情就一直没能返校,到了3月初学校所在的哈尔滨又发生了疫情于是返校的日程又被耽搁了。这些天里我一直宅在家学习和工作,在此期间我得到了一个实习offer来自上海张江的一个企业,地址正好在百度研发大楼的对面,我是进行的远程实习,所以是不用去单位的。具体的工作内容是研发一个搜索系统,键入一些列的病症,搜索相关的论文。数据使用的是NCBI(美国国家生物信息中心)提供的开源数据集。我的任务主要是将数据录入elasticsearch和制作一个搜索系统,目前先要在命令

2022-03-21 12:42:49 2675

原创 设计模式总结八(享元模式、解释器模式和访问者模式)

前言这是《大话设计模式》总结最后一篇博文了,对设计模式的学习也暂告一段落,接下来我来总结最后三个设计模式:享元模式、解释器模式和访问者模式。

2022-03-17 19:45:31 495

原创 设计模式总结七(命令模式、职责链模式和中介者模式)

距离上一次写设计模式总结已经有半个多月了,这一次我准备总结命令模式、职责链模式和中介者模式三个设计模式。命令模式文中举了小菜去吃烤肉串的例子,由于顾客较多老板频频出错。于是大鸟就说:“如果记录下哪个人需要几串羊肉串或者其他的要求,就不会这么容易出错了。在编码中,这就是行为请求者与行为实现者的紧耦合。需要对请求排队或者记录请求日志,以及支持可撤销的操作,这样就可以使得行为请求者与行为实现者的紧耦合化解。“小菜按照大鸟的要求改了三趟代码,之后引入了命令...

2022-03-12 14:56:59 443

原创 对正在准备2022年哈尔滨工程大学计算机类考研复试的考生的一些建议

1. 概要在2021年,哈尔滨工程大学计算机类考研复试是在线上进行的,使用的学信网的复试系统。主要是分为以下几个部分:中文自我介绍、英文自我介绍和英语翻译、两门专业课的选择题、程序阅读题、思想品德问答和工程实践问答。2. 复试需要准备的一些东西复试使用的是学信网的复试系统,需要双机位。第一机位是带有摄像头的电脑,所以使用台式机的朋友们需要配备一个麦克风和一个摄像头。这里推荐罗技的C270摄像头,也是我复试的时候使用的,售价大致130元上下,这个摄像头是带麦克风的。效果不错,可以省下买麦克风的

2022-03-06 16:16:38 2734 67

原创 数据分析——ETF基金申购赎回清单

序言2021年4月入职了南京一家数据导向的人工智能企业。这个岗位除了写些Python的脚本代码外,还有的工作就是文本标记。文本标记可以认为是人工将数据整理、清洗的一个过程,虽然比较枯燥但也是必不可少的环节。在过去的半个多月里,我接触到了如何处理json文件。之前我也比较菜,接触到的都是可以用xpath直接匹配到html文件的那种,在现在的工作里我第一次接触到了json文件。现在我以民生加银沪深300ETF这个基金为例,通过分析它的json文件来处理它的申购赎回清单。分析据了解,一般只有以ET

2022-03-02 21:03:05 1688

原创 2022年美赛C题M奖思路复盘(附代码、附论文)

前言美赛已经结束4天了,一直忙于教资考试的准备,今天我终于抽空写了这篇C题思路复盘的博客。题目大致要求题目叫'Trading Strategies(交易策略)',一共给了两个文件,分别是比特币和黄金价格随时间变化的CSV文件。大致要求可以分为以下四个步骤:基于截止至当日的价格情况建立模型,预测2021年9月10日原来的本金1000美元会变成多少钱?(Develop a model that gives the best daily trading strategy based only on

2022-02-26 15:51:58 19334 7

原创 DeBank和非小号网站的数据分析-实习工作小结

暑期实习的时候,我们部门开始对DeBank和非小号等网站进行金融数据分析,所以轮到我处理相关的数据了。这么多天了也没怎么写博客,今天我就写一篇,算是对暑期实习的一个小结。所有的数据是从DeBank和非小号两个网站获取的。主要是处理以下四个字段的数据:日期(近12个月)、锁仓量、24H额、收盘价,结果是要给数据分析师一个excel表格。 我看了一眼,这两个网站都是json传输表格里的数据的,还是挺好搞的。最后要输出excel表格,直接用pandas库的DataFrame数据结构来...

2022-02-26 14:55:06 2804 2

原创 设计模式总结六(迭代器模式、单例模式、桥接模式)

序前些日子里,我不仅读完了《大话设计模式》我还读完了一本非专业书籍,黄灯写的《我的二本学生》。笔者黄灯以一名大学老师和辅导员的视角,回顾了从70年代到90后二本学生境遇的变迁,反思了一些现实性的问题。读完颇有感悟,有时间的话我希望可以单独为此写篇读后感。但现在就先让我总结我在《大话设计模式》一书中学到的内容吧。迭代器模式...

2022-02-22 18:29:39 339

原创 设计模式总结五(状态模式、适配器模式、备忘录模式和组合模式)

之前的第三篇博文里,写了外观模式、建造者模式、观察者模式和抽象工厂模式的总结。这次,我总结《大话设计模式》的16至19章内容,分别是状态模式、适配器模式、备忘录模式和组合模式...

2022-01-29 15:10:43 1040

原创 Kafka学习踩坑:Linux终端显示Starting zookeeper ... FAILED TO START

第一次系统学习Kafka,在安装Zookeeper的时候就踩了坑,Linux终端显示Starting zookeeper ... FAILED TO START。找了半天才搞明白查看错误的办法,在zkServer.sh文件所在目录输入如下命令:./zkServer.sh status # 查看zookeeper的状态./zkServer.sh start-foreground # 查看错误原因显示如下:即:Error: Could not find or load mai...

2022-01-23 22:30:04 2003 2

2022年美赛(MCM)C题M奖论文

2022年美赛(MCM)C题M奖论文,查看论文需要1.9元,不是很贵,欢迎支持我们。学术生涯不易,希望大家理解,嗷嗷待哺欢迎投喂!

2022-05-08

result.csv K-means算法的数据集(自用)

用于K-means算法的数据集,当让你聚类完后也可以逻辑回归或者线性回归。

2020-02-07

逻辑回归用例数据集(EXCEL文件)

逻辑回归用例数据集(EXCEL文件)。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

2020-02-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除