小明2766-CSDN博客

原创借助单调栈实现查找数组中每个数左边/右边第一个比它大/小的元素下标 Java模板

四种情况分别对应查找数组中每个数左边/右边第一个比它大/小的元素下标。

2024-05-02 14:50:02 75

原创 scipy.sparse.coo_matrix.sum()关于axis的用法

简单的记法就是axis等于谁，谁消失

2023-10-08 20:33:19 292

原创【推荐系统-＞相似度】Cos相似度与皮尔逊相似度及其关联

Cos相似度即两个向量在空间里的夹角余弦值。取值范围为[-1,1]，0代表正交，-1和1代表方向完全相反和相同。

2023-02-23 15:54:28 693 1

原创《数据分析方法论和业务实战》读书笔记

数据指标是通过对数据进行分析的一个汇总结果，是使得业务目标可描述、可度量、可拆解的度量值。数据指标不仅是数据，而且要被数据分析利用。数据指标由“维度”和“计算方式”组成。常见的维度有平台（IOS、安卓）、时间（日期）、新/老客户、年龄群体、渠道来源。。。常见的计算方式有求和、求差、取均值/中位数、相除/相乘、最大/最小举例：“安卓用户的平均观看时长”，维度是安卓，计算方式是平均观看时长，即取时长的均值。数据指标体系是把数据指标系统地组织起来，它面向功能模块或者其他业务模块。

2023-02-18 17:14:41 1192

原创复制PDF文字时去掉换行符

使用方法：复制pdf的文字，再运行一下这个指令，最后粘贴文字即可。当我们在pdf上复制文字时，每行总会出现换行符，乱糟糟的。windows推荐开源软件。

2023-01-11 17:31:05 1740

原创【kg推荐-＞精读】Learning Intents behind Interactions with Knowledge Graph for Recommendation

现有的基于GNN的模型是粗粒度的，不能在intents（意图）的细粒度级别识别user-item关系。利用关系依赖(relation dependencies) 来保持长连接的语义(preserve the semantics of long-range connectivity)本研究中，使用auxiliary item knowledge(辅助item知识)探索user-item交互背后的意图(intents)。

2022-10-21 21:17:31 1185

原创【kg推荐-＞精读】RippleNet: Propagating User Preferences on the Knowledge Graph for Recommender Systems

为了解决协同过滤的稀疏性和冷启动问题，通常利用side information，比如social networks，item attributes。为了解决基于embedding和基于path的knowledge-aware recommendation的局限性，提出了RippleNet。ripple名为涟漪，模型通过自动地、迭代地延伸用户的潜在兴趣（沿着KG的links），促进用户偏好在knowledge entities上的传播。

2022-10-21 21:12:17 608 1

原创【异构图-＞精读】Heterogeneous Graph Attention Network

graph neural network没有考虑异构图。异构图：在图里，节点的类型+边的类型>2。异构性和丰富的语义信息给异构图的图神经网络设计带来了极大的挑战。本文提出：heterogeneous graph neural network based on the hierarchical attention, including node-level and semantic-level attentions（基于层次注意力的异构图神经网络，包括节点级和语义级注意力）

2022-10-21 21:07:02 1877

原创【kg推荐-＞精读】KGAT: Knowledge Graph Attention Network for Recommendation

除了modeling user-item交互，side information也需要考虑。传统方法，比如FM，每一次交互都是独立的实例，并对side information进行编码。它忽略实例/items之间的关系（例如，电影导演也是另一部电影的演员）。KG，将items和它们的属性联系起来，打破了独立的interaction假设。在KG和user-item图的混合结构中，**高阶关系（用一个或多个链接属性连接两个items）**是成功推荐的关键因素。本文提出Kgat，知识图谱注意力网络。

2022-10-21 21:02:56 829

原创【kg推荐-＞精读】Differentiable Sampling on Knowledge Graph for Recommendation with Relational GNN

出现冷启动问题时，将KGs作为side information可以缓解这一问题。问题：node degrees是倾斜（skewed）的；KGs中大量交互是推荐无关的。解决：本文提出一种基于知识图谱的可微抽样推荐方法。设计了一种可微分抽样策略，使相关项目的选择与模型训练过程共同优化。Q1. kg作为side information？先驱，需要看Q2. 如何构造关系图的？图1a。模型的一部分，需要看Q3. 过去的采样方法：Q4. 什么是Gumbel-Softmax？

2022-10-21 21:00:13 415

原创【读书笔记-＞数据分析】03 BDA数据可视化

研究表明，90%的信息通过视觉形式传到大脑，速度比文字信息要快6万倍。

2022-10-14 19:17:31 601

原创【算法】图存储-邻接表、以及基于深搜的拓扑排序——Python实现

基本概念有向⽆环图：没有环的有向图拓扑序：有向图的拓扑序是指满⾜下列条件的顶点序列 v1,v2,...,vn对于每⼀条边(vi. vj) ，都有i < j

2022-10-08 13:40:16 272

原创【算法】自己制作的《算法笔记》章节知识大纲思维导图

自己制作的《算法笔记》章节知识大纲思维导图。

2022-10-07 19:26:48 129

转载【机器学习-＞获取数据】利用tqdm(DLProgress), urlretrieve()的数据集下载通用代码，以MovieLens为例

以下载MovieLens为例，实现一个存放到指定路径，显示下载进度的效果。个人觉得这段代码比较通用，记录一下。另外还可以参考的解压MovieLens的代码。

2022-09-24 21:50:25 738

原创【Python】获得指定路径下找到所有大文件

会打印出该文件夹下所有大文件，并且按降序排列。如果打印结果不好看，可以用Excel/WPS打开保存的csv文件。

2022-09-16 00:33:33 153

原创【Python】获得指定路径下的所有jpg和png文件

利用os.walk()和fnmatch模块

2022-09-07 11:54:01 2441

原创【Python】利用zipfile.ZipFile和write()创建压缩包

文件目录如下，源代码写在test.py中，我想把同路径下的tree1的文件夹整个压缩。

2022-09-06 11:12:58 3580

转载【Python】python使用Counter()统计列表中字符出现的频率（次数）

文件对象有iter、next方法，所以它是一个可迭代对象，可以用for循环遍历。我们可以遍历文件获得每一行字符，再遍历每一行，获得每个字符，将字符放入列表，然后统计每个字符出现的频率。以统计文件中字符的频率为例，可以通用到其他应用中去。案例：统计字母出现的频率。

2022-09-04 17:28:16 2723

原创【推荐系统-＞论文阅读】Wide&Deep模型

（非线性特征转换transformation的广义线性模型被广泛用于回归和分类）在本文提出Wide & Deep模型，jointly trained wide linear modelsand deep neural networks—to combine the benefits ofand。

2022-09-04 15:01:40 557 2

原创 Mac使用快捷指令启动jupyter

【代码】Mac使用快捷指令启动jupyter。

2022-09-03 21:05:18 1198

转载【研究生思维】文献阅读与研究方法

哪些文献值得一读？如何搜寻和定位学术文献找到自己。

2022-09-03 11:00:18 532

转载【研究生思维】科研工具使用

前言WTD，研究结果ROF(Result of Findings)，讨论RCL(Results Consistent with Literature)，讨论RTL(Results to the Contrary)，结论WTDD(What They Did)，结论RFW(Recommendation for Future Works)引文索引库：追根湖源，课题研究总体研究趋势、学科分布，相关研究者/机构/团队，学科前沿、热点，影响力年代变化等；期刊类数据库：最新研究成果，信息量大，学科范围广；

2022-09-03 10:57:23 301

转载【研究生思维】科研思维培养

樊老师在学术、科研、行政三肩挑的过程中，在办公室中有人和老师谈事，谈完后叫客人把门带一下，就像把纱接起来那样，继续写作，把思想绵延下去，呈现到电脑里头。不要着急学课，当你需要的时候去学，和为了完成课程去学，其实完全不是一种感受，需要的时候再学会远远超出为了完成去学的状态，会学得更深、更多、更有乐趣。要有自己的愿景，以后我要成为什么样的人，在学术做什么样的贡献。的能力更加重要，学术生活中会碰到各种各样的困难，是否能走下去，才是一个人成功与否的道路。学问，在生活的点点滴滴，在图书馆、电脑桌前我们往往。

2022-09-03 10:54:19 417

转载【数学】点积与叉积

几何意义：点积的结果是一个标量，等于向量大小与夹角的cos值的乘积。交换律：分配律：结合律：其中m是实数。设c=a×b=(x1,y1,z1)×(x2,y2,z2)=(y1∗z2−y2∗z1,z1∗x2−z2∗x1,x1∗y2−x2∗y1)c =a×b =(x1,y1,z1)×(x2,y2,z2)=(y1*z2 - y2*z1, z1*x2 - z2*x1, x1*y2 - x2*y1)c=a×b=(x1,y1,z1)×(x2,y2,z2)=(y1∗z2−y2∗z1,z1∗x2−z2∗x1,x1∗y

2022-08-06 11:09:52 3829

转载【python】open(), write()函数

b"表示处理二进制文件(如：FTP发送上传ISO镜像文件，linux可忽略，windows处理二进制文件时需标注)打开文件时，需要指定文件路径和以何等方式打开文件，打开后，即可获取该文件句柄，日后通过此文件句柄对该文件操作。文件句柄 = open(‘文件路径’, ‘模式’)对应的open（读取文件）方法。write()方法语法如下。...

2022-08-06 11:08:19 2919

转载【Python】argparse.ArgumentParser()使用方法

argparse是一个Python模块：命令行选项、参数和子命令解析器。模块可以让人轻松编写用户友好的命令行接口。程序定义它需要的参数，然后将弄清如何从解析出那些参数。模块还会自动生成帮助和使用手册，并在用户给程序传入无效参数时报出错误信息。...

2022-08-04 17:10:12 665

原创【读书笔记-＞数据分析】02 BDA数据分析准备

章节内容数据分析前关于数据的收集、存储以及预处理等准备工作考试内容考核内容数据收集数据存储数据预处理数据预处理的R软件实现。

2022-07-29 10:28:44 454

原创【读书笔记-＞数据分析】01 BDA数据分析导论

章节内容数据的概念、分类、价值以及数据分析的方法、步骤与工具等方面考试内容考核内容。

2022-07-23 11:06:44 452

原创【读书笔记-＞数据分析】BDA教材《数据分析》书籍介绍

BDA数据分析职业技能等级。BDA数据分析师证书分为五个层级。

2022-07-23 10:56:00 898

原创【读书笔记-＞统计学】12-02 置信区间的构建-t分布概念简介

t分布的标准分的计算方法与正态分布的标准分的计算方法相同。唯一的差别是，我们用T而不是Z代表结果，这是为了配合t分布的使用。当n很小时，t分布给出的置信区间比正态分布的置信区间更宽，这使它更适合用于小样本。为了求出t值，先从概率表中查找第一列的v值，再查找第一行的p值，二者的交点处即为t值。t分布的使用方法与正态分布相似——先将概率区间的上下限转化为标准分，然后用概率表求出所需要的结果。通过t分布概率表可求出P(T>t)中的t值。一般说来，较小的样本形成较宽的置信区间，较大的样本形成较窄的置信区间。....

2022-07-19 13:26:50 6459 1

原创【读书笔记-＞统计学】12-01 置信区间的构建-置信区间概念简介

引言上一章帮助我们利用样本估计总体均值、方差或一定比例的精确值。但是你认为的样本就一定准确（或者说无偏）吗？这一章，另一种估计总体统计量的方法——置信区间，有其作用。曼帝糖果公司用一个包含100粒糖球的样本得出口味持续时间均值的点估计量为62.7分钟，同时总体方差的点估计量为25分钟。这是根据手头证据有可能得出的最可靠的口味持续时间估计，可要是略有差池，那该怎么办？因此，与其给出一个精确值作为总体均值的估计值，不如采用另一种方法。。确定空间的宽度取决于自己对结果有多大自信了。...

2022-07-19 13:23:15 3790

原创【安利】mac免费开源文字识别-使用脚本和快捷指令-可识别中文（利用macOCR)

在mac上，常用的截图文本识别软件有TextScanner、iText等等，但是它们都是付费的。这次我无意发现了利用脚本和苹果快捷指令就可以使用的开源截图文本识别软件，推荐给大家！！！具体效果如下图所示。在你运行了脚本后（在此之前需要下载ocr脚本到本地），鼠标会变成一个十字叉叉，类似截图操作之后，文字会自动显示在命令行里，同时也复制到了剪切板中。以我自己为例：但是问题是，这样不方便，同时只能识别英文，所以有第二步。但是后面，我们还要在尾部添加。这样才能同时识别中文和英文。具体如下所示：如果想要把快捷指令放

2022-07-13 17:45:04 1966 4

原创【读书笔记-＞统计学】11-03 总体和样本的估计-样本均值的概率、中心极限定理概念简介

假设一个情境：曼帝糖果公司也生产小袋装糖球，每一个小包装袋里的糖球数目均值为10，方差为1。然而，有一个顾客买了30袋糖球，结果发现每袋糖球中的糖球平均数目只有8.5。求这种事情发生概率有多大？这次我们已知小包装糖球的总体均值和方差，然后抽取了几袋糖球作为样本，需要为该样本计算概率（样本均值的概率）。为了计算样本均值的概率，先要得出样本均值的概率分布。下面是具体步骤：如果我们手头的样本大小为 n，则需要考虑大小为的所有可能样本。小包装糖球有 30 袋，因此这里的 n 为 30。每一个样本都各有特点，每个包装

2022-07-10 17:49:10 2680

原创【读书笔记-＞统计学】11-02 总体和样本的估计-总体比例、样本比例、根据总体预测样本比例概念简介

假设一个情境：曼帝糖果公司再一次进行了抽样，以便利用调查结果预测：总体中有多大比例的人“可能偏爱曼帝公司的糖球”。结果发现，在40个人中有32个人偏爱他们的口香糖球，其余8个人则偏爱竞争对手的口香糖球。首席执行官感兴趣的是，是否人人都偏爱曼帝糖果的产品。那么可以将偏爱曼帝糖果的每一个人作为一个“成功”事件。那么我们如何利用样本数据预测总体的“成功”比例？如果我们用 X 表示总体的成功事件数量，则 X 符合二项分布，参数为n和p。n为总体中的人数，p 为成功事件的比例。就像总体均值的最接近估计是样本均值一样，

2022-07-10 17:45:41 9447

原创【读书笔记-＞统计学】11-01 总体和样本的估计-总体均值、样本均值、点估计量、总体方差、估计总体方差概念简介

假设一个情境：曼帝糖果公司得到了超长效口香糖球的无偏样本，他们对样本中的每一粒糖球进行测试，得到了关于样本糖球口味持续时间的大量数据。现在，求糖球总体的口味持续时间的均值和方差。如果样本是无偏样本，那么样本的糖球与总体糖球的口味持续时间相符，也就是说，我们求出样本的均值，然后将样本均值作为总体均值。虽然不能说这两者完全吻合，但这是我们能做出的最好估计。在我们根据手头信息得到的数值中，样本均值是最有可能被作为总体均值的数值。样本均值被称为总体均值的点估计量，也就是说，作为一个基于样本数据的计算结果，它给出了

2022-07-10 17:41:10 8467

转载【推荐系统】基于用户的协同过滤简明原理与代码实现

协同过滤（Collaborative Filtering）推荐算法是最经典、最常用的推荐算法。基本思想是：根据用户之前的喜好以及其他兴趣相近的用户的选择来给用户推荐物品。目前应用比较广泛的协同过滤算法是基于邻域的方法，主要有：不管是 UserCF 还是 ItemCF 算法，重点是计算用户之间（或物品之间）的相似度。杰卡德（Jaccard）相似系数系数是衡量两个集合的相似度一种指标，计算公式如下：simuv=∣N(u)∩N(v)∣∣N(u)∣∪∣N(v)∣sim_{uv}=\frac{|N(u) \c

2022-06-28 22:02:11 855

转载【论文写作】英文论文写作指南

以CCF A类论文为标准写论文。发现问题、系统地调研（大家用了哪些方法，有什么问题）、寻找有效方法、实践验证，最后复盘学术品位（哪些论文精读、细读，有自己的判断力）、结构思维（思考有哪些类型方法、有条理地表达梳理）、严谨逻辑（说清楚问题）、清晰表达（和道友交流）培养不急功近利、不患得患失、交流共享、持续积累的思想从需要老师指导才会有idea；到发觉本质，自己想出idea；最后到拓展方向和眼界，帮助师弟师妹完成论文。确定topic->大量阅读文献->确定method->实验分析标题是“你解决的核心问题、你最大

2022-06-28 09:06:19 197

原创【机器学习-＞预处理】pandas数据预处理：读取csv、处理缺失数据、转换为tensor

读取csv处理缺失数据常用的方法有插值法和删除法

2022-06-17 19:57:24 560

原创【机器学习-＞预处理】torch.tensor基础操作：初始化、索引、转换为ndarray

torch.tensor基础操作：初始化、索引、转换为ndarray

2022-06-17 19:55:22 640

转载【机器学习理论】True Positive, True Negative, False Positive, False Negative概念

True Positive, True Negative, False Positive, False Negative概念1前面的True/False表示“对了没”，后面的positive/negative表示“预测的值”。Precision（准确率）针对预测为1（predicted值为1的行），预测正确的比率；True positive / (True positive + False positive)Recall（召回率）针对实际为1（actual值为1的列），预测正确的比率；True positi

2022-06-10 07:33:42 1921

《算法笔记》的知识大纲

全球学术快报-0.1.12.dmg

netcat-cygwin.patch

libsvm-3.24-cp36-cp36m-win_amd64.whl

draw.io windows桌面版

空空如也