x66ccff-CSDN博客

原创【NLP】为什么要有 tf-idf，从 bag-of-words 说起

词袋模型最常用的是可以将其得到的文档词频（term frequency）作为一个 feature。比如上文中的文档1和文档2，其 term frequency feature 可以用列表表示为其中，的第一个元素值 1 表示 John 在文档 1 中出现了一次，第二个元素值 2 表示 likes 出现了两次。词袋模型并没有保留原文档的语法结构。同时， term frequency 也**不是文档的最佳向量表示。

2024-04-18 21:33:03 270

原创 Buckingham 的 Pi 定理

为了构造这些Pi项，我们可以从选择一组包含所有基本维度的重复变量开始。根据Buckingham 's Pi定理，我们可以创建。接下来，我们将这些变量与剩余的变量组合成无量纲乘积。是基本维度的数量(在本例中为3)。是需要从经验或理论上确定的函数。是雷诺数，这是表征流体流动状态的基本无量纲量。这一项是无量纲的因为上面和下面的量纲约掉了。这些变量用3个基本维度表示:质量。是变量的数量(在本例中为5)，假设我们要理解流体以速度。

2024-04-09 16:23:58 585

原创【linux】输出重定向＞output.log

是一个强大的命令行命令，它可以帮助我们方便地执行 Python 脚本并保存输出日志。通过理解和使用这个命令，我们可以更好地管理和调试 Python 脚本。

2024-04-08 20:04:04 238

原创【图网络】四种中心性

中心性度量在网络分析中至关重要，有助于识别图中最重要的顶点。不同的中心性度量度量了不同类型的重要性。以下是可以应用这些中心性的一些特定场景。:在像Twitter这样的社交网络中，度中心性高的用户有很多关注者，表明他们是有影响力的用户。:在物流网络中，与所有配送点的平均距离较短的仓库可能具有高度的紧密中心性，表明它们对快速配送的战略重要性。:在互联网基础设施中，一些路由器会具有很高的介数中心性，因为它们在网络的不同部分之间转发大量数据。

2024-04-07 11:16:44 494

原创【python】为什么要用 defaultdict

初始化的时候，传入的是一个工厂函数，是这个工厂函数对应的默认初始化值（int 对应 0）

2024-04-06 22:23:05 144 1

原创【python】用 kwargs.get 明智地调整和传递模型的超参数

有了这种设置，您就可以在运行时动态更改超参数，而无需每次更改函数签名。这为您的函数提供了一个干净的接口，同时仍然提供了必要的灵活性来处理更改的超参数。特定于模型的预测函数接受任意数量的关键字参数(**kwargs)，你可以使用。如果你需要支持随每次运行而变化的不同超参数，你可能需要考虑使用函数参数、方法来获取值，默认值设置为None，如果没有提供其他适当的默认值。和用户可以在每次运行前修改的配置对象或字典的组合。，你可以使用它根据当前运行的需要更新配置设置。在这种方法中，你维护一个包含所有超参数的。

2024-04-02 22:39:01 266 2

原创【python】模块测试方法三步走

【代码】【python】模块测试方法三步走。

2024-04-02 21:50:25 463

原创【python】Google 风格和 Numpy 风格 docstring

【代码】【python】Google 风格和 Numpy 风格 docstring。

2024-04-02 21:09:25 1009

原创【python】python 测试，为什么我们需要测试，pytest的使用

🔥测试，软件开发的秘密武器🔥✨大家好，今天就来跟大家聊聊软件开发中的一项超级重要的环节——测试！👀🎯测试，是软件开发的灵魂，是确保代码正确运行****，满足需求，实现预期功能的秘密武器！💪🌈它就像是一个质量守护者，帮助我们提前抓住那些潜在的bug和错误，。💯💸而且，早期发现并解决问题，可以大大，让我们的开发之路更加顺畅！💰📌测试还可以验证新功能是否按预期工作，以及修改现有代码是否会引起其他问题，为我们的开发过程提供了强大的。🔒🔄更重要的是，有了自动化测试，我们可以更地进行代码重构和。

2024-04-02 19:17:16 1092 2

原创【linux 小寄巧】 taskset -c 0-3 python

🎈 你是不是有过这样的经历，打开了一大堆程序，电脑突然变得超级慢，像蜗牛一样？其实，这可能是因为你的CPU资源被各种程序瓜分啦！每个程序都想抢占CPU的使用权，结果大家都跑不快。这个命令，就像一个聪明的调度员，可以帮助你指定某个程序只在特定的CPU核心上运行。🌈 想象一下，这就像是在一个大型游乐场，每个游乐项目都有一个专门的通道，游客们不用挤在一起，每个人都能快速、愉快地玩耍。这个程序只在CPU的第0、1、2、3这四个核心上运行。这样一来，其他核心就可以专心处理其他任务，互不干扰，大家都能跑得飞快！

2024-03-30 21:28:22 187

原创【linux 小寄巧】watch：实时监视神器，掌握动态变化！️

watch默认每2秒运行一次指定的命令，并全屏显示输出结果。比如，watch -n 5 [命令]表示每5秒运行一次命令。这样，你可以根据自己的需求灵活调整监视频率。想象一下，你正在追踪系统的负载情况，每5秒更新一次数据，实时掌握系统状态。或者，你在监控某个重要的日志文件，想要每10秒查看一次新增内容。👋 有没有想过实时追踪命令的输出，捕捉每一刻的动态变化呢？watch命令就是你的私人侦探，帮你轻松实现这一目标！无论是系统监控、日志追踪还是其他动态数据查看，watch -n都能帮你更加精准地掌握实时变化。

2024-03-28 19:43:40 89

原创【linux 小寄巧】 | grep ““：解锁文本搜索新姿势

这里，ls *.txt列出所有以.txt结尾的文件，然后通过管道|将输出传递给xargs grep "hello"进行搜索。grep是一个强大的文本搜索工具，它可以在文件中搜索指定的字符串，并将包含该字符串的行打印出来。🎯 是不是觉得非常实用呢？👋 今天要和大家分享一个Linux命令行下的小技巧——使用grep命令来轻松搜索文本内容。💡最后，再给大家分享一个小技巧：使用–color选项可以让搜索结果高亮显示，这样在大量文本中更容易找到目标内容。这样，无论"HELLO"是大写还是小写，都会被搜索到。

2024-03-28 19:24:00 194

原创【统计】什么事最小二乘估计

明白了。你指的是一个简单的线性回归模型，其中因变量yt被建模为时间的函数t。ytμτtϵt其中:yt表示t时刻的观测值;μ为回归的截距项(t0时y的期望值)，τ是斜率项，表示t增加一个单位(趋势分量)时y的变化，ϵt为误差项，表示由于模型中未包含的因素导致的与模型的随机偏差。给定一个时间序列x1x2...xn和相应的时间索引t12...n，您可以使用普通最小二乘(OLS)回归估计μ和τ。

2024-03-26 20:16:57 857

原创【统计】什么事 R 方

它们没有表明回归量是否与结果变量有因果关系，也没有表明模型是否是备选方案中最好的。查看残差并执行其他诊断检查以确保模型的适当性总是很重要的。对于被线性趋势很好地近似的时间序列，这种归一化线性度量(NL)将接近于0，对于不被线性趋势很好地近似的时间序列，这种归一化线性度量(NL)将接近于1。为了使其规范化，可以将SSE除以表示原始数据可变性的度量。范围从0到1，其中接近1的值表明该模型解释了结果变量的大部分方差，表明更线性的关系。如果不考虑模型和数据的上下文，使用。的预测值，而的观测值是。

2024-03-26 18:52:20 1058

原创【统计】什么事 KPSS 检验

这个版本的测试检查时间序列是否在没有趋势的恒定平均值附近平稳。零假设是序列是水平平稳的。:此版本检查时间序列是否围绕确定性趋势(可能是线性或其他形式)是平稳的。零假设是，序列是趋势平稳的，也就是说，序列有确定的趋势，但去趋势后，残差是平稳的。例如，yx1，其中序列似乎具有确定性线性趋势，x每增加1，则KPSS测试将根据使用的版本产生不同的结果:-如果对执行KPSS检验，该检验可能会导致拒绝零假设，因为该系列的平均值随着时间的推移而不是恒定的-它随着x的增加而增加。

2024-03-16 12:04:18 938

原创【统计】什么事单位根检验

术语“单位根”来自数学语言，特别是来自与时间序列模型相关的特征方程的研究。在时间序列分析中，“根”一词是指该特征方程的解，它对于确定模型的性质至关重要。

2024-03-15 11:54:37 635

原创【linux】文件修改记录

对于更具体的调查，您可以使用其他选项，如’ -ctime ‘(更改时间)或’ -atime ‘(访问时间)，尽管根据文件系统的挂载选项(如’ noatime ')，这些指标可能不太可靠。是的，在Linux上，您可以使用’ find '命令检查最近修改的文件。这将花费更长的时间，并将输出大量文件，特别是那些通常由系统进程更新的文件。找到~ -type f -mtime -1。找到~ -type f - time -1。找到~ -type f -ctime -1。猫/ etc / passwd。

2024-02-01 09:27:49 541 1

原创【扩散模型】有/无分类器引导

那么，分类器引导生成是否意味着我训练了一个生成模型和一个分类器模型，然后在使用贝叶斯公式进行推理时将它们连接在一起?而在无分类器生成中，生成是在半监督数据上进行训练的，即部分数据被标注了标题，但大部分没有，那么在推理时，我们可以直接生成img给定文本。

2024-01-16 11:21:36 618 1

原创【扩散模型】DDPM，DDIM

这个想法是通过一个称为扩散的过程将一个简单的分布(通常是高斯噪声)转换成一个复杂的数据分布(如图像或音频)，然后反向生成新的样本。ddim是ddpm的非马尔可夫变体，允许更快的采样，并可以提供确定性输出。关键思想是，它们改变了逆向过程的计算方式，在不牺牲质量的情况下，允许更少的步骤生成样本。ddim可以被认为是一种更有效地遍历扩散过程的方法，通常会导致更快的推理时间，因为它们可以采取更大的步骤而不会引入太多错误。DDPM和DDIM反向过程之间的关键区别在于DDIM的确定性设置，其中。

2024-01-16 10:20:28 949