持续战斗状态-CSDN博客

原创多分类RuntimeError: cuDNN error: CUDNN_STATUS_EXECUTION_FAILED

比如二分类的标签应该是0，1。而不是1，2或其他。可以检查一下是不是多分类标签不是0开始。

2024-04-20 17:40:08 67

原创迁移Anaconda环境，无需重复安装

换电脑后，想要直接迁移conda环境，直接复制conda文件后，再做以下两步即可

2024-03-27 20:09:06 182

原创 win修改图标自定义QQ桌面图标

当安装了TIM后，想把图标改成QQ。1.桌面右键图标，点击属性。2.选择快捷方式-更改图标。3.浏览选择下载的ico图标即可。

2024-03-18 22:47:44 380

原创 No module named ‘torch._C._nn‘； ‘torch._C‘ is not a package

torch.load的时候遇见了这个问题No module named ‘torch._C‘

2023-05-14 14:25:50 475 1

原创 UserWarning: Implicit dimension choice for softmax has been deprecated. Change the call to include d

这个警告信息是因为在调用 PyTorch 中的 softmax 函数时没有传入 dim 参数，导致 PyTorch 无法确定在哪个维度上进行 softmax 操作。其中 dim 参数的具体取值要根据数据的维度而定，一般情况下是对分类数所在的维度进行 softmax，例如对于图片分类任务，通常是对最后一维（即通道数）进行 softmax，因为最后一维的大小就是分类数。

2023-04-29 22:01:14 3079

原创导入xlsx时报错xlrd.biffh.XLRDError: Excel xlsx file； not supported

pip install xlrd==1.2.0 安装低版本的xlrd。高版本xlrd会报错。

2023-04-25 21:25:48 202

原创对pandas导入的数据判断是否为NaN值

对pandas导入的数据判断是否为NaN值。

2023-04-22 01:03:55 172

原创 crontab运行失败，可能是时间没写成24小时制

crontab运行失败，可能是时间没写成24小时制一般通过```crontab -e```修改crontab定时任务然后通过```service crond restart```或```service cron restart```重新启动服务

2023-04-12 00:01:06 169

原创将文件夹名字中的空格替换为下划线

如果批量执行指令代码，文件夹中的空格会造成错误。使用以下代码，就可以把文件夹下的子文件夹以及全部文件名字中的空格替换。

2023-03-31 18:17:09 363

原创弹出的windows正在向microsoft报告提示怎么禁止

右键此电脑选择管理服务中禁用这个服务

2023-03-01 21:22:37 1830

原创【实战】一键训练的公司名实体识别NER 基于Bert+crf

公司名实体识别NER 基于Bert+crf

2023-02-27 21:45:12 600 1

原创【实战】使用Bert微调完成文本二分类

使用Bert微调完成文本二分类，包含实验数据、全部代码，一键运行

2023-02-21 21:53:06 697

原创使用cpca快速识别地名

直接调用即可完成地名识别，需要安装cpca。

2022-12-13 20:18:37 223

原创 ModuleNotFoundError: No module named ‘MySQLdb‘

MySQLdb在python3不能直接安装，可以安装pymysql，然后import pymysql as MySQLdb。

2022-12-13 20:05:59 180

原创【算法面经】个人实习、秋招面经集合

算法面经小米篇算法面经360、58同城篇算法面经阿里篇算法面经字节篇算法面经百度篇算法面经寒武纪、商汤、搜狐篇算法面经滴滴、美团篇算法面试华为篇算法面经京东篇算法面经快手篇算法面经网易篇算法面经超参数、完美世界篇算法面经比亚迪、最右篇算法面经深信服篇算法面经广联达、中兴、电信篇

2022-11-18 10:31:35 205

7.GIL：为了保护多线程下对python对象的访问，每个线程在执行过程中都需要先获取GIL，保证同一时刻只有一个线程在执行代码。4.Bert用的是LN还是BN；2.做项目的时候，拿到数据之后怎么做得处理。5.你项目读的是数据库还是文件；2.Bert怎么引入的上下文信息。4.对比学习构造正负样例的方法。1.你觉得你学的比较好的几门课。5.对知识蒸馏其他方法的调研。3.Bert是基于什么改进的。2.关键词识别用的什么方法。3.做的项目克服了什么困难。4.你知道yolo的结构么。6.说一下CNN的结构。

2022-11-18 10:23:29 561

原创 ModuleNotFoundError: No module named ‘sklearn‘

sklearn安装ModuleNotFoundError: No module named 'sklearn'

2022-11-10 14:16:29 895 1

原创算法面经深信服篇

1.余弦相似度和欧拉相似度各适用于2.模型压缩的方法剪枝蒸馏量化3.你接触的让你佩服的同学4.实习中提升最大的是哪个项目3.transformer为什么火优点是什么4.transformer应用于cv有哪些改进了解过吗项目合作遇见过分歧最后解决了的例子会坚持认为自己是对的吗提升最大的一个实习你实习的产出是什么给小米这个实习打分你打几分如何提高代码质量代码review没讲到你觉得你还有什么可以提高的地

2022-10-11 13:07:05 107

原创算法面经比亚迪、最右篇

手撕：一批产品共有 N 个，其中废品有 M 个。现从中随机选取 n 个，问“其中恰好有 m 个废品”的概率是多少？答：cnn没上下文信息；lstm并行性不好，学习特征能力不好。3.lstm和cnn相比transformer为啥不好。面试官说一般搞搞数据效果好。2.encoder和decoder的区别 mask。1.其他模型压缩的方法剪枝蒸馏量化。3.学习率优化的方法 warmup。4.知道什么文本的数据增强方法。5.模型效果不好怎么处理。2.参数优化方法 adam。手撕：旋转打印螺旋矩阵。

2022-10-11 13:03:25 500

原创算法面经超参数、完美世界篇

经过 transformer encoder block (hidden size = 64) 的 self-attention 模块，总共有多少个浮点数乘法？4.模型并行 Pipeline并行tensor并行。6.self-attention的计算复杂度 n。1.生成模型是不可控的，怎么解决输出敏感问题。2.模型压缩还有什么方法答了量化。1.你上过的课学得最好和最差的。3.训练大模型有什么加速方法。7.文本生成的一些评价指标。8.介绍知识蒸馏的一些方法。2.玩的游戏top3。3.你最有成就感的事。

2022-10-11 13:00:39 163

原创算法面经网易篇

4.场景：给出具有依赖的同义词上下文 i have an apple，给出have的同义词进行替换。手撕：路径指的是某节点到叶子节点的一条路；手撕：给定数组和target，用±连接数组，得到target的方法数量，回溯。6.decoder和encoder交互的注意力的q,k,v哪来的。9.Bert 为啥预训练采用mask语言模型，而不是语言模型；11.Bert mask和W2V的cbow区别。2.问了对比学习只答了有监督的。4.生成模型蒸馏的目标函数是什么。7.说一说你了解的正则化方法。

2022-10-11 12:54:54 173

原创算法面经快手篇

手撕：给个矩阵，左上角到右下角求最小路径（每个点有权值）；2.transformer多头注意力的多头区别是啥。手撕：sql 表a b；以id为联系合并ab表。4.Bert transformer输出是啥。3.介绍下Bert transformer。手撕：lr目标函数 loss 推导。6.数据不均衡怎么处理。8.怎么评价聚类的好坏。2.w2v的产出是啥。5.降维方法 PCA。7.分词的原理了解吗。

2022-10-11 12:48:32 114

原创算法面经京东篇

NSP任务原本是希望去学习句间关系的，但该任务过于简单，模型可以直接从主题语义的角度去进行二分类，所以其学习是低效的。3.多分类，给你每个类的词表，让你引入这些信息，怎么加强多分类；4.focal loss和交叉熵做惩罚在哪里，区别是什么：一个是加权重，一个是log函数。对于SOP任务来说，正样本=正常顺序的2个相邻句子，负样本=调换顺序的2个相邻句子。对于NSP任务来说，正样本=正常顺序的2个相邻句子，负样本=随机2个句子，而SOP任务，才是让模型更加关注句子间的关系。7.transformer结构。

2022-10-11 12:45:25 222

原创算法面试华为篇

3.torch.nn和torch.nn.functional的区别：类和函数。3.写二分类、交叉熵、KL散度、MSE、MAE、多标签分类、对比学习公式。9.c++要new，python是引用，python内存咋回收的？6.c++是面向对象的，python是面向对象还是面向过程的？2.pytorch两种并行方式了解么：数据并行；5.python需要编译么？10.wide&deep里面的wide和deep代表啥？8.python的内存回收和c++的区别。1.T5和其他预训练语言模型的区别。

2022-10-11 12:43:14 325

原创算法面经滴滴、美团篇

5.sentence bert做语义相似度优势原理，bert丢失整句语义，sentence bert解决模型塌缩，原理？1.聚类没有试过表示学习的方法么？说了sentenceBert，说这个老了有几年了。5.xgboost相对于gbdt的改进，有个采样没说。3.gbdt loss为mse的时候拟合的是残差。1.T5和传统transformer的改进。·手撕：给词表，一个文本，输出所有分词可能。3.Bert基于mask的调优有跟进吗。4.gbdt 和梯度下降的区别和联系？10.一般的对话和场景对话区别。

2022-10-11 11:43:10 110

原创算法面经寒武纪、商汤、搜狐篇

3.transformer encoder decoder区别qkv上的区别。4.lstm和transformer的 self-attention区别。5.Bert之外的预训练模型，双向lstm，Roberta，xlnet。1.pytorch 用hook 打印中间层输出不用改forward。优化保存5个数即可，因为每2个就有个2，每5个有5，2肯定多。7.反向传播传播的是loss对各参数的链式求导。统计文件夹下文件个数，包括子文件。统计文件夹下目录个数，包括子目录。手撕：求一个数阶乘后面的0个数。

2022-10-11 11:39:38 400

原创算法面经百度篇

字典在存储时将字典的键利用哈希算法生成哈希值, 并将所有键生成的哈希值组成一张哈希表, 在对字典进行查询时, 会先对字典的键利用哈希算法生成哈希值, 然后再到哈希表中查询, 而不像列表一样遍历索引位置元素进行查询, 所以比列表查询速度快。手撕：m个苹果放到n个盘子，比如m=7，n=3，511和151算一种，问几种。3.GBDT和随机森林，优缺点是什么，各适用于哪些情况，哪个速度快。用了回溯，超时了，问优化方法，说是应该dp好一点。7.你做分类主要用了啥方法？13.BN和LN的区别，NLP为啥用LN。

2022-10-11 11:34:09 293

原创算法面经字节篇

6个 encoder 之间是串行，每个 encoder 中的两个子模块之间是串行，子模块自身是可以并行的，注意力层和前馈神经层这两个子模块单独来看都是可以并行的，不同单词之间是没有依赖关系的。BN：Batch Norm，每次对batch中的数据按维度进行 Normalization，在训练时使用的是 batch 内数据的分布特征，校验和测试时则是全局的数据分布特征；初始化建堆的时间复杂度为O(n),排序重建堆的时间复杂度为nlog(n),所以总的时间复杂度为O(n+nlogn)=O(nlogn)

2022-10-11 11:25:51 190

原创算法面经阿里篇

3.seq2seq在训练和预测的时候有什么区别，训练和预测的时候decoder的时候的输入有什么区别。6.介绍下Bert的多头注意力的计算过程，self-attention公式（768通过三个768*64变一个头的q,k,v）10.encoder decoder层很深，怎么保证信息从输入到输出的传递：归一化；5.怎么确定训练的时候teacher forcing和预测输入前一状态的比重。1.详细说下知识蒸馏怎么做的？知识蒸馏loss的公式？2.蒸馏用的组后一层的输出，你了解比如中间层的蒸馏么。

2022-10-11 11:16:13 464

原创算法面经360、58同城篇

5.bert结构和transformer区别：没用decoder等。8.有做过文本匹配么？给你个句子，在库里的句子找到最相似的。6.self-attetion QKV的含义。2.rnn梯度消失梯度爆炸短期依赖。3.除了kmeans还知道啥聚类算法。1.数据不均衡怎么解决，数据增强。5.介绍transformer。7.lstm 和gru区别。4.hmm和crf区别。2.交叉熵和KL散度。6.多头自注意力机制。

2022-10-11 11:08:32 496

原创算法面经小米篇

max(0, 1-y*y^) 不关注明显分对的点：比如标注为1 预测大于等于1的点。手撕：每次拿1、2个，判断取n个，先拿的人获胜情况。10.attention的时候还有什么mask。9.mask是怎么实现的权重设为负无穷。1.简单介绍一下你了解的预训练模型。3.transformer的结构。手撕：天上最多同时几个飞机，贪心。12.Bert和Elmo的区别。4.防止梯度消失梯度下降的方法。1.多分类样本不均衡怎么解决。4.多标签分类和多分类的区别。手撕：梯度下降方法求开平方。5.常见预训练模型了解吗。

2022-10-10 16:42:26 821

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

QQ图标ico用于替换桌面图标

使用Bert进行文本二分类实验用的训练数据文件

NLP聚类实验数据，table形式

Andrew-Ng-ML 吴恩达机器学习 编程作业（答案）

Andrew-Ng-ML 吴恩达机器学习 编程作业（未包含答案）

glutdlls37beta.zip

cmd_markdown_win64.zip

空空如也

Andrew-Ng-ML 吴恩达机器学习编程作业（答案）

Andrew-Ng-ML 吴恩达机器学习编程作业（未包含答案）