天晴兮-CSDN博客

原创大数据分析的工作流程以及各流程常用工具

大数据分析的工作流程以及各流程常用工具1. 数据收集与导入2. 数据质量控制3. 数据管理与存储4. 数据分析与可视化5. 数据建模与模型管理6．常用的数据分析方法1. 数据收集与导入在大数据时代，“数据”不只是表格数据，更多的是非结构化数据（图片，声音，视频）。随着需要收集的数据量的增大，数据的实时收集、实时处理变得不是那么容易。Spark和Kafka等软件就是针对以上问题开发的目前最流行的开源数据接入（数据接入, 数据处理和数据仓库技术）工具。他们可以对海量信息的实时收集，处理和存储。2. 数据

2021-06-17 21:16:41 1153

原创 python的分离式动态线性表（追求最极致的通俗易懂，用人话说计算机知识，杜绝无脑复制粘贴）

前言：本文阐述个人观点，如有不同见解欢迎评论区讨论～线性表：在内存上连续存储数据的一种数据存储方式，或者说是一种数据结构。动态：当线性表一开始分配的空间不够时，找一块更大的地方存数据（比如一开始只分配了10个空间，你一直加数据加数据，到第10个的时候，空间满了，可是还想继续加咋办？再找一块更大的数据空间，先把已有的10个数据全部搬过去，之后再继续添加。对，就是这么干的，虽然搬数据会消耗时间）分离式为什么说python的list是分离式的呢？为什么python的list要做成分离式的呢？有什么好处么

2021-06-17 17:56:35 186

原创【计算机基础】编译器和解释器（最简单易懂的解释，杜绝复制粘贴，用人话说计算机底层原理）

【计算机基础】编译器和解释器（最简单易懂的解释，杜绝复制粘贴，用人话说计算机底层原理）编译器：定义：语言之间的翻译官，可以将一种语言转化成另一种语言，往往是将高级语言转换成更偏向底层的低级语言。使用例子1：将高级语言写的代码（你写的c程序，c++程序）转换成机器码（只有01的代码）解释器：首先我们说一下解释器为什么会出现。下面请欣赏我自己画的小漫画：解释器的特点：源码会先变成字节码，再变成机器码。（中间先转换成字节码的原因是因为虚拟机只认识字节码不认识你写的高级源码，虚拟机的出现是为了屏蔽

2021-06-17 15:13:55 640

原创 numpy-深复制

注意，当你使用np数组时，想要复制一个一模一样的矩阵，千万不要直接用等号复制例如A = [1,2,3]B=A你只是用了A B两个名字指向了同一个空间，因此你令A[0]=0之后AB都会改变，复制的时候要用深复制 B =np.array(A,copy=True)...

2020-11-09 20:27:01 382

原创 tensorfolw安装&notebook和虚拟环境

首先，新建一个虚拟环境（因为像tensorflow，pytorch、kares等包可能会有冲突，因此新建虚拟环境，将他们隔离开来会好一些）这个命令可以新建虚拟环境，可以自己命名，也可以指定python版本，可以指定版本这一点十分方便，例如很多代码是用python2写的那么可以直接新建一个python版本是2的环境。新建虚拟环境后使用：activate XXX 命令激活虚拟环境，然后再这个虚拟的环境下安装需要的包。（注意每个虚拟环境的包是隔离开的，例如你在A环境下装了numpy但是B环境没装，B环境

2020-11-09 20:22:19 359

原创神经网络-pytorch网络结构改变-拆分已定义的层

pytorch网络结构改变-拆分已定义的层这里整合了一些预备知识有一个很不错的链接：https://blog.csdn.net/TTdreamloong/article/details/84823705这里是引用pytorch拆分已定义的网络结构原文链接：https://www.jianshu.com/p/d2a066e05078这里是引用pytorch Module里的children()与modules()的区别链接如下：https://blog.csdn.net/LXX516/a

2020-11-09 20:05:37 947

原创神经网络-数据不均衡解决方法之一--为交叉熵损失加入权值

标题神经网络-数据不均衡解决方法之一–为交叉熵损失加入权值面对数据不均衡的问题，除了扩增数据集之外，一个方法可以重新定义loss值，让你注重的类别造成的损失更大一些。在pytorch的框架里，加上一个不均衡的weight值是十分必要的。比如1类数据是0类数据的三倍那么在最终分类时可能模型就直接把所有数据都分为1类。那么通过算loss值时加上一个weight权重，给样本量少的0加上一个较大的权重。可以缓解这种模型把数据全部分为1类的问题具体代码为：weight=torch.from_numpy(

2020-11-09 19:50:56 2549

原创神经网络-pytorch-自定义损失函数

神经网络-pytorch-自定义损失函数首先要明确的是pytorch的损失函数是可以自制定的，但是由于数据回传等等因素（其实我也不知道具体机制）总之就是只改变loss的值可能无法产生作用。比如原来的loss定义为：loss=F.nll_loss(logsoft_prob,formatted_label_x)如果你直接在上面加上一个1，或者是随便什么的算式，那样是没有效果的，整个网络的预测结果没有丝毫变化，参数更新值也和加之前一模一样。在这里，一般会将神经网络某一层的参数计算一个f1值或者f2值来

2020-11-09 19:46:14 1010 1

原创 RNN_一只小白的观察记录

人工智能大火的当下，随便搜一搜RNN，文章就一堆，很多讲理论的，也有很多附上代码的。不过咱看了理论后自己写不出代码，看人家的代码也总是掌握不到要点。自己真正用到的时候还是懵。那么，本文就记录一下我这个小白的学习思路吧。什么是rnn？你以为我要列出公式推导或者原理图了吗？不不不，我只会放链接：原理性介绍https://blog.csdn.net/zhaojc1995/article/deta...

2019-10-10 16:47:09 238

原创小项目-python和c++练习

python-猜数字游戏具体规则以及代码的c++版本就参见文章：https://blog.csdn.net/weixin_44991673/article/details/100811733python代码如下：import randomnum = random.randint(1,100) # 生成1到100之间的一个随机整数 1<= a <=100print(num) ...

2019-10-05 17:10:10 293 2

sxf1999的博客