dabingsun-CSDN博客

原创根据数据的特性选择合适的机器学习方法（各机器学习模型比较）

根据数据选择模型：各模型之间的对比：

2020-03-31 22:16:34 2416 2

原创索引文章

机器学习：逻辑回归：LR 决策树：DecisionTree 支持向量机：SVM 集成模型：bagging与boosting，随机森林，GDBT 隐马尔可夫：HMM 条件随机场：CRF 总结归纳文：各模型对比，待写深度学习：卷积神经网络：CNN调参技巧：loss震荡 loss出现NAN 各种损失函数学习率与batch_size对模型性能...

2020-03-30 18:37:08 98

原创面试问题总结

1：面试问题总结(面试前可以看一下):https://blog.csdn.net/Neekity/article/details/881820902.（很多实战和讲解的项目）：https://github.com/NLP-LOVE/ML-NLP/tree/master/Machine%20Learning...

2020-03-29 15:55:32 74

原创 fasttext

论文：网络结构：目的：微调：代码：总结：

2020-08-07 21:32:19 197

yield: 较少内存消耗#定义def get_batch_data(self, data_x, data_y, batch): #会丢弃最后少部分的数据 steps = len(data_y) // batch for step in range(steps): batch_x, batch_y = [], [] batch_x = data_x[step*batch:(step+1)*batch]

2020-08-05 19:49:44 207

原创 python 字典排序

dict_ = {"key1":value1, "key2":value2, "key3":value3}#sorted(items(), key, reverse) reverse:True降序 False：升序dict_order=sorted(dict_.items(),key=lambda x:x[1],reverse=True)

2020-07-24 18:59:41 185

原创从hdfs导出大数据

#拷贝数据到本地hadoop fs -get /xxx/bb /yyy/aa &#在Hadoop上删除url的文件hadoop fs rm -rf url

2020-06-22 00:14:08 1119

原创 python codecs

预留

2020-06-20 17:34:10 115

原创 Linux下&和&&,|和||

在linux中，&和&&,|和||介绍如下：& 表示任务在后台执行，如要在后台运行redis-server,则有redis-server &&& 表示前一条命令执行成功时，才执行后一条命令，如 echo '1‘ && echo '2' | 表示管道，上一条命令的输出，作为下一条命令参数，如 echo 'yes' | wc -l|| 表示上一条命令执行失败后，才执行下一条命令，如 cat nofile || ...

2020-06-20 14:36:45 200

原创 Linux下在后台启动程序：nohup 输出重定向

前情提要：当前有一个helloword.sh脚本，其中运行的是一个py脚本。python helloword.pyprint('hello word!')后台运行任务nohup sh helloword.sh >> output.txt 2>&1 &查询后台任务jobs杀死任务kill jobsId（通过jobs查看到的id）or kill 进程号其中涉及到：nohup：不挂断的运行，注意并没有后台运行的功能 &.

2020-06-20 08:43:00 587 1

原创 ssk

1：做基本介绍2：数据集如何做增强的（数量和质量，噪声如何添加）3：分类用到的两个分类（bert、TextCNN）:bert如何理解，如何调用输出，TextCNN卷积核形式。4：bert: mask模型目的。bert与word2vec区别，bert内部最重要的创新点。5：lstm:怎么解决RNN梯度消失的问题6：droupout：在随机丢弃后，如何进行处理的（源码）7...

2020-04-10 12:02:29 154

原创 sm

1. 说一个最能代表你水平的项目（说的文本检测，主要说优化这方面）2. 文本检测的输入、输出、损失函数、优化方法是什么3. 延申出来的word2vec 两种训练方法区别和联系4. 延申出来的优化方法（梯度下降、随机梯度下降、拟牛顿、坐标下降区别和联系）5. 过拟合的现象和解决办法：训练数据集上表现好，测试数据集上表现不好。解决：数据（增强）和模型（减少复杂度、正则、早停、droup...

2020-04-09 19:49:07 301

原创 hadoop、spark、hive概念及关系

来自：这里大数据本身是个很宽泛的概念，Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆，各有各的用处，互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤，你可以用小刀或者刨子去皮。但是每个工具有自己的特性，虽然奇怪的组合也能工作，但是未必是最佳选择。大数据，首先你要能存的下大数据传统的文件系统是单机的，不...

2020-04-06 09:23:31 193

原创运算效率（时间）：pyhton 原生List和numpy的array比较

目录Numpy arraypython List运算时间Numpy array一个numpy array 是内存中一个连续块，并且array里的元素都是同一类（例如整数）。所以一旦确定了一个array，它的内存就确定了，那么每个元素（整数）的内存大小都确定了（4 bytes）。使用numpy内置函数计算数值型数据时，要比原生List快。python Listlis...

2020-04-02 15:52:35 1196

原创 gsbm

1.自我介绍：老套路---》应该改善，基本信息介绍完毕后，顺着应聘的方向说。2. 对机器学习的理解：模型拟合数据、函数、损失函数、优化方法3. 数据预处理：文本、名词、连续4. 神经网络：使用的一些技巧，调参。说了大致三方面（数据分析、模型选择和搭建、优化调参）5. 机器学习方法的一些选择：说了所有的都可以使用神经网络，高位稀疏的使用LR，连续变量可以使用GDBT，小样本可以使用S...

2020-04-02 11:49:37 249

原创正则化L1、L2

BN概念公式训练和预测有什么区别L1:公式为什么可以用来选择特征L2：公式

2020-03-30 10:56:15 111

原创常用集合、数据接口：set list hash

为什么重写hashlist的时候，也要重写谁？

2020-03-30 08:48:22 199

原创 SVM支持向量机

SVM概念公式求解损失函数优缺点及比较

2020-03-29 15:14:46 516

原创最优化问题与约束最优化（拉格朗日和KKT）

转载自：https://www.cnblogs.com/xinchen1111/p/8804858.html

2020-03-29 11:23:32 320

原创 RBM

https://blog.csdn.net/zb1165048017/article/details/66473906https://blog.csdn.net/bingo_csdn_/article/details/79443332?utm_source=blogxgwz9https://blog.csdn.net/xingzhedai/article/details/...

2020-03-28 10:35:04 1188 1

转载全概率、贝叶斯公式

2020-03-27 15:51:47 104

原创 GDBT

参考：https://blog.csdn.net/u014033218/article/details/88917953

2020-03-24 21:59:17 1391

原创实体抽取、关系抽取和事件抽取概念

目录关系抽取关系抽取方法事件抽取及方法参考：读书笔记：关系抽取和事件抽取关系抽取定义：自动识别实体之间具有的某种语义关系。根据参与实体的多少可以分为二元关系抽取（两个实体）和多元关系抽取（三个及以上实体）。通过关注两个实体间的语义关系，可以得到（arg1, relation, arg2）三元组，其中arg1和arg2表示两个实体，relation表示实体间的语义关系。（...

2020-03-23 09:31:46 9253 1

原创随机森林RF

随机森林概念RF使用了CART决策树作为弱学习器，并行的训练出多棵互相独立的树，最后通过投票得出结果，进一步在决策树的训练过程中引入了随机特征选择和样本选择。RF有两个随机采样过程：行采样：采用有放回的方式，也就是在采样得到的样本集合中，可能有重复的样本列采样：从M个feature中，选择m个(m << M)通过样本的随机采样和特征的随机...

2020-03-22 10:16:46 278

原创决策树与集成模型

概念公式推导损失函数常用划分节点的方法剪枝步骤优缺点xgboostGDBT随机森林

2020-03-22 10:15:12 385

原创 Tensorflow 1.0 梳理

目录常用的四个模块：tf.nn tf.layer tf.contrib tf.train使用tensorflow搭建模型的一般步骤：经常使用的一些tf操作：包含的模块：官网常用的四个模块：tf.nn tf.layer tf.contrib tf.traintf.nn：神经网络基本操作的接口，相对底层。 tf.nn.conv2d max_pool:卷积操作、池...

2020-03-17 08:50:59 253

原创动态规划

目录概念要求抽象并求解例子：维特比算法概念百度百科动态规划所处理的问题是一个多阶段决策问题，一般由初始状态开始，通过对中间阶段决策的选择，达到结束状态。这些决策形成了一个决策序列，同时确定了完成整个过程的一条活动路线(通常是求最优的活动路线)。如图所示。动态规划的设计都有着一定的模式，一般要经历以下几个步骤。初始状态→│决策１│→│决策２│→…→│决策ｎ│→...

2020-03-13 14:11:01 123

转载几种排序

https://www.runoob.com/w3cnote/sort-algorithm-summary.html

2020-03-12 16:14:46 95

原创 Logistic回归

目录Logistic回归性质更详细：LRLogistic回归多元线性方程： sigmoid非线性激活函数：假设函数：，这里假设表示预测为正例的概率，则w为预测为负例的概率。则最后整合表示为,表示预测为真实值的概率。值越大越好。损失函数：似然函数为，对数似然函数：，概率越大越好，变换为损失函数为越小越好，即反向梯度传播：损失函数对于参数的偏导数为,设学习率为，则更新...

2020-03-11 17:22:35 726

原创 Java web开发框架总结

前言MVC(model、view、controller):视图层通过提取用户的输入信息，提交到控制器之后，控制器根据某种选择来决定这个请求交由给模型层来处理，模型层根据业务逻辑的代码处理用户请求并返回数据，并最终用视图层展示给用户。java web 开发的各种框架，比如Jfinal、SSH等，都是jar包，它们实质上是对一些前后台交互的基类做了更高的封装，因为交互不是一件简单的...

2020-03-11 09:19:42 579

原创 post、get

目录页面请求（post，get）：相同点：不同点：补充页面请求（post，get）：属于HTTP（超文本传输协议）的两个方法，作用是从浏览器向服务器发送请求。相同点：都可以向服务器发送请求，并得到返回的数据。不同点：传递数据参数的形式get:将页面参数附到url中，以？隔开，传递的参数较少（一般为几个）。并且可以在页面进行缓存，此时参数和请求后的数据也...

2020-03-10 10:59:02 117

原创 CNN内部计算及卷积核、通道数关系

目录CNN内部计算具体实现：tensorflowCNN局部连接权值共享两者目的都是减少参数。通过局部感受视野，通过卷积操作获取高阶特征，能达到比较好的效果。内部计算先看卷积与池化示意图：部分图片来自于：链接标准卷积过程最大池化层输入、卷积、池化形状定义:输入为（长，宽，RGB通道数）=（7*7*3）的图片，即inputs = (bat...

2020-03-09 09:03:53 6764

原创 java基础知识与相关知识

菜鸟教程：java

2020-03-08 22:47:10 77

原创 jdk1.8新特性

目录Lambda表达式函数式接口*方法引用和构造器调用Stream API接口中的默认方法和静态方法新时间日期API参考：jdk1.8新特性Lambda表达式Lambda 允许把函数作为一个方法的参数（函数作为参数传递进方法中），也可称为闭包，它是推动 Java 8 发布的最重要新特性。形式： () -> (); 即（参数列表）->return(表...

2020-03-08 19:59:50 171

原创 SQL升级操作-各种

别名SELECT column_name AS alias_name FROM table_name; 列名别名SELECT column_name FROM table_name AS alias_name; 表名别名多表连接（join）select * from tbl_1 as b1 inner join tbl_2 as b2 on b1.id = b2...

2020-03-07 21:35:36 301

原创 SQL基础-单表操作

目录增删改查where：条件order by：排序菜鸟教程tbl_score表：增删改查查：select * from tbl_score where id = 2删：delete from tbl_score where id = 2改：update tbl_score set score1= 33, score2 = 32 where ...

2020-03-06 23:52:39 142

原创 sigmoid、Relu、Tanh、softmax激活函数的比较, 以及交叉熵损失函数

sigmoid

2020-03-06 22:42:29 3233

原创 QA问答模型实践

任务描述给定中文问答对[（question, answer）,标签（label）], 通过构建模型，提升模型的准确率。数据分析数据清洗、分词后，进行统计，如下图可以得到：问题经过处理后最大的词数为37，最小2，平均10。答案经过处理后最大的词数为16892，最小1，平均20。经过统计数据中labels, 正例与负例比例为3：97，数据中等偏严重的数据失衡，但是训练数据有10万个，...

2020-03-06 19:48:58 2812

原创 Qoura 文本相似度检测（分类模型）

任务描述给定英文句子对[（question1, question1）,标签（label）], 通过构建模型，提升模型的准确率。数据分析(统计)数据清洗、分词后，进行统计。文中正反对比为2：3。不是很失衡模型选择问题相似性任务，首次选用基于孪生Bi-LSTM+cos+对比损失函数，最终train_acc = 85, val_acc=75。loss变化不规则，放弃使用。评估为75.6...

2020-03-06 19:47:57 369

原创学习率与batch_size对模型性能的影响

学习率学习率（lr）表示每次更新权重参数的尺度（步长），。Batch_size（批量大小）batch_size有一个计算公式，即, 或者 , N为训练数据集大小， batch为需要多少次迭代才能在一个epoch中训练完整个数据集。batch_size参数决定了完整训练数据集1个epoch需要多少个batch。学习率与batch_size在权重更新中的关系学习率（lr）直...

2020-02-29 12:31:38 7015

空空如也

空空如也