自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 kaggle MovieSentiment 情感分类的简单套路

问题:简单的对电影评论进行情感分类的问题方案:采用了最基础的基于tfidf的向量化和word2vec向量两种方案,供大家参考。评分:tfidf在0.84左右,word2vec在0.86左右。源码如下。点击打开链接细做的话,还可以考虑ensemble主题向量,以及模型融合,应该效果会更好一些。

2017-09-19 16:05:45 1365

原创 titanic的几种模型尝试

titanic的几种模型尝试 代码如下titanic是简单的入门比赛,因为数据集很小方便实验,所以这里用titanic实践了lr,gbdt,voting,dnn的方法,不过最终还是没上0.8。

2017-09-18 19:16:42 675

原创 对于gbdt的一些理解

看了很多版本的解释,最后确定的理解是。相对于lr每次用sgd算法迭代时,每条样本用此条样本的梯度来迭代。gbdt每次迭代,实际上是用所有样本数据的残差重新进行一次训练,得到一个弱分类器。而这个弱分类器的具体训练方法,是通过对每条样本的损失函数计算梯度,得到每条样本的梯度dj。再用每条样本的梯度来拟合一颗决策树。之后再对每条样本都计算步长。最后得到每条样本的步长和经过决策树拟

2017-09-07 18:47:09 319

原创 python实现带l1正则化的逻辑回归,采用sgd。

在开源基础上增加l1增则化和中止条件,测试效果并不好,暂时供大家参考指正。 训练数据去这里取,http://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/#!/usr/bin/python# Logistic Regression on Diabetes Datasetfrom random imp

2017-08-23 19:34:25 3850

原创 业务同学入门搜索,推荐的一些套路方案

一晃半年。。。看了很多项目,自己摸索了很长时间,也接手了搜索系统,得到了一些新的经验,下面都是些不高大上的实用套路技巧,做业务的同学可能会感觉对搜索推荐广告系统很感兴趣但不知如何入门。 我极其讨厌某些大厂某些高工有套路却不共享,整些高大上的ppt算法数学唬人,让大家入不了门,mmp。所以这里与大家共享这些入门套路经验。还是那句话,有问题请尽情喷,我喜欢交流。 1.推荐,搜索的核心思路都分为两步:召

2017-06-29 20:01:05 2583

原创 leetcode Odd Even Linked List

对于网上的解法如下,class OddEvenLink{ public: LinkNode* oddEvenList(ListNode* head) { if(!head) return head; ListNode* first = head ListNode* second = head->next; ListNode* temp = secon

2016-09-22 00:20:57 291

原创 关于基于物品的协同过滤

背景网上有很多描述协同过滤算法的文章,有一些对基于物品的协同过滤的理解是错误的。基于物品的协同过滤,本质上是假设某用户在某短时间内发生行为的对象物品们具有相似性。

2016-08-19 20:07:39 428

原创 java实现spark streaming与kafka集成进行流式计算

java实现spark streaming与kafka集成进行流式计算背景:网上关于spark streaming的文章还是比较多的,可是大多数用scala实现,因我们的电商实时推荐项目以java为主,就踩了些坑,进行了java版的实现,代码比较意识流,轻喷。流程:spark streaming从kafka读用户实时点击数据,过滤数据后从redis读商品相似度矩阵实时计算兴趣度,并将结果写入re

2016-08-19 11:29:05 14893 6

翻译 3-10最大长方体问题

。。。动态规划题越来越难了 时常是一下午一道题 还有大半是看别人代码看懂的一小部分 反正是爱好吧 。。。 其实坚持长了 慢慢就成爱好了话说这题的基础是最大子段和问题 由最大子段和问题又可求最大子矩阵 进而求得最大长方体 这代码是别人写的 我尽量注释我的理解。。。#include #include #include using namespace std;int

2013-09-06 17:57:03 1570 2

原创 3-6租用游艇问题

本题也是简单的dp吧。和上一题是一样的思路,由底向上递推,dp的典型特征。阶段f[i][j]表示从i到j的最少佣金。#include #include using namespace std;int f[100][100];int main(){    freopen("in.txt","r",stdin);    int n;    cin

2013-09-02 17:01:06 748

原创 3-5乘法表问题

此题思路很清晰,可以作为dp的模板。设输入字符串为s。阶段f[i][j][0]代表从s[i]到s[j]值为a的加括号方式数目。同理f[i][j][1]为b,f[i][j][2]为c。则根据题目给的乘法表 设i最优值为f[0][n-1][0].#include #include #include using namespace std;int f[100][1

2013-09-02 09:08:02 586

原创 3-4 数字三角形问题

要求走法有两种 ,从下或从右下。设阶段m[i][j]为从i行j列到底部的最大和,那么本题的解为m[1][1].决策为if(m[row+1][col]>m[row+1][col+1])  即取两种走法的较大者。            m[row][col]+=m[row+1][col];            else            m[row][col]+=m[row+1]

2013-09-01 10:02:32 512

原创 算法设计与分析习题3-3 石子合并问题直线排列最大得分

此题有直线,圆形两种问法。 分别有最大得分最小得分解法。简单的dp。直线最大得分#include #include using namespace std;int main(){    freopen("in.txt","r",stdin);    int n;    cin>>n;    int a[100],m[100][100]; 

2013-08-31 20:21:32 1930

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除