ballhacker-CSDN博客

原创自然语言处理之情感分析

本项目的目标是基于用户提供的评论，通过算法自动去判断其评论是正面的还是负面的情感。比如给定一个用户的评论：评论1： “我特别喜欢这个电器，我已经用了3个月，一点问题都没有！” 评论2： “我从这家淘宝店卖的东西不到一周就开始坏掉了，强烈建议不要买，真实浪费钱”对于这两个评论，第一个明显是正面的，第二个是负面的。我们希望搭建一个AI算法能够自动帮我们识别出评论是正面还是负面。情感分析的应用场景非常丰富，也是NLP技术在不同场景中落地的典范。比如对于一个证券领域，作为股民，其实比较关注舆论的变化，

2020-08-04 17:03:29 3211

原创基于SVM算法的意图识别

在这个项目里，你需要完成一个意图识别的任务，主要使用的模型是SVM算法。使用的数据集是SMP2018中文人机对话技术评测，是由科大讯飞股份有限公司提供数据。具体的数据可以从以下的链接下载： https://worksheets.codalab.org/worksheets/0x27203f932f8341b79841d50ce0fd684f/#，下载之后把是数据集解压在当前的工程的根目录下。在这个任务里，你即将要完成的几个任务是：读取文件、展示数据、并做并将label映射为数字index，以及将

2020-07-31 22:28:45 1841 1

原创基于RFM和K-Means的用户分群

在本项目中，我们基于用户购买数据（Transaction Data)做用户的分群，使用的方法一次是RFM模型和K-means算法。原始数据是：http://archive.ics.uci.edu/ml/datasets/online+retail。本项目中使用的数据是已经经过清洗之后的，原始数据的话需要大量的清洗工作。import pandas as pdimport numpy as npimport datetime as dt# 读取transaction数据, 数据有些大，读取会.

2020-07-31 22:08:06 1284

原创金融风控项目

基于一个用户的基本信息、历史信息来预测逾期与否。采样的具体数据是拍拍贷数据。https://www.kesci.com/home/competition/56cd5f02b89b5bd026cb39c9/content/1。在此数据中提供了三种不同类型的数据:Master: 用户的主要信息 Loginfo: 登录信息 Userupdateinfo: 修改信息本次项目中，我们只使用Master的信息来预测一个用户是否会逾期。数据里有一个字段叫作Target是样本的标签（label)。im

2020-07-31 21:53:18 722

原创股票预测项目

项目目的是通过股票的历史行情价格来预测未来某只股票的涨跌，问题本身其实就是二分类问题，数据是通过tushare库来获取到的。根据已经给定的数据，构造出样本数据。提取完技术指标之后，做一些简单的数据处理构造训练数据和测试数据利用随机森立学习二分类器# 导入相应的函数库import pandas as pdimport datetimeimport numpy as npfrom sklearn.model_selection import train_test_splitfrom

2020-07-31 21:41:30 1065

原创基于KNN算法的图像识别

你需要完成一个图像识别的任务，主要使用的模型是KNN算法。使用的数据集是cifar-10，是图像识别领域最为经典的数据及之一。具体的数据可以从以下的链接下载： https://www.cs.toronto.edu/~kriz/cifar.html，下载之后把是数据集解压在当前的工程的根目录下。你即将要完成的几个任务是：读取图片文件、展示图片、并做部分采样。采样的原因主要是为了节省训练的时间，因为我们知道KNN的搜索复杂度为O(N)，何况图片也属于高维的数据，这也会增加搜索效率。使用KNN算法识

2020-07-31 21:31:17 7124 10

原创推荐系统

此项目的目的是搭建一个简易的新闻推荐性, 采用的数据集为英国BBC新闻。需要经历的几个步骤是：文本数据的预处理通过新闻的tf-idf词率，并使用主题模型来给每一个新闻抽取主题的分布通过用户历史新闻的浏览记录，并建立用户关注的主题分布，并为用户做推荐# make sure these libs are imported from gensim import corpora, models, parsingfrom glob import globimport warningsimpo

2020-07-06 16:30:26 244

原创广告点击率预测

广告点击率预测项目，目的是通过广告和用户信息预测一个广告是否被点击。数据来自Kaggle竞赛（https://www.kaggle.com/c/avazu-ctr-prediction），源数据比较大，选取前40000条。1. 数据读取和分析import numpy as npimport pandas as pdimport matplotlib.pyplot as plt#数据读取data_df = pd.read_csv('train_subset.csv')#展示头部数据，分

2020-05-25 17:37:46 4878 1

ballhacker的博客