自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 资源 (1)
  • 收藏
  • 关注

原创 自然语言处理之情感分析

本项目的目标是基于用户提供的评论,通过算法自动去判断其评论是正面的还是负面的情感。比如给定一个用户的评论:评论1: “我特别喜欢这个电器,我已经用了3个月,一点问题都没有!” 评论2: “我从这家淘宝店卖的东西不到一周就开始坏掉了,强烈建议不要买,真实浪费钱”对于这两个评论,第一个明显是正面的,第二个是负面的。 我们希望搭建一个AI算法能够自动帮我们识别出评论是正面还是负面。情感分析的应用场景非常丰富,也是NLP技术在不同场景中落地的典范。比如对于一个证券领域,作为股民,其实比较关注舆论的变化,

2020-08-04 17:03:29 3211

原创 基于SVM算法的意图识别

在这个项目里, 你需要完成一个意图识别的任务,主要使用的模型是SVM算法。使用的数据集是SMP2018中文人机对话技术评测,是由科大讯飞股份有限公司提供数据。具体的数据可以从以下的链接下载: https://worksheets.codalab.org/worksheets/0x27203f932f8341b79841d50ce0fd684f/#, 下载之后把是数据集解压在当前的工程的根目录下。 在这个任务里,你即将要完成的几个任务是:读取文件、展示数据、并做并将label映射为数字index, 以及将

2020-07-31 22:28:45 1841 1

原创 基于RFM和K-Means的用户分群

在本项目中,我们基于用户购买数据(Transaction Data)做用户的分群,使用的方法一次是RFM模型和K-means算法。原始数据是:http://archive.ics.uci.edu/ml/datasets/online+retail。本项目中使用的数据是已经经过清洗之后的,原始数据的话需要大量的清洗工作。import pandas as pdimport numpy as npimport datetime as dt# 读取transaction数据, 数据有些大,读取会.

2020-07-31 22:08:06 1284

原创 金融风控项目

基于一个用户的基本信息、历史信息来预测逾期与否。采样的具体数据是拍拍贷数据。https://www.kesci.com/home/competition/56cd5f02b89b5bd026cb39c9/content/1。在此数据中提供了三种不同类型的数据:Master: 用户的主要信息 Loginfo: 登录信息 Userupdateinfo: 修改信息本次项目中,我们只使用Master的信息来预测一个用户是否会逾期。 数据里有一个字段叫作Target是样本的标签(label)。im

2020-07-31 21:53:18 722

原创 股票预测项目

项目目的是通过股票的历史行情价格来预测未来某只股票的涨跌,问题本身其实就是二分类问题,数据是通过tushare库来获取到的。根据已经给定的数据,构造出样本数据。 提取完技术指标之后,做一些简单的数据处理 构造训练数据和测试数据 利用随机森立学习二分类器# 导入相应的函数库import pandas as pdimport datetimeimport numpy as npfrom sklearn.model_selection import train_test_splitfrom

2020-07-31 21:41:30 1065

原创 基于KNN算法的图像识别

你需要完成一个图像识别的任务,主要使用的模型是KNN算法。使用的数据集是cifar-10,是图像识别领域最为经典的数据及之一。具体的数据可以从以下的链接下载: https://www.cs.toronto.edu/~kriz/cifar.html, 下载之后把是数据集解压在当前的工程的根目录下。你即将要完成的几个任务是:读取图片文件、展示图片、并做部分采样。采样的原因主要是为了节省训练的时间,因为我们知道KNN的搜索复杂度为O(N),何况图片也属于高维的数据,这也会增加搜索效率。 使用KNN算法识

2020-07-31 21:31:17 7124 10

原创 推荐系统

此项目的目的是搭建一个简易的新闻推荐性, 采用的数据集为英国BBC新闻。需要经历的几个步骤是:文本数据的预处理 通过新闻的tf-idf词率,并使用主题模型来给每一个新闻抽取主题的分布 通过用户历史新闻的浏览记录,并建立用户关注的主题分布,并为用户做推荐# make sure these libs are imported from gensim import corpora, models, parsingfrom glob import globimport warningsimpo

2020-07-06 16:30:26 244

原创 广告点击率预测

广告点击率预测项目,目的是通过广告和用户信息预测一个广告是否被点击。数据来自Kaggle竞赛(https://www.kaggle.com/c/avazu-ctr-prediction),源数据比较大,选取前40000条。1. 数据读取和分析import numpy as npimport pandas as pdimport matplotlib.pyplot as plt#数据读取data_df = pd.read_csv('train_subset.csv')#展示头部数据,分

2020-05-25 17:37:46 4878 1

2008清华计算机复试题目

**********08年清华大学计算机系复试上机题

2010-05-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除