自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 NLP-Job5 基于深度学习的文本分类2-1Word2Vec(天池)

Job5 基于深度学习的文本分类2-1Word2Vec使用gensim训练word2vecimport loggingimport randomimport numpy as npimport torchlogging.basicConfig(level=logging.INFO, format='%(asctime)-15s %(levelname)s: %(message)s')# set seedseed = 666random.seed(seed)np.random.seed

2020-08-04 18:29:53 153

原创 NLP-Job4 基于深度学习的文本分类1-fastText(天池)

Job4 基于深度学习的文本分类1-fastText与传统机器学习不同,深度学习既提供特征提取功能,也可以完成分类的功能。从本章开始我们将学习如何使用深度学习来完成文本表示。学习目标学习FastText的使用和基础原理学会使用验证集进行调参文本表示方法 Part2现有文本表示方法的缺陷,在上一章节,我们介绍几种文本表示方法:One-hotBag of WordsN-gramTF-IDF也通过sklean进行了相应的实践,相信你也有了初步的认知。但上述方法都或多或少存在一定的问题

2020-07-27 17:48:58 168

原创 NLP-Job3 基于机器学习的新闻文本分类(天池)

Job3 基于机器学习的新闻文本分类在本章我们将开始使用机器学习模型来解决文本分类。机器学习发展比较广,且包括多个分支,本章侧重使用传统机器学习,从下一章开始是基于深度学习的文本分类。学习目标学会TF-IDF的原理和使用使用sklearn的机器学习模型完成文本分类机器学习模型机器学习是对能通过经验自动改进的计算机算法的研究。机器学习通过历史数据训练出模型对应于人类对经验进行归纳的过程,机器学习利用模型对新数据进行预测对应于人类利用总结的规律对新问题进行预测的过程。机器学习有很多种分支,对于

2020-07-25 18:41:20 673

原创 NLP-Job2 数据读取与数据分析(天池)

Task2 数据读取与数据分析本章主要内容为数据读取和数据分析,具体使用Pandas库完成数据读取操作,并对赛题数据进行分析构成。学习目标学习使用Pandas读取赛题数据分析赛题数据的分布规律数据读取赛题数据虽然是文本数据,每个新闻是不定长的,但任然使用csv格式进行存储。因此可以直接用Pandas完成数据读取的操作。import osos.getcwd() ##查看当前系统路径,可使用os.chdir(r'xxxxxxx')来修改路径,使用方便import pandas as pd

2020-07-22 21:40:52 267

原创 NLP-Job1 赛题理解(天池)

赛题说明本文针对天池赛题的-新闻文本分类进行赛题讲解,对赛题数据进行说明,并给出解题思路。赛题名称:零基础入门NLP之新闻文本分类赛题目标:通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。GitHub:https://github.com/datawhalechina/team-learning赛题网址:https://tianchi.aliyu

2020-07-20 20:19:51 293

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除