自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

从零开始

万丈高楼平地起,脚踏实地,做好当下

  • 博客(13)
  • 收藏
  • 关注

原创 DataWhale - LC - 分治法

讲解题目练习Pow(x, n)classSolution:defmyPow(self,x:float,n:int)->float:returnself.helper(x,n)ifn>0else1/self.helper(x,-n)defhelper(self,x,n):ifx==0:return0ifn=...

2020-08-19 23:14:52 91

原创 DataWhale - 新闻文本分类 - Task4

Task 4主要关注基于深度学习的文本分类。与传统的机器学习不同,深度学习是一般一个end2end的过程,即既包含了特征提取,也包含了分类功能。文本表示法 - 改进在上一个task里,我们已经学习了几种表示方法:one hot; bag of words; n-gram; TF-IDF;但是实际上,上述方法或多或少都存在着问题:转换得到的向量维度很高,数量很多,需要较长时间的训练时间; 无法表达出单词与单词之间的关系,只能反映出统计上的特征;利用深度学习,我们可以很好的解决这些问

2020-07-27 16:08:34 128

原创 Datawhale - 新闻文本分类 - Task3

Task3终于到了modeling部分。文本表示方法One hot即每个单词有一个index,对于每个index的vector,其中一位是1,其他都是0。Bag of Words词袋模型,也称count word。每个文档的字、词可以使用其出现的次数来表示。from sklearn.feature_extraction.text import CountVectorizer corpus = ['This is the first document.', 'This do.

2020-07-24 22:43:46 132

原创 Datawhale - 新闻⽂本分类 - Task2

Task2主要内容为数据的读取与分析。数据读取赛题数据虽然是文本数据,每个新闻是不定长的,但任然使用csv格式进行存储。因此可以直接用Pandas完成数据读取的操作。 train_df = pd.read_csv('input/train_set.csv', sep='\t', nrows=100)sep表示该文本数据是由\t隔断,nrows表示读取前100行,这俩参数之前是没有用过的。我们调用head函数来看一下数据的构成,很简单,第一列是分类的target,第二列为新闻的字符.

2020-07-22 20:59:24 98

原创 Datawhale - 新闻⽂本分类 - Task1

本系列文章记录下DataWhale的组队学习活动,内容是一个新闻文本分类的天池比赛,链接。Task1 赛题理解Task1十分简单,只是简单的介绍些题目相关信息。Dataset赛题以匿名处理后的新闻数据为数据集,所谓匿名,即对文本字符进行了tokenize,所见为index,而非真实文字。预测标签包含14个类别,训练集包含20w samples,测试集A、B均包含5w samples。Evaluation统一使用F1 Score作为衡量指标,它同时兼顾precision和reca.

2020-07-21 00:38:49 115

原创 【python】timeit模块方法的学习以及__main__ 的含义

python的timeit模块可以对代码执行效率进行分析。class timeit.Timer(stmt=‘pass’, setup=‘pass’, timer=<timer function>)Timer是测量小段代码执行速度的类。stmt参数是要测试的代码语句(statment);setup参数是运行代码时需要的设置;timer参数是一个定时器函数,与平台有关。ti...

2019-06-23 10:40:49 415 1

原创 Permisson Denied !ssh传输文件报错

今日尝试通过ssh传输文件首次尝试,出现了Permisson Denied 的错误查书后发现,目的主机的文件地址应该写成/tmp,访问其他文件是没有权限的即应形如:scp /path/filename username@servername:/tmp

2016-05-12 19:46:31 674

原创 操作系统笔记---内存管理

// 地址绑定1. 是逻辑地址向物理地址映射的过程2. 根据映射发生的时间分类:编译时:编译后,逻辑地址已经映射到物理地址。载入时:编译时候产生可重定位代码。将程序加载到内存时,逻辑地址映射到物理地址,一旦载入内存的某个地址,就从此固定不动。如果发生了swap(交换)也要换回原来的地址上。运行时:进程运行时候可以改变映射的物理内存区域。如:进程a、b在内存,基址为1000h和2

2016-04-27 20:02:42 4678 2

原创 C++复习:static_cast

关于static_cast该运算符把expression转换为type-id类型,但没有运行时类型检查来保证转换的安全性。它主要有如下几种用法:①用于类层次结构中基类(父类)和派生类(子类)之间指针或引用的转换。进行上行转换(把派生类的指针或引用转换成基类表示)是安全的;进行下行转换(把基类指针或引用转换成派生类表示)时,由于没有动态类型检查,所以是不安全的。

2015-05-19 09:15:05 710

原创 C++复习:include<>

//马上考c++了,拿几天来复习,这里把不熟悉的、重要的知识点记录下来1.关于include首先是几种include方式1.include 2.include uising namespace std;3.include using std::cout;4.include 在程序中使用cout要写成std::cout以下关于#include

2015-05-18 19:34:04 553

原创 C++ 继承 小结

C++继承1.    c++提供了三类继承方式,public、protected、private。2.    在各种形式的继承关系中,基类的private成员都不能被派生类直接访问,但是private成员仍然得到了继承。3.    基类的friend函数、构造函数、析构函数不能被继承。4.    protected成员可以被基类、派生类的任何成员和友元访问,不能被类的外界访问。

2015-04-26 09:59:17 698

转载 C++ 30分钟掌握STL

三十分钟掌握STLSTL概述STL的一个重要特点是数据结构和算法的分离。尽管这是个简单的概念,但这种分离确实使得STL变得非常通用。例如,由于STL的sort()函数是完全通用的,你可以用它来操作几乎任何数据集合,包括链表,容器和数组。要点STL算法作为模板函数提供。为了和其他组件相区别,在本书中STL算法以后接一对圆括弧的方式表示,例如sort()。STL另一个重

2015-04-06 21:43:49 603

原创 C++ 格式化输出

前几天c++课上学到浮点数的格式化输出,课上、书上的说明不太清楚。拖了几天,根据百度的资料进行一下整理。不足不对不妥之处,望不吝赐教。许多情况下,都需要控制输出结果的表现形式。如输出宽度、输出精度、输出格式等。C++的iomanip.h中定义了许多控制符,这些控制符可以直接插入到流中,控制数据的输出格式。控制符有两种:控制常量和控制函数,控制常量定义在iostream.h中,控

2015-03-14 10:20:11 740 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除