自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 LangChain “DistanceStrategy导入错误”引起“更改相似检索方法失效”

在执行“if distance_strategy == DistanceStrategy.MAX_INNER_PRODUCT:”判断时,结果为false,导致选择的faiss索引为IndexFlatL2(采用欧氏距离)。**问题:**我们想通过如下方式去修改相似度计算的方法为点积(默认是欧式距离),但修改后发现无效。

2024-01-08 16:55:02 458

原创 字节、字符、编码

计算机理解的字符就是一个由N个字节组成的单元,因为它只知道0、1。例如汉字:“你”在UTF-8编码方式下表示为“E4BDA0”三个字节组成的单元,字母“Z”在UTF-8编码方式下表示为“5A”一个字节组成的单元。:计量存储容量的计量单位,一个字节占8位(bit)。字节:11010011,表示为16进制:D3。:数字、字母、汉字、符号等等(字符串就是一串字符)

2024-01-05 10:50:56 384

原创 Tokenizers

Byte-Pair Encoding,来自于论文的一种tokenizers方法,有以下几个步骤:选择一个tokenizers方法(比较基础的方法,可以是空格切分、工具)作为pre-tokenization,负责将text切分成word。就与第一步的切分结果得到n个word以及对应的词频。基于word的集合,构建一个base vocabulary。base vocabulary里的每一个symbols都来自word集合。例如word:hug 提供三个symbols:h、u、g。

2023-12-18 16:25:35 59

原创 语义向量模型for检索

文本检索的场景需要用到的embedding方法学习与整理

2023-08-29 14:35:21 180

原创 特征缩放:归一化 and 标准化

不管归一化还是标准化等等,都是一种特征缩放的操作。特征缩放的本质:数据的偏移和缩放(都是一种线性变化),不管是归一化还是标准化,都一样,只不过由于方法的不同可能有些进行偏移有些进行缩放,有些进行偏移和缩放。直接结果:数据尺度或者分布的变化,例如归一化改变数据的尺度,标准化改变数据的分布和尺度。 当数据没有极端值的时候可以使用归一化来做尺度的变化,有极端值的时候可以使用标准化,因为标准化中均值和方差是基于整体数据计算得到,不太受极端值的影响。意义:一些函数对数值比较敏感,例如sigmoid,数值太大或者

2022-01-17 10:13:32 277

原创 pytorch 数据集划分

pytorch 数据集划分pytorch 提供了一个可用于划分Dataset的简单接口。如下:def random_split(dataset, lengths, generator=default_generator): r""" Randomly split a dataset into non-overlapping new datasets of given lengths. Optionally fix the generator for reproducible r

2021-12-21 16:36:40 1823

原创 keras Tokenizer 大小写 踩坑

keras Tokenizer 踩坑虽说Tokenizer类可以很方便的做一些文本处理工作。但刚开始使用时就掉坑里了在获取一个Tokenizer类实例时,如果没有指定lower=False时,它默认是将语料中的所有大写字母变为小写字母的,这就导致以下悲催的情况。word_docs 是defaultdict类型,即使找不到key值,也不会报错。word_counts是OrderedDict类型,找不到key直接报错。示例如下...

2021-08-11 14:40:46 180

原创 ERROR处理: `class_weight` is only supported for Models with a single output.

ValueError: class_weight is only supported for Models with a single output.问题描述在使用keras时,由于正负样本不平衡,打算在fit函数中使用参数class_weight进行正负样本权重的调节。cw = {0: 1, 1: 20}self.model.fit({"g_input": g, "p_input": p}, {"out": y}, epochs=self.args.epochs, batch_size=self.

2021-07-27 15:12:22 1177 1

原创 tensorflow 变量

tensorflow 变量标签(空格分隔): TF variabletf.Variable()创建变量,指定初始化tensor,tensor得有明确的shape,可以不用指定name。tf.get_variable()该方法通常用来创建或者获取变量当用于创建变量时与tf.Variable()基本一样变量名必须指定不同的是本方法通常会与tf.variable_scope()方法连用tf.variable_scope()tf.variable_scope()生一个上下

2020-05-20 17:39:59 130

原创 论文阅读:Improving Temporal Relation Extraction with a Globally Acquired Statistical Resource

Improving Temporal Relation Extraction with a Globally AcquiredStatistical Resource解决的问题难点及贡献主要内容实验结果Statistical Resource)作者:Qiang Ning, Hao Wu, Haoruo Peng, Dan Roth时间:2018解决的问题依旧是时间关系识别!作者本文...

2020-05-08 14:54:16 353

原创 论文笔记:An Improved Neural Baseline for Temporal Relation Extraction

An Improved Neural Baseline for Temporal Relation Extraction解决的问题难点及贡献主要内容实验结果解决的问题时间关系识别,通常指在提取出文本中系列事件词的情况下,判断事件两两之间的时间关系(通常包括,before、after…)难点及贡献时间关系的识别任务是一个非常具有挑战性的任务,受制于样本标注的困难,神经网络等方法一直未能被广泛...

2020-05-02 20:18:30 432 2

原创 Jaccard

与余弦相似度一样,jaccard系数也适用于衡量两个集合之间的区分度。现有集合A,Bjaccard系数:J(A,B)=|A∩B|/|A∪B|            (1)jaccard距离:=1-J(A,B)=(|A∪B|-|A∩B|)/|A∪B|            (2)jaccard距离是与jaccard系数相反的概念。jaccard系数越大,二者越相似;而jaccard距离越大,二者越不...

2018-05-29 19:53:24 6801

原创 CSS使用 基本条目

CSS使用 基本条目CSS(cascading style sheets)层叠样式表能够对网页中的元素的排版进行像素级的精准控制,表现形式与文档结构的分离。一、优势文档体积缩小,如减少了重复代码。信息检索快,如搜索引擎是跳过表现形式检索文档结构的。可读性好,主要体现在表现形式与文档结构的分离。表现形式丰富二、引入CSS到网页中的方法内联样式:在页面元素标签中直接使用style属性指定样式。<...

2018-05-29 12:43:27 163

原创 非对称二元属性

二元属性:取值为0或者1的属性,所以也成为布尔属性对称二元属性:属性的两个取值的权重相同,例如:“性别”这一属性的取值“男性”,“女性”。非对称二元属性:即取值的权重不相同,例如:“HIV”有“阴性”和“阳性”,阳性比较稀少,更重要。...

2018-05-28 14:11:02 6114 1

原创 文本数据挖掘博客 摘录

1、中文分词领域中相较于分词歧义而言跟让人头疼的一个问题——未登录词。问题:分词依赖词库,但是一些网络新词,机构名称等未登录词却不存在于词库中,这样一来,依赖于词库分词得到的结果并不是那么可靠。一种想法是,通过词的特征将词从语料中提取出来,对比词库得到新词。但是怎样的文本片段才算一个词?答:在考虑了词出现的频率的基础上还要综合考虑其内部凝固程度,自由程度。2、由词的自由程度的考量(一个词得有很丰富...

2018-05-23 20:49:35 213

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除