爱吃草莓的西瓜酱-CSDN博客

原创 MySQL技术内幕Innodb存储引擎六锁

基本知识MyISAM引擎：表锁设计Microsoft SQL Server： 2005前是页锁，2005后开始支持乐观并发和悲观并发，在乐观并发下开始支持行级锁，但和InnoDB存储引擎的实现方式完全不同。此外，它会锁升级，行锁会升级到表锁Innodb：实现和Oracle数据库非常类似，提供一致性的非锁定读、行级锁支持。...

2020-12-15 10:42:44 130

MySQL技术内幕Innodb存储引擎七事务事务的分类扁平事务（最常见）带有保存点的扁平事务链事务嵌套事务分布式事务事务的实现redo基本概念用来保证事务的原子性和持久性，通常记录的是页的物理修改操作，是物理日志当用来实现事务的持久性时，由两部分组成：内存中的redo log buffer（易失的）；redo log file（持久的）基本上是顺序写的存放在重做日志文件中LSN表示事务写入重做日志的字节的总量，其单位是字节,占用8个字节见p303不

2020-12-11 11:00:56 151

原创 JAVA线程的状态及转换

JAVA线程的状态及转换确定线程当前的状态，可以通过 getState() 方法Java 中的 Runable 状态对应操作系统线程状态中的两种状态，分别是 Running 和 Ready，也就是说，Java 中处于 Runnable 状态的线程有可能正在执行，也有可能没有正在执行，正在等待被分配 CPU 资源。Blocked 与 Waiting 的区别：Blocked 在等待其他线程释放 monitor 锁，而 Waiting 则是在等待某个条件，比如 join 的线程执行完毕，或

2020-11-16 14:33:50 165

原创分布式键值系统Dynamo & Tair

QuestionDynamo 是如何实现自动负载均衡？设计考虑数据复制算法选择最终一致性，因为强一致性会影响数据的高可用性。也就是说高可用性和一致性两者间必须要做一个trade-off，联想到CAP理论中，只考虑AP和CP。（可能P2P模式下，很难保证强一致性）Dynamo采用最终一致性，不会阻拦别的事务的写操作，因为无需复制完所有的副本才可以进行写操作。这里将冲突的复杂解决方法推到reads上，确保写不会被拒绝。支持强一致性的系统不能很好处理网络分区问题但是Tair却不是这样的，它选择

2020-09-17 20:18:03 350

原创 What’s Really New with NewSQL 论文

先导为什么需要NewSQL?数据的急速扩增，需要数据库具有很强的扩展性，往往有两种扩展方式：垂直扩展：scale-up水平扩展: scale-out，采用中间件，做sharding的方式，即分库分表的方式NoSQL代表性的DBGoogle’s BigTable — HBASE（开源版）Amazon’s Dynamo — Cassandra（开源版）MongoDBRedis(键值型数据库)特性不保证强一致性（故不适用金融服务），需要在应用逻辑里处理最终一致性的问题不支

2020-08-27 16:03:00 450

原创评测指标：代码覆盖率

代码覆盖率度量方式语句覆盖(StatementCoverage)又称行覆盖(LineCoverage)，段覆盖(SegmentCoverage)，基本块覆盖(BasicBlockCoverage)度量：被测代码中每个可执行语句是否被执行到了。只统计能够执行的代码被执行了多少行【单独一行的花括号｛｝也常常被统计进去】“最弱的覆盖”，它只管覆盖代码中的执行语句，却不考虑各种分支的组合等等。判定覆盖(DecisionCoverage)又称分支覆盖(BranchCoverage)，所

2020-06-21 18:02:49 552

原创论文解读之Amazon Aurora: Design Considerations for High Throughput Cloud-Native Relational Databases

Amazon Aurora: Design Considerations for High Throughput Cloud-Native Relational Databases设计想法：针对云上数据库网络所存在的瓶颈，基于一套存储计算分离架构，将日志处理下推到分布式存储层，通过架构上的优化来解决网络瓶颈。主要贡献：Aurora如何做到不仅减少了网络资源消耗，同时还能快速故障恢复且不丢失数据，接着会介绍Aurora如何做到异步模式下分布式存储节点的一致性，最后会介绍Aurora在生产环境使用

2020-05-26 12:03:07 624

原创论文1

kv 单机索引，内存的物理地址内存上的优化业务 - KVS - 数据库，其中KVS只是充当cache，cache负载不了直接落在数据库上。提升kvs热点访问能力之前的工作热访问项都是随机放置在chain上，hot和cold的数据随机放的。所以如何建模？答：item 热点放在链首。将items做成ring有效应对hotspot shift要保障ring是有序的，ite...

2020-04-15 16:12:07 91

原创 python实现倒排索引

python实现倒排索引倒排索引的过程简述：题目形式如下：前面的数字是文档号，每两行是一篇文档。题目要求如下：请编写程序（任意开发语言，推荐python3）为本目录下的1.txt文件构建倒排索引，保存在2_generated.txt(每行格式：词条\tDocFreq\tdocID docID，\t指换行符，docID间使用空格)文本处理要求:不要求做词条变化如fri...

2020-04-02 15:58:47 5611

原创文本分类之神经网络技巧

NLP笔记整理类目不均衡（loss被一部分类别占主导地位），尝试类boostsrap方法调整loss中样本权重方式解决Fine-tuning是必选的，如果只是使用word2vec训练的词向量作为特征表示，一定会损失很大的效果。一定要使用dropout，有两种情况可以不用：数据量特别小，或者使用了更好的正则方法，比如bn。一般dropout设置为0.5,。超参调节：看论文 A Sensi...

2020-03-21 11:43:09 235

原创 Regex 正则化

纯粹为了方便自己查找

2020-02-13 12:00:09 96

原创统计学习方法第十章隐马尔可夫模型

第10章隐马尔可夫模型10.1 定义1. 隐马尔可夫模型隐马尔可夫模型是关于时序的概率模型，描述由一个隐藏的马尔可夫链随机生成不可观测的状态随机序列，再由各个状态生成一个观测而产生观测随机序列的过程。隐马尔可夫模型由初始概率分布、状态转移概率分布以及观测概率分布确定。A: 状态转移概率矩阵B：观测概率矩阵π：初始状态概率向量（在时刻t=1处于状态qi的...

2020-01-08 09:42:38 119

原创统计学习方法第八章提升方法

第八章提升方法在分类问题中，它通过改变训练样本的权重，学习多个分类器，并将这些分类器线性组合，提高分类的性能，8.1 提升方法AdaBoost强可学习 & 弱科学习：在概率近似正确（probably approximately correct, PAC)学习的框架中，一个概念（类），如果存在一个多项式的学习算法能够学习它，并且正确率很高，称这个概念是强可学习的；一个...

2020-01-08 09:42:26 376

原创统计学习方法第七章支持向量机

第七章7.2 线性支持向量机与软间隔最大化训练数据中有一些特异点，将特异点除去后，剩下大部分的样本点组成的集合是线性可分的。可证明w的解是唯一的，b不是，而是存在于一个区间。【对于线性可分支持向量机的w,b是唯一的】由于现实中训练数据集往往是线性不可分的，线性支持向量机具有更广的适用性7.3 非线性支持向量机与核函数采取的方法是进行一个非线性变换，将非线性问题变换...

2020-01-08 09:42:11 258

原创 NLP 各类word-embedding

Word-EmbeddingOne-hot Encoding将N个单词转为长度为N的向量，如果是该单词，该位就置为1优点：稀疏，各维度都是独立的，也就是各个单词都是独立的Bag-of-Words(BoW) Model【词袋模型】把一个句子/文档中的单词数进行统计每个文档都转换为<word,count>map对文档相似度：cosineeuclidean dis...

2019-12-30 18:21:02 267

原创云计算平台及其应用

云计算考试第一章nosql适合什么场景下使用云计算的基本特征【五大】(1)按需自动服务 —— 自动化资源分配(2)宽带网络访问(3)资源池化（集中） —— 多租户模式(4)快速伸缩 —— 资源快速分配和释放(5)可计量云计算的基本服务模式(1)LaaS（基础结构即服务）(2)PaaS（平台即服务）(3)SaaS（软件即服务）(4)无服务器计算①BaaS②F...

2019-12-29 16:35:00 773 1

原创机器学习第十章降维与度量学习

第十章降维与度量学习k近邻学习多维缩放主成分分析流形学习度量学习10.1 k近邻学习k近邻(k-Nearest Neighbor, kNN)学习是一种常用的监督学习方法懒惰学习：此类学习技术在训练阶段仅仅是把样本保存起来，训练时间开销为零，待收到测试样本后再进行处理。急切学习：在训练阶段就对样本进行学习处理的方法。最近邻分类虽简单，但它的泛化错误率不超过贝叶斯最优分类...

2019-06-24 23:53:58 429

原创机器学习第十二章计算学习理论

第十二章计算学习理论概述关注的问题一些概念及记号可学习性什么是“学习”什么是“可学习的”假设空间复杂性对可学习性的影响有限假设空间无限假设空间：基于VC维的分析无限假设空间：基于Rademacher复杂度的分析稳定性12.2 PAC学习假设空间：学习算法所考虑的所有可能概念的集合 H目标概念：正确的x -> y的映射 c可分...

2019-06-21 20:33:40 234

原创机器学习第十一章特征选择与稀疏学习

第十一章特征选择与稀疏学习特征选择：子集选择、子集评价过滤式选择包裹式选择嵌入式选择：用L1Z正则化稀疏表示：字典学习压缩感知11.1 子集搜索与评价特征的分类相关特征: 对当前学习任务有用的属性无关特征: 与当前学习任务无关的属性（会增加构建学习器的难度）冗余特征*: 其所包含信息能由其他特征推演出来（有用的不需要去掉，使得学习算法更有利求解）...

2019-06-21 16:39:16 261

原创 jieba分词-tfidf文本表征-SVM分类

jieba分词-tfidf文本表征-SVM分类数据预处理import pandas as pdimport jiebaimport numpy as npfrom sklearn import feature_extractionfrom sklearn.feature_extraction.text import TfidfTransformerfrom sklearn.fe...

2019-06-20 21:01:29 2597 3

原创统计学习方法第九章 EM算法及其推广

第九章 EM算法及其推广EM算法是一种迭代算法，用于含有隐变量的概率模型参数的极大似然估计，或极大后验概率估计。EM算法的每次迭代由两步组成：E步，求期望；M步，求极大。概率模型（生成模型）9.1 EM算法的引入EM算法对初值敏感，是局部最优的Q函数定义：完全数据的对数似然函数logP(Y,Z|Θ)关于在给定观测数据Y和当前函数Θ(i)下对未观测数据Z的条件概率分布P(Z|...

2019-06-20 20:50:57 221

原创统计学习方法第六章逻辑斯蒂回归与最大熵模型

第六章逻辑斯蒂回归与最大熵模型logistic分类器是由一组权值系数组成的，最关键的问题就是如何获取这组权值，通过极大似然函数估计获得，并且 Y~f(x;w)似然函数是统计模型中参数的函数。给定输出x时，关于参数θ的似然函数L(θ|x)（在数值上）等于给定参数θ后变量X 的概率：L(θ|x)=P(X=x|θ)...

2019-06-20 16:08:37 120

原创统计学习方法第四章朴素贝叶斯法

第四章朴素贝叶斯法生成模型是基于贝叶斯定理与特征条件独立假设的分类方法训练方法：首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对给定的输入x，利用贝叶斯定理求出后验概率最大的输出y。4.1 朴素贝叶斯法的学习与分类条件独立性假设：用于分类的特征在类确定的条件下都是条件独立的后验概率最小化等价于期望风险最大化4.2 朴素贝叶斯法的参数估计...

2019-06-20 15:24:51 147

原创 kesci笔记 —— 点击率预测

点击率预测可以使用LDA的变体，低维空间的表示因为LDA要求句子比较长有专门处理tweet短文本的LDA多少个keyword会指向document，如有50个Keyword指向d1，就可以找出topic，慢慢建图建立keyword和result的二分图。keyword中可能有些停用词，需要去除停用词，可以根据tfidf的方法：除去在大量查询中出现的词...

2019-06-12 16:27:47 237

原创点击率预测

点击率预测一、流程1. 预处理点击数据：海量，异构，不均匀，相依（数据之间存在依赖性），低质（比如看60min视频只看了3min）豆瓣数据预处理：对于400位用户打分的选择统计量（max，min，average等放入特征）用户数据预处理：视频数据预处理：对于演员，获取出来，采用one-hot编码观影数据预处理：产生正例负例数据：观看时长大于5min为正例，否则...

2019-06-12 15:48:54 755

原创数据挖掘之第6章关联规则：基本概念和算法

基本概念X->Y ，其中X和Y是不相交的项集支持度：给定数据集的频繁程度支持度很低的规则可能只是偶然出现通常用来删去那些无意义的规则置信度：确定Y在包含X的事务中出现的频繁程度通过规则进行推理具有可靠性关联规则不必然蕴含因果关系，只表示前件和后件中的项明显地同时出现从数据集提取的可能规则的总数很高，事先对规则进行剪枝，减少对支持度和置信度不必要的计...

2019-06-12 15:13:32 1175

原创数据挖掘第7章关联分析：高级概念

第7章关联分析：高级概念本章就扩展到具有二元属性、分类属性和连续属性的数据集。扩充到包含序列和图形如何扩展传统的Apriori算法来发现这些模式7.1 处理分类属性将分类属性和对称二元属性转换成项，就可以用已有的关联规则挖掘算法；将每个不同的属性-值对创建一个新的项（即转化为非对称二元属性）来实现将关联分析用于二元化后的数据时，需要考虑如下问题：合并不太频繁的属性值...

2019-06-12 15:13:16 595

原创《数据挖掘导论》第二章数据

这章还没看完，之后会持续更新的。。。。什么是数据Collection of data objects and their attributes特征值数值型的或者描述性的（男/女 --&gt; 0/1）特征和特征值之间的区别：相同的属性可能被赋予不同的特征值，如身高的单位可能是米或者英尺不同的属性可以映射到相同的值集，如ID是无界的，age有最大值和最小值特征的类型...

2019-06-12 15:13:01 668

原创数据挖掘导论 5.6&5.7

第五章分类：其他技术5.6 组合方法1. 构造组合分类器的原理和方法基分类器需要互相独立，且比随机猜测要好。构建组合分类器的方法：通过处理训练数据集:根据抽样分布对原始数据重新采样装袋(bagging)、提升(boosting)通过处理输入特征：选择输入特征的子集来形成每个训练集随机森林通过处理类标号（变换为二类问题）：错误-纠正输出编码通过处理学习算...

2019-06-12 15:12:44 214

原创第三章探索数据

探索数据有助于选择合适的数据预处理和数据分析技术处理一些通常由数据挖掘解决的问题包括三个主题：汇总统计、可视化、OLAP3.2 汇总统计频率和众数多用于分类数据百分位数多用于连续数据位置度量：均值和中位数均值对离群值很敏感 ——> 截断均值散布度量：极差和方差极差是最大值和最小值的差方差对离群值敏感，常常需要使用更稳健的估计：绝...

2019-06-12 15:08:20 205

原创数据挖掘第四章分类：基本概念、决策树与模型评估

第四章1. 分类技术Decision Tree based MethodsRule-based MethodsMemory based reasoningNeural NetworksNaïve Bayes and Bayesian Belief NetworksSupport Vector Machines2. 决策树归纳Hunt算法定义：如果Dt中所有记录都属于...

2019-06-12 15:07:36 393

原创十大神经网络架构

十大神经网络架构最后在写关于神经网络的代码的时候，对什么情况使用什么神经网络有点困惑，在使用seq2seq的时候对batch_size的大小，hidden_layer的大小迷惑，于是打算整理一下现在流行的架构。卷积神经网络（CNN）1998年，计算机科学家扬·勒丘恩和他的小伙伴们开发了一款十分好用的手写数字识别器，名为LeNet。这款识别器在前馈神经网络中使用了反向传播算法。该前馈神经网络...

2019-05-17 10:25:25 3852

原创内存优化

内存优化1. 锁降低性能，尽量减少锁。2. 数据局部性希望数据落在缓存中，缓存中的数据都是从内存中读的。对于hash join，希望每一整块都能够放在缓存中。这样做一整块join的时候，不需要从内存中读，直接在缓存中有了，满足了数据局部性。...

2019-05-13 13:07:06 92

原创解决bug之使用AUC计算时，报错

unkown format is not supported‘’’y_test = np.array(y_test)y_pre = np.array(y_pre)precision, recall, _thresholds = metrics.precision_recall_curve(y_test,y_pre)area = metrics.auc(recall, precision)...

2019-05-07 19:12:41 507

原创 NLP之 NMT 解决语料不足与解码效率

NMT 两大问题问题描述神经机器翻译模型的参数的训练依赖于平行语料，但是语料匮乏，那如何提高语料的效率？如何提高解码效率？数据效率的提升使用第三方语言作为桥接神经机器翻译模型在低资源的情况下，比传统统计翻译模型效率差NMT ：两个部分，将源语言翻译成条件语言，在翻译成目标语言需要两部分解码若在条件语言发生错误，会导致目标语言也出现问题注：teac...

2019-04-28 10:58:43 817

原创 ;eetcode刷题 21. Merge Two Sorted Lists

21. Merge Two Sorted Lists题目描述Merge two sorted linked lists and return it as a new list. The new list should be made by splicing together the nodes of the first two lists.Example:Input: 1-&g...

2019-03-20 18:18:33 164

原创 leetcode刷题 20. Valid Parentheses

20. Valid Parentheses题目描述代码class Solution {public: bool isValid(string s) { stack<char> mystack; for(int i = 0;i < s.length();i++) { if(s[i] == '(' || s[i] == '{...

2019-03-19 23:20:38 80

原创 leetcode刷题 19. Remove Nth Node From End of List

19. Remove Nth Node From End of List题目描述题目解读一开始做的时候以为一直是倒数第二个，我想这不是很容易，结果没看清题目，那个bug改的痛啊，以及要纪念一下第一次不看讨论区独立完成的代码。代码/*** Definition for singly-linked list.* struct ListNode {* int val;* ...

2019-03-19 22:59:46 111

原创 leetcode刷题15. 3sum

15. 3sum题目描述解题思路看到这题，最直接的就是先排好序，之后首尾相加与首后面的以及尾前面的比较，但是做着做着只能通过10几个test，总共有几百个test，要考虑的很多，尤其是不能有重复结果出现，需要谨慎思考。。。代码class Solution {public: vector<vector<int>> threeSum(vector<in...

2019-03-19 22:23:33 76

原创 leetcode刷题 11.Container With Most Water

11.Container With Most Water题目描述解题思路看到这题的第一反应就是将下标和值放在map中，然后很自然的循环比较大小；后来看看讨论区大佬的答案，瞬间惊呆，下面是大佬的代码，膜拜。。代码class Solution {public: int maxArea(vector<int>& height) { int maxinum...

2019-03-19 19:37:59 124

空空如也

空空如也