huaweimember-CSDN博客

原创关于流畅用户体验的思考

周末无事做了个简单的OCR小工具――从文本截图中提取和识别字符。处理对象是标准字体的图像，没有OCR通常要面对的光照，破损，扭曲等问题，几乎不用任何预处理，因此算法是简单明了的：先二值化，横向纵向投影分割字符，再用模板匹配进行字符识别。因为打算做成一个可用的工具而不仅仅是算法仿真，所以没用MATLAB而用了Xcode+openCV。安装开发包，配置工程，理解调用接口消耗了大部分时间，真正投入在核心

2016-04-03 00:21:41 1781

原创推荐一本最接近完美的Linux内核入门教材

其实我认为这本书不仅仅适合作为入门教材，同时也是一部真正算得上是深入理解Linux内核的凤毛麟角之作；这本书不仅在Linux内核类书籍中出类拔萃，甚至与计算机其他领域的经典巨著相比也毫不逊色。这本书就是《Linux内核情景分析》（下简称《情景分析》）。如果所有关于Linux内核的书籍（不管英文的还是中文的）中存在一本最佳书籍，相信看过《情景分析》的人都会认为非它莫属了。《情景分析》是一本好书，

2016-03-28 22:03:12 26949 4

原创概率图模型(PGM,Probability Graphical Model)推断简述

1.1 什么是推断直观地讲，推断就是根据已知条件来判断或查询未知信息。比如医生诊断，根据病人的症状（发烧，出汗等），来判断病人最有可能是得了什么病（感冒或其他病）。在这里，病人的症状就是已知条件，而病因就是查询的目标事件。用PGM来表示该类问题，即给定模型P(E,Y)，已知E=e,计算MAP(Y|E = e) = arg max P（y，e）。上述所举的例子只体现了PGM查询类型

2014-07-15 17:56:27 2487

原创 Images of Future AI

2013-5-3 Yongwu ShenFuture AI system would be the one that is able to grow from the rootby itself, rather than being created brick by brick like existing ones.Building an AI system in the future w

2014-07-11 21:53:32 1336 1

原创 AutoEncoder的一些实验结果和思考

之前看Autoencoder的时候，做了一下这里的练习：http://ufldl.stanford.edu/wiki/index.php/Exercise:Sparse_Autoencoder 。其实从1月份就开始做了，当时没有调试通过，后来又加班太多，一直没有接着做。直到上上周末抽空调了一天，终于顺利完成了，又拖到这周末才开始把实验结果整理成文。看来，做事还得趁热打铁，一气呵成。时间一久，积极

2014-05-24 21:19:21 2702

原创构造NLP标注集的几个简便方法&随想

基于统计的NLP算法或模型的性能关键在于语料库，但带标注的语料库不容易获得。这里介绍几个构造训练集或测试集的简便方法，在没有足够标注集的情况下可以采用。1.词义消歧用固定字符串替换多词。如，用词符串“8888”替换语料中出现的“屌丝”和“高富帅”，其中“8888”是歧义词，其含义可能为“屌丝”或“高富帅”，以此类推构造其他词汇，这样就得到了一个人工标注的歧义语料库。该方法可用于构造训练

2014-05-23 11:04:34 2071

原创《统计自然语言处理基础》中文版翻译勘误表，持续更新

8.6 C 191 E 310“It is also importantto note that this type of study only gets at character strings thatare entirely missing from the dictionary” 8.6 C 192 E 311“It took a long

2014-05-13 11:58:16 1049

原创《统计自然语言处理基础》笔记（4）词性标注之作用和影响性能的主要因素

1.为什么要词性标注词性标注是对句子中的每个词贴上合适的词性标签，所谓词性就是动词、名词、形容词等分类（又是分类…）。词性标注是很多NLP任务的预处理步骤，比如知道句子中每个词的词性后，再进行句法分析就容易多了。当然词性标注并不是一个必须的预处理。词性标注之所以能成为独立的研究主题还在于 NLP的终极目标–理解语言-目前看来还是遥不可及的，革命既然不能一蹴而就，那就先瞄准简单可实现的目标，

2014-04-09 22:22:04 3462

原创《统计自然语言处理基础》笔记（3）词汇获取之简介

1.词汇获取的目的是补充词典（这里指用于机器学习的词典）的不足之处，由于词汇含义不断在新增和变化，词典无法全面及时地覆盖所有含义和用法，因此词汇获取对基于统计的自然语言处理非重要。之前介绍的固定搭配识别也是词汇获取的一种，除此之外词汇获取相关问题还包括动词子范畴框架、附着歧义，选择倾向和语义相似性等（本书主要讲了这4种）。 2. 词汇系统的评价标准。最常用的两个指标是精确率和召回

2014-03-30 13:36:22 1354

原创《统计自然语言处理基础》笔记（2）语义消歧方法总结

语义消歧可以看作分类问题。一个词W有K个含义，对W消歧就是确定W在特定句子中究竟使用了哪一个含义，即把W分到K类中的一个。分类的依据则是和W邻近的词，即W的上下文C。歧义可以分为两类：一类是词的语义有多种，如“bank”，可以是银行，也可以是河岸；另一类是词本身的词性也是多样的，如predicate，既能作为名字，也能作为动词。对于前者，可能需要与W相隔较远的其他词参与消歧，而对于后

2014-03-24 21:51:03 4219

原创《统计自然语言处理基础》笔记（1）固定搭配词组/习语识别方法

Chapter5固定搭配词组/习语，如：“饕”和“餮”，“虽然”和“但是”，以2元词组为例，常用识别方法：1. 统计2个词汇同时出现的频率，频率越大则越有可能是固定搭配；如”打“和”水“经常同时出现，那么”打水”就是一个固定搭配或习语。 2. 如果对于两个词不相邻的情况，如“虽然”和“但是”之间肯定会有其他词，则不能用上述方法，这时需要考虑两个词的距离。以”虽然

2014-03-22 17:59:22 1593

原创 bit操作函数

2004年，美国创办了两家比较有名的社交网络，MySpace合Facebook。MySpace推出一年后，受到了美国大众的追捧。2005年7月，有意进军数字媒体行业的媒体大亨、新闻集团董事长默多克出资5.8亿美元收购了MySpace，当时有不少人大呼价格高得离谱。根据研究机构ComScore的数据，默多克收购时，MySpace就已经拥有了大约2000万的月独立访问用户数，而当前大红大紫的

2014-03-08 17:15:55 2627

转载 Introduction to Restricted Boltzmann Machines

Introduction to Restricted Boltzmann Machines (2012-03-11 13:50:10)转载▼标签： boltzmann machine it分类： PatternRecognition2Introduction to Restricted Bo

2014-02-20 00:43:00 1378

原创在GPU上训练ANN的优化方法

《Distributed Neural Networks with GPUs in the AWS Cloud》原文链接：http://techblog.netflix.com这篇文章应该是Netflix对利用AWS进行分布式ANN训练的一个介绍，虽然主题是ANN的分布式训练，但大部分内容主要是在讲如何对模型进行分解以适应分布式的训练，和如何优化计算以缩短训练时间，感觉适用于

2014-02-15 00:46:03 2104

原创嵌入式系统功耗极限优化

芯片架构和功耗芯片设计除了要满足功能和规格需求外，功耗也是必不可少的一项重要指标。芯片架构设计由一系列设计决策构成，包括软硬件划分，IP选型，核型配置，核数确定，时钟频率确定，内存规划等，每一项设计决策都会对功耗产生影响，本篇主要分析上述几个对功耗影响较大的决策项，并由此得出相应的降低功耗的方法。1 时钟频率图1 显示了在intel的一款CPU（Core i7-950）上所作的功耗测试

2013-12-23 23:39:02 1966

原创榨干压尽嵌入式系统的性能

前言嵌入式系统在资源使用上受到极其苛刻的限制：处理器能力杯水车薪，内存使用以byte计，同时对系统实时性和时序精确性又有着近乎变态的要求。特别是对于持续处理大量数据的实时系统，瞬间的过载导致数据计算出现纰漏，极有可能引起不可恢复的错误甚至崩溃。鉴于运算资源的极度稀缺性，对于该类异常的保护通常不可能像pc端程序那样精巧完备和滴水不漏。现状是：简单粗暴，甚至置之不理，往往是嵌入式系统对大部分异常和

2013-12-08 16:47:48 1388

原创语音处理资源

1.研学论坛——语音板块http://bbs.matwav.com/forumdisplay.php?fid=1932.苏统华http://hi.baidu.com/sutonghua3.matlab中文论坛http://www.ilovematlab.cn/index.php?sid=5s2DwH4.语音QQ群5.领域内的人6.DSP与音频技术论坛http:/

2013-02-20 13:12:32 1369

转载【转】自然语言处理（NLP）网上资源整理

最近把一些在网上见到的自然语言处理的资源整理了一下，包括论文列表、软件资源和一些实验室主页、个人主页等，希望能对NLP研究者有所帮助，由于个人视野有限，目前只整理了这些，以后会持续更新。在此也感谢这些资源的提供者和维护者。转载请标明出处（http://blog.csdn.net/xuh5156/article/details/7437475）论文、博客1.

2013-02-17 17:15:10 1166

huaweimember的专栏