Blog of Feng Qian
Topwords
##Introduction TopWORDS1是近期在PNAS发表的一种方法,它在没有任何先验知识的条件下,快速地从大规模中文语料里学习出一个排序的词典以及语料文本的分词结构。 Note: TopWORDS的实现项目:https://github.com/qf6101/topwords ##Domain Applications TopWORDS的应用领域包括新词发现、短文本分析等。 新词发现一直是文本挖掘领域的一个难题,目前的方法主要是分为两种:(1)依赖众包手段收集词汇,例如百度的搜索词和搜狗的拼音输入;(2)采用规则方式采集候选词汇,加以人工筛选,例如Matrix67汇总的一些规则2。上述第一种方法需要先天有优势的大产品才能做,第二种方法效果较差,并且它们都需要大量的人工干预。TopWORDS天然可以做新词发现,优点是完全无监督,有理论依据,效果较好。 短文本分析是文本挖掘领域的另一个难题,内容简短、拼写错误、缩写语多、语法随意等原因为它的分析带来很多困难。TopWORDS除了可以抽取常用短语外,还可以为短文本分类等任务提供高频特征。 ##Algorithm...
阅读全文
Isolation Forest
##Introduction Isolation Forest(简称iForest)1是一种孤立点检测算法,与LOF等传统方法相比具有更高的检测质量和检测效率。它在效率上的优势尤为明显,甚至可以作为在线检测工具。 下文分为4个部分:首先介绍孤立点检测的应用领域;第二部分介绍iForest的算法步骤;第三部分分析iForest奏效的原因;最后一部分讨论孤立点检测与稀有类发现的差异。 ##Domain Applications 孤立点检测在信息安全领域尤为重要,常用于欺诈检测、分析控制等问题,能及时发现异常交易、异常用户和异常信息流。不仅如此,孤立点检测还可以作为数据预处理手段,例如可以为文本分类器剔除错误标记的语料,为聚类任务去噪。 ##Algorithms iForest是一种二阶段算法(说到二阶段,是不是想到了FP-Growth)。 第一阶段,构建$t$个iTree组成的森林。其中,每个iTree都只使用从$n$个整体数据中均匀采样的$\psi$个样本。构建iTree的步骤非常简单:每次随机选一个属性和分割值,对样本点做二分划分;迭代左右子节点,直至达到终止条件(不可分或高度超过$\log\psi$)。时间复杂度是$O(t\psi\log(\psi))$。...
阅读全文
Tips On T440p
##Fn exchange 同时按下面两个键,可以切换键盘F1-F12或笔记本功能键唤启方式(Fn键灯会亮起或关闭) Fn + Esc ##睡眠后无线网卡无法正常工作的解决方法 (1) 永久:无线网络属性 –>...
阅读全文
Tips In Ubuntu
##virtualbox share files 在文件 /etc/rc.local 中(用root用户)追加如下命令。 mount -t vboxsf -o...
阅读全文
Neural Word Embedding: Theory
##Introduction word embedding是指通过低维向量来编码词汇,把词典嵌入到一个低维空间。由于实际训练时使用上下文信息来编码词汇,低维空间中的word vectors在代数运算下表现出一定的语义和语法相似性,应用场景丰富。这种将词汇从0-1表示的离散稀疏空间映射到连续低维空间的方法,有点类似于低秩逼近。本文简要描述neural word embedding的动机和常见训练方法。 ##Motivations (1) language model才是终极目标...
阅读全文
3 Properties Of A Good Interview Performance
(1) 懂得的算法够多、够复杂、知道细节、有过实践(应用到产品、特征选择、参数选择技巧等)
(2) 知道面试官的提问意图,不知道就问清楚
(3) 在有限时间内把自己的优势表现出来
阅读全文
10 Properties Of A Good Resume
(1) 知名互联网公司的工作和实习经历 (2) 工作经历或研究经历(项目内容及个人职责)高度符合职位要求 (3) 丰富的开发技能,并在项目实践中有量化体现(linux, python, c/c++, java, R,...
阅读全文
Subscribe Top–k Related Twitters To News Stories
##Introduction 本文简要描述了Shraer $et\ al.$在VLDB 2013上的一个工作1:依据内容相关性,将twitters实时注册到news stories中(billions of pageviews per day),维护每个story始终有top-$k$个最相关的twitters。业务上做扩展的情况很多,例如在LBS场景中,可以用来筛选海量信息,将其注册到动态地理位置区域。...
阅读全文
Neural Word Embedding: Applications And Explorations
##Introduction Neural word embedding使用上下文来编码word,编码信息在词之间发生多次传递和更新后(thru NN-architecture),训练得到的word vectors在某些代数运算下表现出一定的语义和语法意义。例如,向量cosine可以衡量语义(语法)相似度,而向量相减则表达某些语义(语法)关系。 本文分为两部分:(1) applications, 描述作者在训练和使用distributed word...
阅读全文
Expectation–maximization Algorithm
##Introduction EM(Expectation-Maximization)与Gradient Boosting类似,其实是一种算法框架。当算法模型中存在隐藏变量,并且无法把隐藏变量积分掉(i.e., 不能转化成closed-form)时,EM采取迂回策略求解。 ##A Simply Comprehensible Inference 似然函数\( p(x;\theta)...
阅读全文
Gradient Boosting And Gbdt
##Introduction 本文简要描述了gradient boosting算法框架和GBDT (gradient boosting desicion tree)算法。 ##Basic Concepts boosting:...
阅读全文
Github Page Setup
##Introduction 本文简要描述了如何利用jekyll-bootstrap搭建一个基于github page的个人站点,搭建的环境是ubuntu。 ##Basic Concepts git: 类似cvs、svn的版本控制软件。 github: git的托管网站。 github...
阅读全文