Blog of Feng Qian

Topwords

Date: 2016-07-01 00:00:00 +0000

##Introduction TopWORDS1是近期在PNAS发表的一种方法，它在没有任何先验知识的条件下，快速地从大规模中文语料里学习出一个排序的词典以及语料文本的分词结构。 Note: TopWORDS的实现项目：https://github.com/qf6101/topwords ##Domain Applications TopWORDS的应用领域包括新词发现、短文本分析等。新词发现一直是文本挖掘领域的一个难题，目前的方法主要是分为两种：（1）依赖众包手段收集词汇，例如百度的搜索词和搜狗的拼音输入；（2）采用规则方式采集候选词汇，加以人工筛选，例如Matrix67汇总的一些规则2。上述第一种方法需要先天有优势的大产品才能做，第二种方法效果较差，并且它们都需要大量的人工干预。TopWORDS天然可以做新词发现，优点是完全无监督，有理论依据，效果较好。短文本分析是文本挖掘领域的另一个难题，内容简短、拼写错误、缩写语多、语法随意等原因为它的分析带来很多困难。TopWORDS除了可以抽取常用短语外，还可以为短文本分类等任务提供高频特征。 ##Algorithm... 阅读全文

Isolation Forest

Date: 2015-08-01 00:00:00 +0000

##Introduction Isolation Forest（简称iForest）1是一种孤立点检测算法，与LOF等传统方法相比具有更高的检测质量和检测效率。它在效率上的优势尤为明显，甚至可以作为在线检测工具。下文分为4个部分：首先介绍孤立点检测的应用领域；第二部分介绍iForest的算法步骤；第三部分分析iForest奏效的原因；最后一部分讨论孤立点检测与稀有类发现的差异。 ##Domain Applications 孤立点检测在信息安全领域尤为重要，常用于欺诈检测、分析控制等问题，能及时发现异常交易、异常用户和异常信息流。不仅如此，孤立点检测还可以作为数据预处理手段，例如可以为文本分类器剔除错误标记的语料，为聚类任务去噪。 ##Algorithms iForest是一种二阶段算法（说到二阶段，是不是想到了FP-Growth）。第一阶段，构建$t$个iTree组成的森林。其中，每个iTree都只使用从$n$个整体数据中均匀采样的$\psi$个样本。构建iTree的步骤非常简单：每次随机选一个属性和分割值，对样本点做二分划分；迭代左右子节点，直至达到终止条件（不可分或高度超过$\log\psi$）。时间复杂度是$O(t\psi\log(\psi))$。... 阅读全文

Blog of Feng Qian

Topwords

Isolation Forest

Tips On T440p

Tips In Ubuntu

Neural Word Embedding： Theory

3 Properties Of A Good Interview Performance

10 Properties Of A Good Resume

Subscribe Top–k Related Twitters To News Stories

Neural Word Embedding： Applications And Explorations

Expectation–maximization Algorithm

Gradient Boosting And Gbdt

Github Page Setup