Archive for the ‘刘杰乱弹’ Category

大淘宝VS.百度之技术屏障

Saturday, November 22nd, 2008

注意力一直在搜索引擎上,直到最近Ming总时不时提到“大淘宝”,才开始关注这件事情。

事件1:
昨日去阿里得知大淘宝计划已经实施。
事件2:
从百度部门得知,百度搜索引擎已经开始对用户的搜索、点击行为(行动轨迹)进行记录。
事件3:
阿里妈妈正在研发网络碎片相关技术嵌入阿里妈妈体系。

百度可以在第一时间拿到网民搜索数据,这点对于阿里来讲略显困难。大淘宝提出了“淘宝的数据更有价值”,不难看出,从海量的用户搜索数据到淘宝的用户购物数据,淘宝更为精准。

数据挖掘,数据挖掘……

大淘宝战略与百度抗衡的关键技术点啊!

Web2.0:帮你辨别跟你聊天的是人还是狗

Wednesday, July 2nd, 2008

今晚心血来潮和哥几个一起吃饭,我们如是说:

8年前流行一句话:你不知道互联网另一端屏幕前坐着的是个人还是条狗。 那就是web.
今天:有了SNS你就可以辨别出互联网另一端的屏幕前坐着的是人还是狗。 这就是web2.0
好大的飞跃啊!

中文分词的重要概念:条件随机场(Conditional Random Fields, CRFs)

Monday, June 9th, 2008

一般序列分类模型常常采用隐马模型(HMM), 像基于类的中文分词, 但隐马 模型中存在两个假设: 输出独立性假设和马尔可夫性假设. 其中, 输出独立性假设要求序列数据严格相互独立才能保证推导的正确性, 而事实上大多数序列数据不能 被表示成一系列独立事件. 而条件随机场则使用一种概率图模型, 具有表达长距离依赖性和交叠性特征的能力, 能够较好地解决标注(分类)偏置等问题的优点, 而且所有特征可以进行全局归一化, 能够求得全局的最优解.

条件随机场是一个无向图上概率分布的学习框架, 由Lafferty 等首先引入到自然语言处理的串标引学习任务中来. 最常用的一类CRF是线性链CRF, 适用于我们的分词学习. 记观测串为W=w1w2…wn, 标记串(状态)序列 Y=y1y2…yn, 线性链CRF对一个给定串的标注, 其概率定义为:
2.gif
其中, Y是串的标注序列, W是待标记的字符, fk是特征函数, λk是对应的特征函数的权值, 而t是标记, Z(W)是归一化因子, 使得上式成为概率分布.
CRF模型的参数估计通常使用L-BFGS算法来完成. CRF的解码过程, 也就是求解未知串标注的过程, 需要搜索计算该串上的一个最大联合概率, 即:

Y* = arg max(y)P(Y|W)

在线性链CRF上, 这个计算任务可以用一般的Viterbi算法来有效地完成.

目前我发现的关于CRF的实现有:

* CRF++(http://crfpp.sourceforge.net/)
* Pocket CRF(http://sourceforge.net/project/showfiles.php?group_id=201943)

分词方法三:反向最大匹配分词(BMM)

Monday, June 9th, 2008

BMM方法和FMM过程类似,不同点仅在于BMM是从文本的末尾开始处理,每次匹配不成功时去掉的是最前面的一个字。BMM方法的精度要高一些,其错误率是1/245。

分词方法四:基于统计分词

Monday, June 9th, 2008

即利用统计语言模型分词的方法。几乎所有准确率高的中文分词器都会使用统计语言模型实现分词。对于统计语言模型的介绍请参阅

http://googlechinablog.com/2006/04/blog-post.html

统计语言模型 (Statistical Language Models)

Google 的使命是整合全球的信息,所以我们一直致力于研究如何让机器对信息、语言做最好的理解和处理。长期以来,人类一直梦想着能让机器代替人来翻译语言、识别语音、认识文字(不论是印刷体或手写体)和进行海量文献的自动检索,这就需要让机器理解语言。但是人类的语言可以说是信息里最复杂最动态的一部分。为了解决这个问题,人们容易想到的办法就是让机器模拟人类进行学习 - 学习人类的语法、分析语句等等。尤其是在乔姆斯基(Noam Chomsky 有史以来最伟大的语言学家)提出 “形式语言” 以后,人们更坚定了利用语法规则的办法进行文字处理的信念。遗憾的是,几十年过去了,在计算机处理语言领域,基于这个语法规则的方法几乎毫无突破。

其实早在几十年前,数学家兼信息论的祖师爷 香农 (Claude Shannon)就提出了用数学的办法处理自然语言的想法。遗憾的是当时的计算机条件根本无法满足大量信息处理的需要,所以他这个想法当时并没有被人们重视。七十年代初,有了大规模集成电路的快速计算机后,香农的梦想才得以实现。

首先成功利用数学方法解决自然语言处理问题的是语音和语言处理大师贾里尼克 (Fred Jelinek)。当时贾里尼克在 IBM 公司做学术休假 (Sabbatical Leave),领导了一批杰出的科学家利用大型计算机来处理人类语言问题。统计语言模型就是在那个时候提出的。

给大家举个例子:在很多涉及到自然语言处理的领域,如机器翻译、语音识别、印刷体或手写体识别、拼写纠错、汉字输入和文献查询中,我们都需要知道一个文字序列是否能构成一个大家能理解的句子,显示给使用者。对这个问题,我们可以用一个简单的统计模型来解决这个问题。

如果 S 表示一连串特定顺序排列的词 w1, w2,…, wn ,换句话说,S 可以表示某一个由一连串特定顺序排练的词而组成的一个有意义的句子。现在,机器对语言的识别从某种角度来说,就是想知道S在文本中出现的可能性,也就是数学上所说的S 的概率用 P(S) 来表示。利用条件概率的公式,S 这个序列出现的概率等于每一个词出现的概率相乘,于是P(S) 可展开为:

P(S) = P(w1)P(w2|w1)P(w3| w1 w2)…P(wn|w1 w2…wn-1)

其中 P (w1) 表示第一个词w1 出现的概率;P (w2|w1) 是在已知第一个词的前提下,第二个词出现的概率;以次类推。不难看出,到了词wn,它的出现概率取决于它前面所有词。从计算上来看,各种可能性太多,无法实现。因此我们假定任意一个词wi的出现概率只同它前面的词 wi-1 有关(即马尔可夫假设),于是问题就变得很简单了。现在,S 出现的概率就变为:

P(S) = P(w1)P(w2|w1)P(w3|w2)…P(wi|wi-1)…
(当然,也可以假设一个词又前面N-1个词决定,模型稍微复杂些。)

接下来的问题就是如何估计 P (wi|wi-1)。现在有了大量机读文本后,这个问题变得很简单,只要数一数这对词(wi-1,wi) 在统计的文本中出现了多少次,以及 wi-1 本身在同样的文本中前后相邻出现了多少次,然后用两个数一除就可以了,P(wi|wi-1) = P(wi-1,wi)/ P (wi-1)。

也许很多人不相信用这么简单的数学模型能解决复杂的语音识别、机器翻译等问题。其实不光是常人,就连很多语言学家都曾质疑过这种方法的有效性,但事实证明,统计语言模型比任何已知的借助某种规则的解决方法都有效。比如在 Google 的中英文自动翻译中,用的最重要的就是这个统计语言模型。去年美国标准局(NIST) 对所有的机器翻译系统进行了评测,Google 的系统是不仅是全世界最好的,而且高出所有基于规则的系统很多。

现在,读者也许已经能感受到数学的美妙之处了,它把一些复杂的问题变得如此的简单。当然,真正实现一个好的统计语言模型还有许多细节问题需要解决。贾里尼克和他的同事的贡献在于提出了统计语言模型,而且很漂亮地解决了所有的细节问题。十几年后,李开复用统计语言模型把 997 词语音识别的问题简化成了一个 20 词的识别问题,实现了有史以来第一次大词汇量非特定人连续语音的识别。

常用于中文分词的统计语言模型有条件随机场,隐马尔科夫模型,互信息,N元等。

分词方法二:正向最大匹配分词(FMM)

Monday, June 9th, 2008

正向最大匹配分词方法的基本思想是:假设字典中最长的关键字的长度为i,取当前待处理文本的前i个字作为匹配字段w,在字典中查找,若字典中有w, 则匹配成功,w即做为一个词被切分出来;如果匹配失败,则去掉w的最后一个字,继续去字典中查找. 切分出w后,继续对w之后的字词进行上面步骤的切分,直到切分出所有的词为止.

梁南元先生在其论文《书面汉语的自动分词与另一个自动分词系统CDWS》提到,FMM方法的错误切分率为1/169. 一般不单独使用,而是和其它方法配合使用。

我家的狗狗

Monday, April 7th, 2008

我加狗狗在偷懒

养了条狗,呵呵,这家伙很可爱,起了个名字叫旺旺。

所以上网查了很多关于狗狗方面的驯养知识,有个网站 宝贝狗狗网 还不错。

I love you more and more each day

Tuesday, March 25th, 2008

而每过一天每一天这醉者
便爱你多些再多些至满泻
我发觉我最爱与你编写
以后明天的深夜

而每过一天每一天这情深者
便爱你多些再多些然后再多一些
我最爱你与我这生一起
那惧明天风高路斜

无求甚么无寻甚么
突破天地但求夜深
奔波以后能望见你
你可否知道么

平凡亦可平淡亦可
自有天地但求日出
清早到后能望见你
那已经很好过

当身边的一切如风是你让我找到根蒂
不愿离开只愿留低情是永不枯萎

而每过一天每一天这醉者
便爱你多些再多些至满泻
我发觉我最爱与你编写
以后明天的深夜

而每过一天每一天这醉者
便爱你多些再多些至满泻
我最爱你与我这生一起
那惧明天风高路斜

名是甚么财是甚么
是好滋味但如在生
朝朝每夜能望见你
那更加的好过

当身边的一切如风是你让我找到根蒂
不愿离开只愿留低情是永不枯萎

而每过一天每一天这醉者
便爱你多些再多些至满泻
我发觉我最爱与你编写
以后明天的深夜

而每过一天每一天这醉者
便爱你多些再多些至满泻
我最爱你与我这生一起
那惧明天风高路斜

i love you i love you more and more each day

而每过一天每一天这情深者
便爱你多些再多些然后再多一些
我最爱你与我这生一起
那惧明天风高路斜

优秀的用户体验Mac os X

Friday, March 7th, 2008

开始用Apple OS X,确实效果不错!p张图看看My Mac OS X Desktop 呵呵,好久没有兴奋过了.这次重新让我激动了一把. 

I remember you

Monday, February 11th, 2008

I remember how you held my hand through thick and thin.

We cried a lot and share the tears that laughter brings.

I remember you.

I remember all these thing.