分词方法二:正向最大匹配分词(FMM)

June 9th, 2008

正向最大匹配分词方法的基本思想是:假设字典中最长的关键字的长度为i,取当前待处理文本的前i个字作为匹配字段w,在字典中查找,若字典中有w, 则匹配成功,w即做为一个词被切分出来;如果匹配失败,则去掉w的最后一个字,继续去字典中查找. 切分出w后,继续对w之后的字词进行上面步骤的切分,直到切分出所有的词为止.

梁南元先生在其论文《书面汉语的自动分词与另一个自动分词系统CDWS》提到,FMM方法的错误切分率为1/169. 一般不单独使用,而是和其它方法配合使用。

分词方法一:从字构造词

June 9th, 2008

关于搜索引擎技术中的中文分词,让很多全文检索爱好者都头痛不已,这里我将几篇有用的文章介绍给大家。

现有的中文分词方法基本上都是采用基于词表的正(反)向最大匹配法进行词语切分。不过这种分词方法具有一个最大的问题,对于未登录词(也就是在词表中并未录入的词)的切分具有先天的不足,一般的解决方法是在基于正向最大匹配法切分模块后再加入一个未登录词模块,用于处理对于未登录词的切分。而在中文分词技术中,对于未登录词的切分错误极大的影响到了整体分词的召回率。现在主流的分词算法对于未登录词的召回率仍然在0.6 左右。
最新的一种分词算法叫做“由字构词”的分词方法,关于“由字构词”分词方法的最早的一篇论文发表在2002 年第一届SIGHAN 研讨会上,紧接着Xue 在ME 模型上实现了由字构词的分词系统参加了Bakeoff2003 的评测,获得了封闭测试项目的第二名,让人瞩目的是,它对于未登录词的召回率高达70%以上。而在Bakeoff2005 的各项赛事中,基于由字构词方法的分词系统几乎囊括了开放和封闭测试的全部冠军!而到了Bakeoff2006,由微软亚洲研究院采用基于CRF 模型实现的由字构词分词系统,获得了参加的六项评测中的四个第一,两个第三。
由字构词的分词方法和以往的分词方法不同,它是把分词视为一个字的分类问题。在微软亚洲研究院的系统中,他们把字分成了六类:S(单独成词)、 B(词首)、B2(词中第二个字)、B3(词中第三个字)、M(词中)、E(词尾)。比如以下的分词结果,可以将字标注为以下形式:

1. /上海/计划/到/本/世纪/末/实现/人均/国内/生产/总值/五千美元/。/
2. 上/B海/E计/B划/E到/S本/S世/B纪/E末/S实/B现/E人/B均/E国/B内/E生/B产/E总/B值/E五/B千/B2美/B3元/E。/S

/上海/计划/到/本/世纪/末/实现/人均/国内/生产/总值/五千美元/。/ 上/B海/E计/B划/E到/S本/S世/B纪/E末/S实/B现/E人/B均/E国/B内/E生/B产/E总/B值/E五/B千/B2美/B3元/E。/S

那么最后可以形成一个字库,规定每个字的词位标记中某一个词位超过50%,那么就认为这个词位是这个字的主词位,否则就认为这个字是自由字。在现有的资料中,语料库中总字量为5147 个,有主词位的字为3920 个,占据总字量的76%。

个人感觉由字构词的分词方法有两个优点:
1、能很好的切分未登录词,而使中文分词切分召回率得到显著提高
2、词表非常小,中文中172个汉字就占据了所有中文用字的50%以上,常用汉字也就2000多个,比起基于最大匹配法所用到的词表小了非常多。

最重要的是构建一个字表,基本形式如下:

1. 的 S
2. 一 B
3. 是 S

剩下的处理过程就和基于词表的正向最大匹配过程一样了,采用EM 或者 HMM 模型,对字窗中的字进行切分.

由字构词的方法解决的就是新词(未登录词)的猜测成功率,基于词表的大概在60%-70%左右,而此方法可以高达80%-90%甚至更高。
现在语言学界对于分词以及语意识别一般有两种取向,基于统计和基于规则。而事实验证,可行的方式只有以统计为主,在时间日期、命名实体(组织机构名或者人名、地名)上面辅助以规则的分词对于分词的准确率以及分词效率是最高的。

对于中文来讲,一个词蕴涵着多种含义,如何区分他们的关系,一边正确的切词成为了另人头疼的问题。

如何做好对于百度的SEO

June 9th, 2008

在这里找些优化的文章给朋友们看,因为很多朋友再作搜索引擎优化工作,另外相对于百度,大家普遍比较重视.

各个搜索引擎对关键词以及搜索偏好是不同,针对国内行情来说我们更注重百度的优化,中文站百度来的流量是最大的。下面我们就说一下如何优化百度也就是SEO

首先搜索引擎喜欢的是什么 当然是 文字 图片蜘蛛是不识别的,有人说我加批注,批注只是几个文字,而一篇文章多则能上百个关键词,流量从此而来,所以多加文字性的东西对搜索引擎比较好。

其次写文章标题什么一定要写的有水平,不求多但求精,因为不同词的排行都是不一样的,带来的流量也是不同的

最后要说的是你的网站要有内容,棉花他放在一起也是很大一堆,所以说尽量补充你的内容,让搜索引擎有的收录。

搜索引擎喜欢的是新鲜的东西原创的最好,原创多了他会天天爬你(那我做的的外挂站或软件站名字都是一样的怎么办?) 刘杰的博客 www.liujie.org.cn 你可以看下我的站点上的文章很多都是一样的东西但是名字都修改了点还有说明,你添加点别的文字搜索引擎还会爬你,你原题不变就会向我以前一样3-4个月才收录站点 所以说我这个站收录还是不行但是现在百度天天都在爬我站,这就是技巧和一点小小的思路,当然思路是自己想的。

如何写出好的原创软文?

June 9th, 2008

很多网络编辑对于如何花最短的时间写出象模像样的文章而头疼,今天我就跟大家谈谈这点,如何快速写出一片高质量的文章.

准备工作:
筛选很重要,一定要找一系列有实际意义的文章,例如 栏目下,都找些相关seo的文章,找出一些质量较好的来,然后开始修改.

修改重点:

一.标题一定要修改

(1)替换数字法
比如新浪教育的一篇文章,标题是:“备战高作文:三招让你的文章“亮”起来”,在修改标题的时候,就完全可以改成:“备战高考作文:五招让你的文章“亮”起来”取而代之的,就是将文章里最不起眼或者你看的最不顺眼的两个特点删除即可。

(2)替换词语法
同样也可以这样修改:“备战高考作文:小技巧让你的文章“亮”起来”这样在不删除文章内容的情况下就可以让搜索引擎认为至少标题是原创的。

(3)打乱文字排序法
还可以通过打乱顺序让你的标题看起来更加的不一样:“高考作文备战:能让你的文章“亮”起来的五种招式”,这样的顺序替换法,能让标题设置更加符合浏览者的思维习惯。

二.标题内容要考虑用户体验

其实这一点对于很对人来说是废话,但也非常的重要,很多朋友为了真正的使搜索引擎认为自己的文章是原创,而将个标题改的面目全非,这样的结果不可取。
标题中需要包含你的网站浏览者需要看到的因素,比如是做减肥站的,那么就应该在标题上凸显瘦身、减肥之类的标题,,它的标题就写得很符合网站的类型:减肥,专注瘦身减肥,为您提供快速减肥方法!–瘦身物语
所以不管怎么修改,第一是要忠于原文,第二是要加入符合浏览者需求的特色。

三.正文内容修改
这一点很多人都会忽略,为什么呢?因为如果涉及到修改正文幅度太大,那还不如仿造着写一篇,所以很多SEOer只是简单的将标题改改就完事了。
但搜索引擎看到的不仅是标题,正文内容也是其比较原创的重要参考因素,但也承认修改正文内容是非常费时费力,那么我们来看看如何快速的修改内容吧。

(1)首段自我创造法

自己来写首段,就像引言的作用一样,如果你有精力,就看完全文做个总结,放在首页,如果觉得没时间看,那么也很简单:自己编,而且一定要带上自己网站的关键词。

拿admin5来做比较,如果要我来写这样的引言,如下内容:

“很多站长都觉得做网站是一件很简单的事情,但真正做起来又觉得困难重重,SEO,网上赚钱,流量都困扰着大家,而这篇文章就是从细节上进行分析:如何修改文章标题和制造原创文章,希望可以给大家一些启示。”

一点实际内容都没有,但通过一定的语言组织,将SEO,网上赚钱,流量这些热门词以及文章标题重复了一遍,搜索引擎一看:哎呀小样,这文章内容没见过啊,收了!

(2)文中插入链接

这个是鬼道,但大家可以适当的用下,具体作用就是在别人采集你的时候,可以一并采集去,相当于增加了外链:你采集我,我就利用你,很公平的。
这样的链接,我不推荐大家随便什么地方都加,这样显的很无聊,而且影响用户体验,那么如何修改和添加呢?
比如在一些位置:“专家说:今年中国经济会持续增长”修改为:“据q-ye.cn站长网专家透露:今年中国经济会持续增长”

(3)尾部带一句
文章的结尾,就带一句:“根据q-ye专家观察,这样的理论和现象都是值得各位站长深思的,所以希望大家多做研究,争取总结出更多更好的经验。”
最后一点是的确值得大家坚持和主要的:坚持更新!

当然,还是建议大家尽可能的写自己的原创文章,经常的来练练自己的文笔,多观察,多思考,培养自己敏锐的文学触觉,争取写出好文章来。

写软文是件长期而复杂的工作,编辑的目的何在?就是将繁多的文章\知识用一定次序整合出来展示给大家,所以选材\修改\润色这些环节都是必不可少的.

Protected: 关于整改dede内容管理系统的建议

May 29th, 2008

This post is password protected. To view it please enter your password below:


Web页面设计时的文字布局设计

May 7th, 2008

ps: 这篇文章是有感而发的,前一阵子在和公司美工讨论页面布局的细节时发生了争执,之后美工愤然离去.久经思考后,决定写此文章,杜绝今后发生这样的事情.

网页的文字&布局一定要设计

网页中,文字占整个页面非常大的部分,如果在页面设计时仅仅重视视觉的冲击而使用大面积的图像(以此改变图片与文字的比例).这样会降低页面的可读性,并且也会使这个页面的内容(文字叙述的内容)失去强调.

请再翻开你大学时的<<平面构成>>课本

以下段落引自 ucdChina

先看看网站以外的中文字体设计,英文的正文字体有很多可以选择,但中文的正文字,总的来说就两种:宋体和黑体。在传统的版式设计中,设计师们都喜欢做英文的排版,为什么?从视觉上来看,英文的组合很容易形成线和面的关系,而且字母有节奏感,比如It’s Tom’s body.这个字母放一起有高矮区别。中文字相对来说,单调、孤立、不流畅。

我们说:构成的基础就是点线面,那么对于相对单调的中文来讲,更加是这样,翻开你的<<平面构成>>课本,再次阅读一下那些关于 [点] 构成的章节.

回到网站中文字的设计,设计师基本上不用考虑在字体上做选择,只有宋体。前文说:单个字成点,一行字成线,一段字成面。这是版式设计最基本的原理,我们需要做的就是强化这样的感觉。拿微软雅黑和宋体来举例子,本人非常喜欢微软雅黑的设计。

雅黑与宋体的区别

将12号的宋体和雅黑放大,注意以下细节:

1. 雅黑要比宋体宽一像素
2. 雅黑让每个笔画往四周撑,比如“是”上面的“日”,雅黑显得就要饱满

这么做的目的只有一个,让中文字体更容易形成线,从而读起来更流畅。我们可以看到,尽管雅黑不是真正的正方形,但它看起来要比宋体方一些。

看完上面这个例子,我的观点也就出来了:别把你的文字看成字,而是看成点,文字的视觉设计其实就是处理点线面的关系。

文字布局设计时具体注意的点:

1. 字体的单位用em而不用px,尽管12px和0.8em大小差不多。

2. 在css文件body中的font-family里面保证”宋体”前面有Arial或者 verdana,个人推荐这么写:font-family:Helvetica,Georgia,Arial,sans-serif,宋体。这样能保证你界面中的字母、数字、符号看上去美观一些,更重要的是更加易读。

3. 12 px 宋体时,我们一般使用18-20 px 的行距。14 px 宋体通常使用22-24 px 的行距。这个行距大小随着单行字数的多少而上下浮动。12 px 字如果单行字数少的话,17 px 也是可以接受的。

4. 正文一行字数最好不超过50,首页的标题文字以8-20字为佳。

5. 12和14px字相对来说最精致,13px在需要的时候可以做正文字,word里面默认的字的大小相当于网页的13px字。

6. 对于一段文字,尤其是正文部分,保证左右至少有15px的留白,便于用户换行时不受到干扰。

7. 文字和背景对比要足够明显,保证最弱文字的可读性。

争论后的思考

April 18th, 2008

近几日与张洋在代码结构上的争执持续了几天,争论的不免让气氛变得小小紧张起来。不过这倒让我着实的高兴,因为这次争论让我看到了一个高效团队的希望。

事后,对此问题进行反思。

根源:

开发架构:面向对象还是过程?

发展过程

我建议采用面向对象的架构方法部署新系统的编码结构,在向张洋演示过后,他觉得写起来很麻烦,要多写很多代码,并不能提高编码效率,而后继续使用函数编写。

反思

架构人员的任务是:构建适合团队开发能里的架构,使团队高质量的开发项目。
对于编写效率来讲,oo强调代码的可读性以及职责明确,这一切都是为了使程序员之间更好的协同工作。而面向过程对于程序原来讲是“函数为首选”的原则。不可否认,函数的方式可以极大的提高代码的编写效率以及执行效率,只是协同方面略差一筹。

结论

观察团队现状,三个编码人员的能力相对较高,对语言的理解也比较深刻,有必要制定一套在oo的框架下实现面向过程式的编码架构。

我家的狗狗

April 7th, 2008

我加狗狗在偷懒

养了条狗,呵呵,这家伙很可爱,起了个名字叫旺旺。

所以上网查了很多关于狗狗方面的驯养知识,有个网站 宝贝狗狗网 还不错。

SUSE10 SFTP 登录提示输入密码问题

March 25th, 2008

一直使用sftp链接Suse10的服务器,结果总是不停的让输入密码确认,于是查找问题所在。

解决办法:

找到文件

vi /etc/ssh/sshd_config

找到 PasswordAuthentication no 这句话,把它注释掉。

/etc/init.d/sshd restart

重启SSHD服务后在用SSH连接就能成功登陆了

I love you more and more each day

March 25th, 2008

而每过一天每一天这醉者
便爱你多些再多些至满泻
我发觉我最爱与你编写
以后明天的深夜

而每过一天每一天这情深者
便爱你多些再多些然后再多一些
我最爱你与我这生一起
那惧明天风高路斜

无求甚么无寻甚么
突破天地但求夜深
奔波以后能望见你
你可否知道么

平凡亦可平淡亦可
自有天地但求日出
清早到后能望见你
那已经很好过

当身边的一切如风是你让我找到根蒂
不愿离开只愿留低情是永不枯萎

而每过一天每一天这醉者
便爱你多些再多些至满泻
我发觉我最爱与你编写
以后明天的深夜

而每过一天每一天这醉者
便爱你多些再多些至满泻
我最爱你与我这生一起
那惧明天风高路斜

名是甚么财是甚么
是好滋味但如在生
朝朝每夜能望见你
那更加的好过

当身边的一切如风是你让我找到根蒂
不愿离开只愿留低情是永不枯萎

而每过一天每一天这醉者
便爱你多些再多些至满泻
我发觉我最爱与你编写
以后明天的深夜

而每过一天每一天这醉者
便爱你多些再多些至满泻
我最爱你与我这生一起
那惧明天风高路斜

i love you i love you more and more each day

而每过一天每一天这情深者
便爱你多些再多些然后再多一些
我最爱你与我这生一起
那惧明天风高路斜