❶ 英语分词的用法
英语分词用法
分词用法详析
分词也是一种限定动词,分为现在分词和过去分词。它保留着动词的若干特征,又具有形容词、副词的特征。分词有时态和语态变化,又带有宾语并能被状语修饰。分词在句中主要作定语、状语用,作表语也十分普遍。
一、分词的形式
语态
时态
主动语态
被动语态
一般式
doing
being done
完成式
having done
having been done
其否定形式是在doing之后加上not。
二、分词的作用
分词在句中可作定语、表语、状语、补足语等。
1、作定语
分词作定语有两种形式。它可以放在被修饰的名词之前,称为前置定语。有的放在被修饰的名词之后,称为后置定语。
(1)前置定语
He is a promising young man. 他是一个有前途的年轻人。
Make less noise. There’s a sleeping child. 不要出太大声音,有个孩子在睡觉。
We only sell used books. 我们只卖用过的书。
(2)后置定语
The young man sitting between John and Mary is the editor of the campus newspaper. 坐在约翰和玛丽之间的那个年轻小伙子是校园报的编辑。
The bridge built last month needs repairing. 上个月建造的那座桥需要修理。
(3)过去分词作定语有的既可前置也可后置。如:
All the broken windows have been repaired. 所有坏了的窗户已经修理好了。
All the windows broken have been repaired.
(4)分词短语作定语必须置于被修饰词之后,相当于一个定语从句。如:
Those wishing to join this club should sign here. 想加入本俱乐部的人在这里签名。 (=Those who wish to join the club should sign here.)
The man, having been disturbed so badly, almost lost his memory. 由于被严重困扰,这个人几乎失去了
记忆
。 (The man, who had been disturbed so badly, almost lost his memory.)
(4)完成体的分词一般不作定语,若要表达完成意义最好用定语从句。如:
我们一般不说:The girl having won the race is my deskmate.
而常这样说:The girl who has won the race is my deskmate.
(5)非限定性的完成体作定语或如果分词所修饰的词是泛指则没有这个限制。如:
Anyone having passed the test has got a prize. 任何通过
考试
的人都能得到一份奖品。
Charlie, having lived in Paris for years, decided to return to London. 在巴黎呆过多年,查理决定重返伦敦。
(6)过去分词作定语在意义上有两种可能:表示被动和完成,只表完成。如:
the question discussed yesterday 昨天讨论的问题 (既表示被动也表示完成)
the fallen leaves 落下的树叶 (只表示完成,不表示被动)
在
英语
中只表完成不表被动的往往是一些不及物动词的过去分词,常见的有:
the changed situation, a newly returned sudent等。
2、作表语
分词作表语表示主语的某种性质或状态。如:
The shops have remained shut for a week. 这家商店关门一周了。
What you said is really inspiring. 你所说的真令从鼓舞。
3、作宾语补足语
I oftentimes hear a girl singing downstairs. 我有时听到楼下有一个小姑娘在唱歌。
I find some students in this school often punished by the teachers. 我发现这所学校的学生经常被老师惩罚。
用分词作宾语补足语的动词请参阅《句法篇-句子的类型》部分。
4、作状语
分词在句中作状语,可以表示各种不同的语义内容。它可以表示时间、原因、让步、结果、方式、条件等。如:
(1)表示时间
Arriving in Paris, I lost my way. 到了巴黎,我迷了路。
The hunter walked slowly in the forest, followed by his wolf-dog. 猎人在森林里慢慢地走着,后面跟着一只狼狗。
表示与主句中谓语动词同时性的现在分词强调时间意义时,分词前可以加上while, when等从属连接词,但as没有这种用法。如:
Don’t talk while having dinner. 吃饭时不要说话。
When crossing the street, do be careful. 过马路时要小心。
(2)表示原因
表示原因的分词短语一般置于句首。
Having lived in London for years, I almost know every place quite well. 在伦敦住过多年,我几乎对每个地方都很熟悉。
Seriously injured, he had to be taken to hospital. 由于伤得严重,只好把他送往医院。
(3)表示结果
The fire lasted nearly a month, leaving nothing valuable. 大火持续了近一个月,几乎没剩下什么有用的东西。
Football is played in more than 80 countries, making it a popular sport. 80多个国家都踢足球,因此足球成了一种很流行的运动。
(4)表示方式
I stood by the door, not daring to say a word. 我站在门旁,不敢说一句话。
(5)表示条件
United, we stand; divided, we fall. 联合起来我们就能站立,分裂我们必然倒下。
Being more careful, you can make fewer mistakes. 如果你更细心,你会犯更少的错误。
强调条件时,可以在前面加上unless, once等。如:
You shouldn’t come in unless asked to. 不让你进来你不准进来。
Once losing this chance, you can’t easily find it. 一旦失去这次机会你就很难找回。
二、分词的独立主格结构
分词短语作状语时,其逻辑主语就是句子的主语,否则,就必须在分词前另加上自己的逻辑主语(名词或主格代词)的这个结构叫独立主格结构或分词的复合结构。
1、独立主格结构常放在句首。表示时间、条件、原因时,其作用分别相当于个时间、条件、原因状语从名句。表示伴随方式时,相当于一个并列句。如:
Supper finished (=After supper was finished), we started to discuss the picnic. 吃完晚饭,我们开始讨论野餐的事。
All the tickets having been sold out (=As all the tickets having been sold out), we had to wait for the next week’s show. 所有的票都卖出去了,我们只好等着看下周的演出。
2、表示独立主格结构中的being常省略。如:
The football match (being) over, crowds of people poured out into the steet. 足球赛五结束,从群便涌到大街上。
Nobody (being) in, I didn’t enter the hall. 里面没有人,我没进大厅。
3、表示伴随方式的独立主格结构,有时可用“with+宾语+宾语补足语”的结构来替换。如:
He lay there thinking, his hands behind his head (with his hands behind his head). 他双手放在头下,躺在那里思考着。
The river looks more beautiful, flowers and grass growing on both sides(=with flowers and grass growing on both sides). 这条河看上去更加漂亮,因为两岸长满了鲜花和绿草。
with+宾语+宾语补足语的结构是
英语
中常见常用的结构,其宾语补足语可以是现在分词、过去分词、不定式、形容词、副词、介词短语等,在句中可作定语,也可作状语,表示原因、方式等。如:
The children looked at us, with their eyes opening wide. 孩子们眼睛睁得大大地看着我。
I would miss the train, with no one to wake me up. 没人叫我,我会错过火车的。
The river with grass and flowers on both sides runs through our schoolyard. 这条两河两岸长满鲜花和绿草正从我们校园穿过。
With the examinations over, we had a long time to rest.
考试
结束了,我们有一段长长的时间可以休息。
4、有些惯用的分词短语在句里可以没有逻辑上的主语而独立存在,它们往往作为句子的独立成分来修饰全句。如:
generally/strictly/roughly/broadly/narrowly speaking, judging from/by, considering, supposing, providing, provided等。如:
Talking of the computer, I like it very much. 谈到电脑,我非常喜欢。
Considering the time, we have decided to start early tomorrow morning.
考试
到时间,我们已经决定明早一早出发。
☆※☆good g ood study☆day day up ☆※☆
❷ 怎样分词,怎样匹配
网络是如何来分词的呢?分词技术现今非常成熟了。分为3种技术。
字符串匹配的分词方法
这是种常用的分词法,网络就是用此类分词。字符串匹配的分词方法,又分为3种分词方法。
(1).正向最大匹配法
就是把一个词从左至右来分词。
举个例子:”不知道你在说什么”
这句话采用正向最大匹配法是如何分的呢?“不知道,你,在,说什么”。
(2).反向最大匹配法
"不知道你在说什么"反向最大匹配法来分上面这段是如何分的。“不,知道,你在,说,什么”,这个就分的比较多了,反向最大匹配法就是从右至左。
(3).就是最短路径分词法。
就是说一段话里面要求切出的词数是最少的。
“不知道你在说什么”最短路径分词法就是指,把上面那句话分成的词要是最少的。“不知道,你在,说什么”,这就是最短路径分词法,分出来就只有3个词了。
(4).双向最大匹配法。
而有一种特殊的情况,就是关键词前后组合内容被认为粘性相差不大,而搜索结果中也同时包含这两组词的话,网络会进行正反向同时进行分词匹配。
词义分词法
就是一种机器语音判断的分词方法。很简单,进行句法、语义分析,利用句法信息和语义信息来处理歧义现象来分词,这种分词方法,还不成熟,处在测试阶段。
统计分词法
根据词组的统计,就会发现两个相邻的字出现的频率最多,那么这个词就很重要。就可以作为用户提供字符串中的分隔符,这样来分词。
比如,“我的,你的,许多的,这里,这一,那里”等等,这些词出现的比较多,就从这些词里面分开来。
❸ 分词的定义及介绍
http://www.fullsearcher.com/n2004911134640735.asp什么是中文分词
众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我 是 一个 学生。 中文分词技术
中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。
现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
1、基于字符串匹配的分词方法
这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:
1)正向最大匹配法(由左到右的方向);
2)逆向最大匹配法(由右到左的方向);
3)最少切分(使每一句中切出的词数最小)。
还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。
一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。
对于机械分词方法,可以建立一个一般的模型,在这方面有专业的学术论文,这里不做详细论述。
2、基于理解的分词方法
这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。
3、基于统计的分词方法
从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
到底哪种分词算法的准确度更高,目前并无定论。对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。笔者了解,海量科技的分词算法就采用“复方分词法”,所谓复方,相当于用中药中的复方概念,即用不同的药才综合起来去医治疾病,同样,对于中文词的识别,需要多种算法来处理不同的问题。
❹ 英语分词怎么用
分词是动词的一种形式,兼具形容词的特点和动词的部分特点(例如表示某种时态、语态(主被动态)等),英语中有两种分词:过去分词(也叫做完成分词)、现在分词。 过去时是动词的一种时态,它用来表示动作发生的时间概念。换句话说,过去时是一种定式动词(不定式动词即动词原形,定式动词即动词变成了一个有特定时态和语态的动词——注意:只有及物动词才具有被动语态,不及物动词是不具有被动语态的,我下面说的都是以及物动词为例,除了被动语态外,对不及物动词同样适用)。 注意以上两段话的含义:分词是动词的一种形式,即“有名无实”,徒具动词的书写形式却不能用作谓语动词。也许你会反驳我说:They had swum to the other side of the river when i arrived.这句话里,swum不是谓语动词吗?不是的。确切地说,had swum才是这个句子的谓语动词。(注意:我这样说是为了便于你理解,你要表达的话还要按照学校里的说法)为什么要做这样的区分?请记住:在以上的这个例子中,had是动词不可分割的一部分,因为had与swum一起使用才是过去完成时,单独的swum是过去时,他们是一个动词的两种截然不同的定式动词。这样你明白了吧:过去时指的是动词“时态化”和“语态化”之后的其中一种形式,过去分词和现在分词则有可能作为这个格式化了的动词的一部分出现。(有兴趣地话可以自己画一个表格,纵栏填上各种时态,横栏填上主动、被动态,然后用一个简单的动词作例子,列出一个动词所有的定式动词形式,记住要向我上面说的那样去做,不能把was\is\have\had这些词忽略掉!我制作了一个give的定式动词表,是word文档,你能在我上传的文件中找到。) 当然,分词不仅有这种功能。我前面说,分词兼具形容词和动词的某些特点,是因为分词作为动词组成各种定式动词时,它的动词功能已经被削弱了(例如它要加一个have来表达现在完成时),而逐渐又带上了形容词的修饰特性,这就导致了有些分词居然完全可以当成形容词使用,像His eyeglasses were broken.中的broken, 而有些又不能,我们不能说He is swum across the river.吧。但不管怎么样,你必须保证分词出现的形式是符合语法规范的(例如:你不能说His eyeglasses were breaking.因为break这个动作中,eyeglasses是被动的,眼睛不能自己break自己吧),在保证形式正确的基础上,我们再讨论某一个分词是否能直接用作形容词,或者它是偏向动词或形容词的哪一边。这就需要你在平时的学习过程中细心观察和积累了,如果说有什么方法的话:就是,每当你遇到一个动词的时候,你马上问自己这个动词是什么时态、语态,它的定式动词的形式单独提取出来的时候是怎么样的?那么,剩下的句子成分根据与谓语动词的关系就一目了然了
❺ 有哪些比较好的中文分词方案
中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块。不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词,分词效果将直接影响词性、句法树等模块的效果。当然分词只是一个工具,场景不同,要求也不同。在人机自然语言交互中,成熟的中文分词算法能够达到更好的自然语言处理效果,帮助计算机理解复杂的中文语言。竹间智能在构建中文自然语言对话系统时,结合语言学不断优化,训练出了一套具有较好分词效果的算法模型,为机器更好地理解中文自然语言奠定了基础。在此,对于中文分词方案、当前分词器存在的问题,以及中文分词需要考虑的因素及相关资源,竹间智能自然语言与深度学习小组做了些整理和总结。中文分词根据实现原理和特点,主要分为以下2个类别:
1、基于词典分词算法也称字符串匹配分词算法。该算法是按照一定的策略将待匹配的字符串和一个已建立好的“充分大的”词典中的词进行匹配,若找到某个词条,则说明匹配成功,识别了该词。常见的基于词典的分词算法分为以下几种:正向最大匹配法、逆向最大匹配法和双向匹配分词法等。基于词典的分词算法是应用最广泛、分词速度最快的。很长一段时间内研究者都在对基于字符串匹配方法进行优化,比如最大长度设定、字符串存储和查找方式以及对于词表的组织结构,比如采用TRIE索引树、哈希索引等。
2、基于统计的机器学习算法这类目前常用的是算法是HMM、CRF、SVM、深度学习等算法,比如stanford、Hanlp分词工具是基于CRF算法。以CRF为例,基本思路是对汉字进行标注训练,不仅考虑了词语出现的频率,还考虑上下文,具备较好的学习能力,因此其对歧义词和未登录词的识别都具有良好的效果。NianwenXue在其论文《Combining Classifiers for Chinese Word Segmentation》中首次提出对每个字符进行标注,通过机器学习算法训练分类器进行分词,在论文《Chinese word segmentation as character tagging》中较为详细地阐述了基于字标注的分词法。常见的分词器都是使用机器学习算法和词典相结合,一方面能够提高分词准确率,另一方面能够改善领域适应性。
❻ 分词方法有哪些
分词是指将一段句子切分成一个个单独的词项,对于英文来讲,单词作为词项,由于英文的书写格式,词与词之间必须有空格,这样搜索引擎很容易将一段句子处理成词项的集合;但是中文来讲,词之间没有空格,搜索引擎不能够直接将句子处理成词项的集合,需要一个分词过程,这里简单介绍搜索引擎中文分词的方法。
一、基于词典的分词方法
也叫“机械分词法”,将分词的句子与词典中的词语进行匹配,如果匹配成功,则将匹配的部分作为一个词,最后生成一个词语序列,根据分词的方向与优先长度不同可分为一下四种方法:
1、正向匹配法
根绝句子的正序(由左至右)进行匹配,例如:发展中国家,切分为:发展/中国/家。
2、逆向匹配法
根据句子的逆序(由右至左)进行匹配,例如:发展中国家,切分为:发展/中/国家。
3、最大匹配法
根据词典中最长的词语的长度确切分,如果不是,则在使用次一级长度去切分,假设字典中最长的词语是4个,以“发展中国家”为例,首先截取前四个“发展中国”判断,如果与字典中的词匹配,那么就是词项,如果不匹配,那就截取前三个词“发展中”来判断,以此类推直至切分出词项。
4、最小匹配法
同最大匹配法刚好相反。
二、基于理解分词的方法
为了解决分词中的歧义问题,搜索引擎完全模拟人理解句子的过程,对句子进行句法分析与语义分析,这个方法需要大量的语言知识和信息,计算过程比较复杂,对搜索引擎的基础硬件要求比较高。
三、基于统计分词的方法
随着时代与互联网的发展,会产生很多新的词汇,例如一些人名、新科技名词、新事件名(比如XX门、XX帝等),这些词汇未被词典收录,这些词成为“未登录词”,这些词汇的切分就要依靠统计分词的方法,搜索引擎通过统计这些字在整个语料库中出现的频率,例如在语料库中发现“S”、“E”、“O”同时出现的次数非常高,那么搜索引擎就判定”SEO”是一个词汇。
❼ 现在分词的用法
(一)作定语
1. 动词现在分词单独作定语,通常放在所修饰词前。例如:
The sleeping boy is Tom.
2. 现在分词短语作定语放在所修饰词的后面,意思同定语从句差不多。例如 :
Tell the children playing outside not to make too much noise. = Tell the children who are playing outside not to make too much noise.
3. 现在分词可相当于非限制性定语,常用逗号分开。例如:
Tom, wearing beautiful clothes, followed me down the hill. = Tom, who is wearing beautiful clothes, followed me down the hill.
4. 有时现在分词可以和副词或名词构成复合词作定语。例如:
This is an English-speaking country.
(二)作表语
现在分词作表语多表示主语的特征。如amusing, discouraging, puzzling, refreshing, astonishing, exciting 等。例如:
The story is moving.
(三)现在分词在句中作宾语补足语,这时现在分词和前面的宾语有逻辑上的“主表”关系或“主谓”关系。例如:
We all found his equipment interesting. (主表关系)
I saw Mary going upstairs then. (主谓关系)
(四)作状语
现在分词作状语,其逻辑主语一般是句中的主语,如果不是,需在V-ing 形式前加名词或代词主格作逻辑主语。
1. 作原因状语,相当于原因状语从句。例如:
Being ill, Mary didn't come to school yesterday.
2. 作时间状语,相当于时间状语从句。例如:
Seeing their teacher coming, the students stopped talking.
如果现在分词表示的动作与谓语表示的动作同时发生,常在现在分词前加上when或while。例如:
While waiting for the plane, I had a long talk with Simon.
3. 作条件状语。
V-ing 形式作条件状语时,相当于一个条件状语从句。例如:
Working harder, you'll be No. 1 in your class.
4. 作让步状语,相当于让步状语从句。例如:
Weighing almost two hundred jin, the stone was moved by him alone.
5. 作结果状语。例如:
He died, leaving nothing but debts.
6. 作伴随状语或方式状语。例如:
He sat by the roadside, begging.
(五) 现在分词的完成式表示它发生在主句谓语动词表示的动作之前。例如 :
Having finished his homework, he left the classroom.
(六) 现在分词的被动式
当句子的主语是动作的承受者时,用V-ing 形式的被动式。例如:
The factory being built now is a big one.
(七) 现在分词的否定形式是由“not + 现在分词”构成。例如:
Not having been invited to the party, she had to stay home.
请采纳
❽ 中文分词词典如何使用
这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:
1)正向最大匹配法(由左到右的方向);
2)逆向最大匹配法(由右到左的方向);
3)最少切分(使每一句中切出的词数最小)。
还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。
统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率
❾ 百度中文分词如何分词
而网络中文分词就是把词按照一定的规格,将一个长尾词分割成几个部分,从而概括一段话的主要内容。在网络中文分词中,网络强调的是:一、
字符串匹配的分词方法。我们需要有一定的字符串做基础,就是一段词用字符分开,比如标点符号,空格等。才能够进行分词匹配,我们把这些字符串叫做机械词典。机械词典的个数不定。由每个搜索引擎自己确定。每个机械词典之间还会有优先级。字符串匹配的分词方法最常用的有几种:1、正向最大匹配法(由左到右的方向)2、逆向最大匹配法(由右到左的方向)3、最少切分(使每一句中切出的词数最小)网络中文分词基于字符串匹配举例给大家说明一下:“我想去澳大利亚旅游”正向最大匹配:我想去,澳大利亚旅游逆向最大匹配:我想,想去,澳大利亚,旅游。最少切分:我把上面哪句话分成的词要是最少的“我想去,澳大利亚旅游”这就是最短路径分词法,分出来就只有2个词了。另外,不同的搜索的词典不同,分出来的词也不同。二、理解的分词方法。这种分词方法不需要机械词典。这种其实就是一种机器语音判断的分词方法。很简单,进行句法、语义分析,利用句法信息和语义信息来处理歧义现象来分词,这种分词方法,现在还不成熟。处在测试阶段。三、统计的分词方法。这个顾名思义,就是根据词组的统计,发现那些相邻的字出现的频率高,那么这个词就很重要。可以作为用户提供字符串中的分隔符。比如,“我的,你的,许多的,这里,这一,那里”。等等,这些词出现的比较多,就从这些词里面分开来。四、对于网络中文分词的理解:基于统计的分词方法得到的词或者句子的权重要高于基于字符串匹配得到的。就是全字匹配得到的词的权重会高于分开的词的权重。根据自己的观察现在网络大部分都是使用的是正向匹配。网络分词对于一句话分词之后,还会去掉句子中的没有意义的词语。