❶ 英語分詞的用法
英語分詞用法
分詞用法詳析
分詞也是一種限定動詞,分為現在分詞和過去分詞。它保留著動詞的若干特徵,又具有形容詞、副詞的特徵。分詞有時態和語態變化,又帶有賓語並能被狀語修飾。分詞在句中主要作定語、狀語用,作表語也十分普遍。
一、分詞的形式
語態
時態
主動語態
被動語態
一般式
doing
being done
完成式
having done
having been done
其否定形式是在doing之後加上not。
二、分詞的作用
分詞在句中可作定語、表語、狀語、補足語等。
1、作定語
分詞作定語有兩種形式。它可以放在被修飾的名詞之前,稱為前置定語。有的放在被修飾的名詞之後,稱為後置定語。
(1)前置定語
He is a promising young man. 他是一個有前途的年輕人。
Make less noise. There』s a sleeping child. 不要出太大聲音,有個孩子在睡覺。
We only sell used books. 我們只賣用過的書。
(2)後置定語
The young man sitting between John and Mary is the editor of the campus newspaper. 坐在約翰和瑪麗之間的那個年輕小夥子是校園報的編輯。
The bridge built last month needs repairing. 上個月建造的那座橋需要修理。
(3)過去分詞作定語有的既可前置也可後置。如:
All the broken windows have been repaired. 所有壞了的窗戶已經修理好了。
All the windows broken have been repaired.
(4)分詞短語作定語必須置於被修飾詞之後,相當於一個定語從句。如:
Those wishing to join this club should sign here. 想加入本俱樂部的人在這里簽名。 (=Those who wish to join the club should sign here.)
The man, having been disturbed so badly, almost lost his memory. 由於被嚴重困擾,這個人幾乎失去了
記憶
。 (The man, who had been disturbed so badly, almost lost his memory.)
(4)完成體的分詞一般不作定語,若要表達完成意義最好用定語從句。如:
我們一般不說:The girl having won the race is my deskmate.
而常這樣說:The girl who has won the race is my deskmate.
(5)非限定性的完成體作定語或如果分詞所修飾的詞是泛指則沒有這個限制。如:
Anyone having passed the test has got a prize. 任何通過
考試
的人都能得到一份獎品。
Charlie, having lived in Paris for years, decided to return to London. 在巴黎呆過多年,查理決定重返倫敦。
(6)過去分詞作定語在意義上有兩種可能:表示被動和完成,只表完成。如:
the question discussed yesterday 昨天討論的問題 (既表示被動也表示完成)
the fallen leaves 落下的樹葉 (只表示完成,不表示被動)
在
英語
中只表完成不表被動的往往是一些不及物動詞的過去分詞,常見的有:
the changed situation, a newly returned sudent等。
2、作表語
分詞作表語表示主語的某種性質或狀態。如:
The shops have remained shut for a week. 這家商店關門一周了。
What you said is really inspiring. 你所說的真令從鼓舞。
3、作賓語補足語
I oftentimes hear a girl singing downstairs. 我有時聽到樓下有一個小姑娘在唱歌。
I find some students in this school often punished by the teachers. 我發現這所學校的學生經常被老師懲罰。
用分詞作賓語補足語的動詞請參閱《句法篇-句子的類型》部分。
4、作狀語
分詞在句中作狀語,可以表示各種不同的語義內容。它可以表示時間、原因、讓步、結果、方式、條件等。如:
(1)表示時間
Arriving in Paris, I lost my way. 到了巴黎,我迷了路。
The hunter walked slowly in the forest, followed by his wolf-dog. 獵人在森林裡慢慢地走著,後面跟著一隻狼狗。
表示與主句中謂語動詞同時性的現在分詞強調時間意義時,分詞前可以加上while, when等從屬連接詞,但as沒有這種用法。如:
Don』t talk while having dinner. 吃飯時不要說話。
When crossing the street, do be careful. 過馬路時要小心。
(2)表示原因
表示原因的分詞短語一般置於句首。
Having lived in London for years, I almost know every place quite well. 在倫敦住過多年,我幾乎對每個地方都很熟悉。
Seriously injured, he had to be taken to hospital. 由於傷得嚴重,只好把他送往醫院。
(3)表示結果
The fire lasted nearly a month, leaving nothing valuable. 大火持續了近一個月,幾乎沒剩下什麼有用的東西。
Football is played in more than 80 countries, making it a popular sport. 80多個國家都踢足球,因此足球成了一種很流行的運動。
(4)表示方式
I stood by the door, not daring to say a word. 我站在門旁,不敢說一句話。
(5)表示條件
United, we stand; divided, we fall. 聯合起來我們就能站立,分裂我們必然倒下。
Being more careful, you can make fewer mistakes. 如果你更細心,你會犯更少的錯誤。
強調條件時,可以在前面加上unless, once等。如:
You shouldn』t come in unless asked to. 不讓你進來你不準進來。
Once losing this chance, you can』t easily find it. 一旦失去這次機會你就很難找回。
二、分詞的獨立主格結構
分詞短語作狀語時,其邏輯主語就是句子的主語,否則,就必須在分詞前另加上自己的邏輯主語(名詞或主格代詞)的這個結構叫獨立主格結構或分詞的復合結構。
1、獨立主格結構常放在句首。表示時間、條件、原因時,其作用分別相當於個時間、條件、原因狀語從名句。表示伴隨方式時,相當於一個並列句。如:
Supper finished (=After supper was finished), we started to discuss the picnic. 吃完晚飯,我們開始討論野餐的事。
All the tickets having been sold out (=As all the tickets having been sold out), we had to wait for the next week』s show. 所有的票都賣出去了,我們只好等著看下周的演出。
2、表示獨立主格結構中的being常省略。如:
The football match (being) over, crowds of people poured out into the steet. 足球賽五結束,從群便涌到大街上。
Nobody (being) in, I didn』t enter the hall. 裡面沒有人,我沒進大廳。
3、表示伴隨方式的獨立主格結構,有時可用「with+賓語+賓語補足語」的結構來替換。如:
He lay there thinking, his hands behind his head (with his hands behind his head). 他雙手放在頭下,躺在那裡思考著。
The river looks more beautiful, flowers and grass growing on both sides(=with flowers and grass growing on both sides). 這條河看上去更加漂亮,因為兩岸長滿了鮮花和綠草。
with+賓語+賓語補足語的結構是
英語
中常見常用的結構,其賓語補足語可以是現在分詞、過去分詞、不定式、形容詞、副詞、介詞短語等,在句中可作定語,也可作狀語,表示原因、方式等。如:
The children looked at us, with their eyes opening wide. 孩子們眼睛睜得大大地看著我。
I would miss the train, with no one to wake me up. 沒人叫我,我會錯過火車的。
The river with grass and flowers on both sides runs through our schoolyard. 這條兩河兩岸長滿鮮花和綠草正從我們校園穿過。
With the examinations over, we had a long time to rest.
考試
結束了,我們有一段長長的時間可以休息。
4、有些慣用的分詞短語在句里可以沒有邏輯上的主語而獨立存在,它們往往作為句子的獨立成分來修飾全句。如:
generally/strictly/roughly/broadly/narrowly speaking, judging from/by, considering, supposing, providing, provided等。如:
Talking of the computer, I like it very much. 談到電腦,我非常喜歡。
Considering the time, we have decided to start early tomorrow morning.
考試
到時間,我們已經決定明早一早出發。
☆※☆good g ood study☆day day up ☆※☆
❷ 怎樣分詞,怎樣匹配
網路是如何來分詞的呢?分詞技術現今非常成熟了。分為3種技術。
字元串匹配的分詞方法
這是種常用的分詞法,網路就是用此類分詞。字元串匹配的分詞方法,又分為3種分詞方法。
(1).正向最大匹配法
就是把一個詞從左至右來分詞。
舉個例子:」不知道你在說什麼」
這句話採用正向最大匹配法是如何分的呢?「不知道,你,在,說什麼」。
(2).反向最大匹配法
"不知道你在說什麼"反向最大匹配法來分上面這段是如何分的。「不,知道,你在,說,什麼」,這個就分的比較多了,反向最大匹配法就是從右至左。
(3).就是最短路徑分詞法。
就是說一段話裡面要求切出的詞數是最少的。
「不知道你在說什麼」最短路徑分詞法就是指,把上面那句話分成的詞要是最少的。「不知道,你在,說什麼」,這就是最短路徑分詞法,分出來就只有3個詞了。
(4).雙向最大匹配法。
而有一種特殊的情況,就是關鍵詞前後組合內容被認為粘性相差不大,而搜索結果中也同時包含這兩組詞的話,網路會進行正反向同時進行分詞匹配。
詞義分詞法
就是一種機器語音判斷的分詞方法。很簡單,進行句法、語義分析,利用句法信息和語義信息來處理歧義現象來分詞,這種分詞方法,還不成熟,處在測試階段。
統計分詞法
根據片語的統計,就會發現兩個相鄰的字出現的頻率最多,那麼這個詞就很重要。就可以作為用戶提供字元串中的分隔符,這樣來分詞。
比如,「我的,你的,許多的,這里,這一,那裡」等等,這些詞出現的比較多,就從這些詞裡面分開來。
❸ 分詞的定義及介紹
http://www.fullsearcher.com/n2004911134640735.asp什麼是中文分詞
眾所周知,英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述一個意思。例如,英文句子I am a student,用中文則為:「我是一個學生」。計算機可以很簡單通過空格知道student是一個單詞,但是不能很容易明白「學」、「生」兩個字合起來才表示一個詞。把中文的漢字序列切分成有意義的詞,就是中文分詞,有些人也稱為切詞。我是一個學生,分詞的結果是:我 是 一個 學生。 中文分詞技術
中文分詞技術屬於自然語言處理技術范疇,對於一句話,人可以通過自己的知識來明白哪些是詞,哪些不是詞,但如何讓計算機也能理解?其處理過程就是分詞演算法。
現有的分詞演算法可分為三大類:基於字元串匹配的分詞方法、基於理解的分詞方法和基於統計的分詞方法。
1、基於字元串匹配的分詞方法
這種方法又叫做機械分詞方法,它是按照一定的策略將待分析的漢字串與一個「充分大的」機器詞典中的詞條進行配,若在詞典中找到某個字元串,則匹配成功(識別出一個詞)。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長度優先匹配的情況,可以分為最大(最長)匹配和最小(最短)匹配;按照是否與詞性標注過程相結合,又可以分為單純分詞方法和分詞與標注相結合的一體化方法。常用的幾種機械分詞方法如下:
1)正向最大匹配法(由左到右的方向);
2)逆向最大匹配法(由右到左的方向);
3)最少切分(使每一句中切出的詞數最小)。
還可以將上述各種方法相互組合,例如,可以將正向最大匹配方法和逆向最大匹配方法結合起來構成雙向匹配法。由於漢語單字成詞的特點,正向最小匹配和逆向最小匹配一般很少使用。一般說來,逆向匹配的切分精度略高於正向匹配,遇到的歧義現象也較少。統計結果表明,單純使用正向最大匹配的錯誤率為1/169,單純使用逆向最大匹配的錯誤率為1/245。但這種精度還遠遠不能滿足實際的需要。實際使用的分詞系統,都是把機械分詞作為一種初分手段,還需通過利用各種其它的語言信息來進一步提高切分的准確率。
一種方法是改進掃描方式,稱為特徵掃描或標志切分,優先在待分析字元串中識別和切分出一些帶有明顯特徵的詞,以這些詞作為斷點,可將原字元串分為較小的串再來進機械分詞,從而減少匹配的錯誤率。另一種方法是將分詞和詞類標注結合起來,利用豐富的詞類信息對分詞決策提供幫助,並且在標注過程中又反過來對分詞結果進行檢驗、調整,從而極大地提高切分的准確率。
對於機械分詞方法,可以建立一個一般的模型,在這方面有專業的學術論文,這里不做詳細論述。
2、基於理解的分詞方法
這種分詞方法是通過讓計算機模擬人對句子的理解,達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現象。它通常包括三個部分:分詞子系統、句法語義子系統、總控部分。在總控部分的協調下,分詞子系統可以獲得有關詞、句子等的句法和語義信息來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。由於漢語語言知識的籠統、復雜性,難以將各種語言信息組織成機器可直接讀取的形式,因此目前基於理解的分詞系統還處在試驗階段。
3、基於統計的分詞方法
從形式上看,詞是穩定的字的組合,因此在上下文中,相鄰的字同時出現的次數越多,就越有可能構成一個詞。因此字與字相鄰共現的頻率或概率能夠較好的反映成詞的可信度。可以對語料中相鄰共現的各個字的組合的頻度進行統計,計算它們的互現信息。定義兩個字的互現信息,計算兩個漢字X、Y的相鄰共現概率。互現信息體現了漢字之間結合關系的緊密程度。當緊密程度高於某一個閾值時,便可認為此字組可能構成了一個詞。這種方法只需對語料中的字組頻度進行統計,不需要切分詞典,因而又叫做無詞典分詞法或統計取詞方法。但這種方法也有一定的局限性,會經常抽出一些共現頻度高、但並不是詞的常用字組,例如「這一」、「之一」、「有的」、「我的」、「許多的」等,並且對常用詞的識別精度差,時空開銷大。實際應用的統計分詞系統都要使用一部基本的分詞詞典(常用詞詞典)進行串匹配分詞,同時使用統計方法識別一些新的詞,即將串頻統計和串匹配結合起來,既發揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結合上下文識別生詞、自動消除歧義的優點。
到底哪種分詞演算法的准確度更高,目前並無定論。對於任何一個成熟的分詞系統來說,不可能單獨依靠某一種演算法來實現,都需要綜合不同的演算法。筆者了解,海量科技的分詞演算法就採用「復方分詞法」,所謂復方,相當於用中葯中的復方概念,即用不同的葯才綜合起來去醫治疾病,同樣,對於中文詞的識別,需要多種演算法來處理不同的問題。
❹ 英語分詞怎麼用
分詞是動詞的一種形式,兼具形容詞的特點和動詞的部分特點(例如表示某種時態、語態(主被動態)等),英語中有兩種分詞:過去分詞(也叫做完成分詞)、現在分詞。 過去時是動詞的一種時態,它用來表示動作發生的時間概念。換句話說,過去時是一種定式動詞(不定式動詞即動詞原形,定式動詞即動詞變成了一個有特定時態和語態的動詞——注意:只有及物動詞才具有被動語態,不及物動詞是不具有被動語態的,我下面說的都是以及物動詞為例,除了被動語態外,對不及物動詞同樣適用)。 注意以上兩段話的含義:分詞是動詞的一種形式,即「有名無實」,徒具動詞的書寫形式卻不能用作謂語動詞。也許你會反駁我說:They had swum to the other side of the river when i arrived.這句話里,swum不是謂語動詞嗎?不是的。確切地說,had swum才是這個句子的謂語動詞。(注意:我這樣說是為了便於你理解,你要表達的話還要按照學校里的說法)為什麼要做這樣的區分?請記住:在以上的這個例子中,had是動詞不可分割的一部分,因為had與swum一起使用才是過去完成時,單獨的swum是過去時,他們是一個動詞的兩種截然不同的定式動詞。這樣你明白了吧:過去時指的是動詞「時態化」和「語態化」之後的其中一種形式,過去分詞和現在分詞則有可能作為這個格式化了的動詞的一部分出現。(有興趣地話可以自己畫一個表格,縱欄填上各種時態,橫欄填上主動、被動態,然後用一個簡單的動詞作例子,列出一個動詞所有的定式動詞形式,記住要向我上面說的那樣去做,不能把was\is\have\had這些詞忽略掉!我製作了一個give的定式動詞表,是word文檔,你能在我上傳的文件中找到。) 當然,分詞不僅有這種功能。我前面說,分詞兼具形容詞和動詞的某些特點,是因為分詞作為動片語成各種定式動詞時,它的動詞功能已經被削弱了(例如它要加一個have來表達現在完成時),而逐漸又帶上了形容詞的修飾特性,這就導致了有些分詞居然完全可以當成形容詞使用,像His eyeglasses were broken.中的broken, 而有些又不能,我們不能說He is swum across the river.吧。但不管怎麼樣,你必須保證分詞出現的形式是符合語法規范的(例如:你不能說His eyeglasses were breaking.因為break這個動作中,eyeglasses是被動的,眼睛不能自己break自己吧),在保證形式正確的基礎上,我們再討論某一個分詞是否能直接用作形容詞,或者它是偏向動詞或形容詞的哪一邊。這就需要你在平時的學習過程中細心觀察和積累了,如果說有什麼方法的話:就是,每當你遇到一個動詞的時候,你馬上問自己這個動詞是什麼時態、語態,它的定式動詞的形式單獨提取出來的時候是怎麼樣的?那麼,剩下的句子成分根據與謂語動詞的關系就一目瞭然了
❺ 有哪些比較好的中文分詞方案
中文分詞是中文文本處理的一個基礎步驟,也是中文人機自然語言交互的基礎模塊。不同於英文的是,中文句子中沒有詞的界限,因此在進行中文自然語言處理時,通常需要先進行分詞,分詞效果將直接影響詞性、句法樹等模塊的效果。當然分詞只是一個工具,場景不同,要求也不同。在人機自然語言交互中,成熟的中文分詞演算法能夠達到更好的自然語言處理效果,幫助計算機理解復雜的中文語言。竹間智能在構建中文自然語言對話系統時,結合語言學不斷優化,訓練出了一套具有較好分詞效果的演算法模型,為機器更好地理解中文自然語言奠定了基礎。在此,對於中文分詞方案、當前分詞器存在的問題,以及中文分詞需要考慮的因素及相關資源,竹間智能自然語言與深度學習小組做了些整理和總結。中文分詞根據實現原理和特點,主要分為以下2個類別:
1、基於詞典分詞演算法也稱字元串匹配分詞演算法。該演算法是按照一定的策略將待匹配的字元串和一個已建立好的「充分大的」詞典中的詞進行匹配,若找到某個詞條,則說明匹配成功,識別了該詞。常見的基於詞典的分詞演算法分為以下幾種:正向最大匹配法、逆向最大匹配法和雙向匹配分詞法等。基於詞典的分詞演算法是應用最廣泛、分詞速度最快的。很長一段時間內研究者都在對基於字元串匹配方法進行優化,比如最大長度設定、字元串存儲和查找方式以及對於詞表的組織結構,比如採用TRIE索引樹、哈希索引等。
2、基於統計的機器學習演算法這類目前常用的是演算法是HMM、CRF、SVM、深度學習等演算法,比如stanford、Hanlp分詞工具是基於CRF演算法。以CRF為例,基本思路是對漢字進行標注訓練,不僅考慮了詞語出現的頻率,還考慮上下文,具備較好的學習能力,因此其對歧義詞和未登錄詞的識別都具有良好的效果。NianwenXue在其論文《Combining Classifiers for Chinese Word Segmentation》中首次提出對每個字元進行標注,通過機器學習演算法訓練分類器進行分詞,在論文《Chinese word segmentation as character tagging》中較為詳細地闡述了基於字標注的分詞法。常見的分詞器都是使用機器學習演算法和詞典相結合,一方面能夠提高分詞准確率,另一方面能夠改善領域適應性。
❻ 分詞方法有哪些
分詞是指將一段句子切分成一個個單獨的詞項,對於英文來講,單詞作為詞項,由於英文的書寫格式,詞與詞之間必須有空格,這樣搜索引擎很容易將一段句子處理成詞項的集合;但是中文來講,詞之間沒有空格,搜索引擎不能夠直接將句子處理成詞項的集合,需要一個分詞過程,這里簡單介紹搜索引擎中文分詞的方法。
一、基於詞典的分詞方法
也叫「機械分詞法」,將分詞的句子與詞典中的詞語進行匹配,如果匹配成功,則將匹配的部分作為一個詞,最後生成一個詞語序列,根據分詞的方向與優先長度不同可分為一下四種方法:
1、正向匹配法
根絕句子的正序(由左至右)進行匹配,例如:發展中國家,切分為:發展/中國/家。
2、逆向匹配法
根據句子的逆序(由右至左)進行匹配,例如:發展中國家,切分為:發展/中/國家。
3、最大匹配法
根據詞典中最長的詞語的長度確切分,如果不是,則在使用次一級長度去切分,假設字典中最長的詞語是4個,以「發展中國家」為例,首先截取前四個「發展中國」判斷,如果與字典中的詞匹配,那麼就是詞項,如果不匹配,那就截取前三個詞「發展中」來判斷,以此類推直至切分出詞項。
4、最小匹配法
同最大匹配法剛好相反。
二、基於理解分詞的方法
為了解決分詞中的歧義問題,搜索引擎完全模擬人理解句子的過程,對句子進行句法分析與語義分析,這個方法需要大量的語言知識和信息,計算過程比較復雜,對搜索引擎的基礎硬體要求比較高。
三、基於統計分詞的方法
隨著時代與互聯網的發展,會產生很多新的詞彙,例如一些人名、新科技名詞、新事件名(比如XX門、XX帝等),這些詞彙未被詞典收錄,這些詞成為「未登錄詞」,這些詞彙的切分就要依靠統計分詞的方法,搜索引擎通過統計這些字在整個語料庫中出現的頻率,例如在語料庫中發現「S」、「E」、「O」同時出現的次數非常高,那麼搜索引擎就判定」SEO」是一個詞彙。
❼ 現在分詞的用法
(一)作定語
1. 動詞現在分詞單獨作定語,通常放在所修飾詞前。例如:
The sleeping boy is Tom.
2. 現在分詞短語作定語放在所修飾詞的後面,意思同定語從句差不多。例如 :
Tell the children playing outside not to make too much noise. = Tell the children who are playing outside not to make too much noise.
3. 現在分詞可相當於非限制性定語,常用逗號分開。例如:
Tom, wearing beautiful clothes, followed me down the hill. = Tom, who is wearing beautiful clothes, followed me down the hill.
4. 有時現在分詞可以和副詞或名詞構成復合詞作定語。例如:
This is an English-speaking country.
(二)作表語
現在分詞作表語多表示主語的特徵。如amusing, discouraging, puzzling, refreshing, astonishing, exciting 等。例如:
The story is moving.
(三)現在分詞在句中作賓語補足語,這時現在分詞和前面的賓語有邏輯上的「主表」關系或「主謂」關系。例如:
We all found his equipment interesting. (主表關系)
I saw Mary going upstairs then. (主謂關系)
(四)作狀語
現在分詞作狀語,其邏輯主語一般是句中的主語,如果不是,需在V-ing 形式前加名詞或代詞主格作邏輯主語。
1. 作原因狀語,相當於原因狀語從句。例如:
Being ill, Mary didn't come to school yesterday.
2. 作時間狀語,相當於時間狀語從句。例如:
Seeing their teacher coming, the students stopped talking.
如果現在分詞表示的動作與謂語表示的動作同時發生,常在現在分詞前加上when或while。例如:
While waiting for the plane, I had a long talk with Simon.
3. 作條件狀語。
V-ing 形式作條件狀語時,相當於一個條件狀語從句。例如:
Working harder, you'll be No. 1 in your class.
4. 作讓步狀語,相當於讓步狀語從句。例如:
Weighing almost two hundred jin, the stone was moved by him alone.
5. 作結果狀語。例如:
He died, leaving nothing but debts.
6. 作伴隨狀語或方式狀語。例如:
He sat by the roadside, begging.
(五) 現在分詞的完成式表示它發生在主句謂語動詞表示的動作之前。例如 :
Having finished his homework, he left the classroom.
(六) 現在分詞的被動式
當句子的主語是動作的承受者時,用V-ing 形式的被動式。例如:
The factory being built now is a big one.
(七) 現在分詞的否定形式是由「not + 現在分詞」構成。例如:
Not having been invited to the party, she had to stay home.
請採納
❽ 中文分詞詞典如何使用
這種方法又叫做機械分詞方法,它是按照一定的策略將待分析的漢字串與一個「充分大的」機器詞典中的詞條進行配,若在詞典中找到某個字元串,則匹配成功(識別出一個詞)。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長度優先匹配的情況,可以分為最大(最長)匹配和最小(最短)匹配;按照是否與詞性標注過程相結合,又可以分為單純分詞方法和分詞與標注相結合的一體化方法。常用的幾種機械分詞方法如下:
1)正向最大匹配法(由左到右的方向);
2)逆向最大匹配法(由右到左的方向);
3)最少切分(使每一句中切出的詞數最小)。
還可以將上述各種方法相互組合,例如,可以將正向最大匹配方法和逆向最大匹配方法結合起來構成雙向匹配法。
統計結果表明,單純使用正向最大匹配的錯誤率為1/169,單純使用逆向最大匹配的錯誤率為1/245。但這種精度還遠遠不能滿足實際的需要。實際使用的分詞系統,都是把機械分詞作為一種初分手段,還需通過利用各種其它的語言信息來進一步提高切分的准確率
❾ 百度中文分詞如何分詞
而網路中文分詞就是把詞按照一定的規格,將一個長尾詞分割成幾個部分,從而概括一段話的主要內容。在網路中文分詞中,網路強調的是:一、
字元串匹配的分詞方法。我們需要有一定的字元串做基礎,就是一段詞用字元分開,比如標點符號,空格等。才能夠進行分詞匹配,我們把這些字元串叫做機械詞典。機械詞典的個數不定。由每個搜索引擎自己確定。每個機械詞典之間還會有優先順序。字元串匹配的分詞方法最常用的有幾種:1、正向最大匹配法(由左到右的方向)2、逆向最大匹配法(由右到左的方向)3、最少切分(使每一句中切出的詞數最小)網路中文分詞基於字元串匹配舉例給大家說明一下:「我想去澳大利亞旅遊」正向最大匹配:我想去,澳大利亞旅遊逆向最大匹配:我想,想去,澳大利亞,旅遊。最少切分:我把上面哪句話分成的詞要是最少的「我想去,澳大利亞旅遊」這就是最短路徑分詞法,分出來就只有2個詞了。另外,不同的搜索的詞典不同,分出來的詞也不同。二、理解的分詞方法。這種分詞方法不需要機械詞典。這種其實就是一種機器語音判斷的分詞方法。很簡單,進行句法、語義分析,利用句法信息和語義信息來處理歧義現象來分詞,這種分詞方法,現在還不成熟。處在測試階段。三、統計的分詞方法。這個顧名思義,就是根據片語的統計,發現那些相鄰的字出現的頻率高,那麼這個詞就很重要。可以作為用戶提供字元串中的分隔符。比如,「我的,你的,許多的,這里,這一,那裡」。等等,這些詞出現的比較多,就從這些詞裡面分開來。四、對於網路中文分詞的理解:基於統計的分詞方法得到的詞或者句子的權重要高於基於字元串匹配得到的。就是全字匹配得到的詞的權重會高於分開的詞的權重。根據自己的觀察現在網路大部分都是使用的是正向匹配。網路分詞對於一句話分詞之後,還會去掉句子中的沒有意義的詞語。