超碰人人人人人,亚洲AV午夜福利精品一区二区,亚洲欧美综合区丁香五月1区,日韩欧美亚洲系列

LOGO OA教程 ERP教程 模切知識(shí)交流 PMS教程 CRM教程 開發(fā)文檔 其他文檔  
 
網(wǎng)站管理員

[點(diǎn)晴永久免費(fèi)OA]中文分詞研究入門

admin
2020年3月7日 15:12 本文熱度 3651

導(dǎo)讀

本文首先簡(jiǎn)單介紹了自然語言處理和科研過程中重要的四部曲——調(diào)研、思考、編程和寫作,然后對(duì)中文分詞問題進(jìn)行了說明,介紹了中文分詞存在的難點(diǎn)如消歧、顆粒度問題、分詞標(biāo)準(zhǔn)等。接著,本文總結(jié)了調(diào)研文獻(xiàn)中的分詞方法,包括基于詞典的最大匹配法以及其相應(yīng)的改進(jìn)方法、基于字標(biāo)注的分詞方法等,同時(shí)也介紹了當(dāng)前中文分詞的研究進(jìn)展和方向,如統(tǒng)計(jì)與詞典相結(jié)合、基于深度學(xué)習(xí)的分詞方法等。而后,本文具體介紹了如何基于詞典的雙向最大匹配法以及基于字標(biāo)注的平均感知機(jī)進(jìn)行分詞的實(shí)驗(yàn),對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了分析并給出了幾種改進(jìn)模型的思路。最后,本文給出了相應(yīng)的參考文獻(xiàn)以及其他資料。

本文作者:llhthinker

原文地址:http://www.cnblogs.com/llhthinker/p/6323604.html

Github代碼地址: https://github.com/llhthinker/MachineLearningLab/tree/master/Chinese-Word-Segmentation

轉(zhuǎn)載請(qǐng)保留

 

1. 導(dǎo)論

1.1 自然語言處理簡(jiǎn)介

自然語言處理(NLP, Natural Language Processing)是用機(jī)器處理人類語言(有別于人工語言,如程序設(shè)計(jì)語言)的理論和技術(shù)。自然語言處理是人工智能的一個(gè)重要分支,屬于計(jì)算機(jī)應(yīng)用技術(shù)(有別于計(jì)算機(jī)技術(shù))。計(jì)算機(jī)應(yīng)用技術(shù)作為二級(jí)學(xué)科所屬于一級(jí)學(xué)科計(jì)算機(jī)科學(xué)技術(shù)。自然語言處理又可以稱作自然語言理解或計(jì)算語言學(xué)。

自然語言處理是一個(gè)貼近應(yīng)用的研究方向。NLP大致可分為基礎(chǔ)研究和應(yīng)用技術(shù)研究?;A(chǔ)研究包括詞法分析、句法分析、語義分析和篇章理解等;應(yīng)用技術(shù)研究包括文本挖掘、自動(dòng)問答、信息檢索、信息抽取、機(jī)器翻譯等。

1.2 科學(xué)研究方法

研究活動(dòng)的大致流程可以遵循如下四個(gè)階段[1]:

  1. 閱讀 (Reading)
  2. 思考 (Thinking)
  3. 編程 (Programming)
  4. 寫作 (Writing)

第一階段閱讀大約占整個(gè)過程的30%。收集并閱讀資料是研究過程的第一步?,F(xiàn)在的資料浩如煙海,如何收集到有價(jià)值的資料極為重要。研究的資料主要是論文,我們應(yīng)該閱讀重要的論文,而重要的論文往往具有以下一種或多種特征:

  • 發(fā)表在高水平(頂級(jí))會(huì)議或期刊上:對(duì)于NPL領(lǐng)域,國際高水平會(huì)議包括ACL、EMNLP、COLING等,國內(nèi)重要的NLP期刊如中文信息學(xué)報(bào);
  • 引用數(shù)多;
  • 作者為高水平(著名)學(xué)者(參考http://cn.aminer.org/ );
  • 近5年尤其是近3年的論文: 由于學(xué)術(shù)發(fā)展較快,我們應(yīng)該閱讀最新的論文。

如何閱讀一篇論文?閱讀論文時(shí)應(yīng)注意以下幾點(diǎn):

  • 以作者為線索理清脈絡(luò): 閱讀論文時(shí)要注意論文作者和研究機(jī)構(gòu)。以作者為線索理清該作者研究工作的脈絡(luò),以此熟悉該研究方向。
  • 抓住論文要害: 論文要害主要包括研究工作的目的、待解決的問題、解決問題的難點(diǎn)、針對(duì)問題難點(diǎn)的解決方法、該方法與其他方法的對(duì)比、該方法的不足等。
  • 批判式閱讀: 每一篇學(xué)術(shù)論文都不是完美的,閱讀論文時(shí)應(yīng)帶著批判的心理,在閱讀中不斷找出論文的問題或不足之處,并積極思考如何做可以更好的解決問題。

第二階段思考大約占整個(gè)過程的20%。"學(xué)而不思則罔",在閱讀過程中以及閱讀后應(yīng)該積極思考。

第三階段編程大約占整個(gè)過程的20%。第一步是收集數(shù)據(jù),數(shù)據(jù)可以是標(biāo)準(zhǔn)的評(píng)測(cè)數(shù)據(jù),也可以是自己采集的真實(shí)數(shù)據(jù)。第二步是編寫程序,實(shí)現(xiàn)算法。第三步是分析結(jié)果。

第四階段寫作大約占整個(gè)過程的30%。寫作是科學(xué)研究的一個(gè)重要過程。論文是研究成果的體現(xiàn),將自己的研究成果很好的展示給學(xué)術(shù)界,才能體現(xiàn)出研究的價(jià)值。

上述四個(gè)階段不是瀑布式而是螺旋式,是對(duì)研究的方向不斷深入的過程。

1.3 中文分詞問題介紹

中文信息處理是指自然語言處理的分支,是指用計(jì)算機(jī)對(duì)中文進(jìn)行處理。和大部分西方語言不同,書面漢語的詞語之間沒有明顯的空格標(biāo)記,句子是以字串的形式出現(xiàn)。因此對(duì)中文進(jìn)行處理的第一步就是進(jìn)行自動(dòng)分詞,即將字串轉(zhuǎn)變成詞串。

自動(dòng)分詞的重要前提是以什么標(biāo)準(zhǔn)作為詞的分界。詞是最小的能夠獨(dú)立運(yùn)用的語言單位。詞的定義非常抽象且不可計(jì)算。給定某文本,按照不同的標(biāo)準(zhǔn)的分詞結(jié)果往往不同。詞的標(biāo)準(zhǔn)成為分詞問題一個(gè)很大的難點(diǎn),沒有一種標(biāo)準(zhǔn)是被公認(rèn)的。但是,換個(gè)思路思考,若在同一標(biāo)準(zhǔn)下,分詞便具有了可比較性。因此,只要保證了每個(gè)語料庫內(nèi)部的分詞標(biāo)準(zhǔn)是一致的,基于該語料庫的分詞技術(shù)便可一較高下[3]。

分詞的難點(diǎn)在于消除歧義,分詞歧義主要包括如下幾個(gè)方面:

  • 交集歧義, 例如:

    研究/ 生命/ 的/ 起源
    研究生/ 命/ 的/ 起源

  • 組合歧義,例如:

    他 / 從 / 馬 / 上 / 下來

    他 / 從 / 馬上 / 下來

  • 未登錄詞,例如:

    蔡英文 / 和 / 特朗普 / 通話

    蔡英文 / 和 / 特朗 / 普通話

除了上述歧義,有些歧義無法在句子內(nèi)部解決,需要結(jié)合篇章上下文。例如,"乒乓球拍賣完了",可以切分為"乒乓/球拍/賣/完/了",也可以切分成"乒乓球/拍賣/完/了"。這類分詞歧義使得分詞問題更加復(fù)雜。

詞的顆粒度選擇問題是分詞的一個(gè)難題。研究者們往往把"結(jié)合緊密、使用穩(wěn)定"視為分詞單位的界定準(zhǔn)則,然而人們對(duì)于這種準(zhǔn)則理解的主觀性差別較大,受到個(gè)人的知識(shí)結(jié)構(gòu)和所處環(huán)境的很大影響[3]。選擇什么樣的詞的顆粒度與要實(shí)現(xiàn)具體系統(tǒng)緊密相關(guān)。例如在機(jī)器翻譯中,通常顆粒度大翻譯效果好。比如"聯(lián)想公司"作為一個(gè)整體時(shí),很容易找到它對(duì)應(yīng)的英文翻譯Lenovo,如果分詞時(shí)將其分開,可能翻譯失敗。然而,在網(wǎng)頁搜索中,小的顆粒度比大的顆粒度好。比如"清華大學(xué)"如果作為一個(gè)詞,當(dāng)用戶搜索"清華"時(shí),很可能就找不到清華大學(xué)。[10]

2. 中文分詞文獻(xiàn)調(diào)研

2.1 最大匹配法

梁南元在1983年發(fā)表的論文《書面漢語的自動(dòng)分詞與另一個(gè)自動(dòng)分詞系統(tǒng)CDWS》提到,蘇聯(lián)學(xué)者1960年左右研究漢俄機(jī)器翻譯時(shí)提出的 6-5-4-3-2-1 分詞方法。其基本思想是先建立一個(gè)最長(zhǎng)詞條字?jǐn)?shù)為6的詞典, 然后取句子前6個(gè)字查詞典,如查不到, 則去掉最后一個(gè)字繼續(xù)查, 一直到找著一個(gè)詞為止。梁南元稱該方法為最大匹配法——MM方法(The Maximum Matching Method)。由MM方法自然引申,有逆向的最大匹配法。它的分詞思想同MM方法,不過是從句子(或文章)末尾開始處理的,每次匹配不成詞時(shí)去掉最前面的字。雙向最大匹配法即為MM分詞方法與逆向MM分詞方法的結(jié)合。梁南元等人首次將MM方法應(yīng)用于中文分詞任務(wù),實(shí)現(xiàn)了我國第一個(gè)自動(dòng)漢語自動(dòng)分詞系統(tǒng)CDWS。[2]

2.2 復(fù)雜最大匹配法

復(fù)雜最大匹配算法, 由Chen 和Liu在《Word identification for Mandarin Chinese sentences》提出[4]。該文提出了三詞語塊(three word chunks)的概念。三詞語塊生成規(guī)則是: 在對(duì)句子中的某個(gè)詞進(jìn)行切分時(shí),如果有歧義拿不定主意,就再向后展望兩個(gè)漢語詞,并且找出所有可能的三詞語塊。在所有可能的三詞語塊中根據(jù)如下四條規(guī)則選出最終分詞結(jié)果。

規(guī)則1: 最大匹配 (Maximum matching)

其核心的假設(shè)是:最可能的分詞方案是使得三詞語塊(three-word chunk)最長(zhǎng)。

規(guī)則2: 最大平均詞長(zhǎng)(Largest average word length)

在句子的末尾,很可能得到的"三詞語塊"只有一個(gè)或兩個(gè)詞(其他位置補(bǔ)空),這時(shí)規(guī)則1就無法解決其歧義消解問題,因此引入規(guī)則2:最大平均詞長(zhǎng),也就是從這些語塊中找出平均詞長(zhǎng)最大的語塊,并選取其第一詞語作為正確的詞語切分形式。這個(gè)規(guī)則的前提假設(shè)是:在句子中遇到多字詞語的情況比單字詞語更有可能。

規(guī)則3:最小詞長(zhǎng)方差(Smallest variance of word lengths)

還有一些歧義是規(guī)則1和規(guī)則2無法解決的。因此引入規(guī)則3:最小詞長(zhǎng)方差,也就是找出詞長(zhǎng)方差最小的語塊,并選取其第一個(gè)詞語作為正確的詞語切分形式。在概率論和統(tǒng)計(jì)學(xué)中,一個(gè)隨機(jī)變量的方差描述的是它的離散程度。因此該規(guī)則的前提假設(shè)是:句子中的詞語長(zhǎng)度經(jīng)常是均勻分布的。

規(guī)則4:最大單字詞語語素自由度之和(Largest sum of degree of morphemic freedom of one-character words)

有可能兩個(gè)"三詞語塊"擁有同樣的長(zhǎng)度、平均詞長(zhǎng)及方差,因此上述三個(gè)規(guī)則都無法解決其歧義消解問題。規(guī)則4主要關(guān)注其中的單字詞語。直觀來看,有些漢字很少作為詞語出現(xiàn),而另一些漢字則常常作為詞語出現(xiàn),從統(tǒng)計(jì)角度來看,在語料庫中出現(xiàn)頻率高的漢字就很可能是一個(gè)單字詞語,反之可能性就小。計(jì)算單詞詞語語素自由度之和的公式是對(duì)"三詞語塊"中的單字詞語頻率取對(duì)數(shù)并求和。規(guī)則4則選取其中和最大的三詞語塊作為最佳的詞語切分形式。

最大匹配算法以及其改進(jìn)方案是基于詞典和規(guī)則的。其優(yōu)點(diǎn)是實(shí)現(xiàn)簡(jiǎn)單,算法運(yùn)行速度快,缺點(diǎn)是嚴(yán)重依賴詞典,無法很好的處理分詞歧義和未登錄詞。因此,如何設(shè)計(jì)專門的未登錄詞識(shí)別模塊是該方法需要考慮的問題。

2.3 基于字標(biāo)注的分詞法

2002年,Xue等人在《Combining Classifiers for Chinese Word Segmentation》一文中首次提出對(duì)每個(gè)字進(jìn)行標(biāo)注,通過監(jiān)督機(jī)器學(xué)習(xí)算法訓(xùn)練出分類器從而進(jìn)行分詞[5]。一年后,Xue在最大熵(ME, Maximum Entropy)模型上實(shí)現(xiàn)的基于字標(biāo)注的分詞系統(tǒng)參加了Bakeoff-2003的評(píng)測(cè)獲得很好的成績(jī)引起關(guān)注。而后,Xue在《Chinese word segmentation as character tagging》一文中較為詳細(xì)的闡述了基于字標(biāo)注的分詞法[6]。

基于字標(biāo)注的分詞法基本思想是根據(jù)字所在詞的位置,對(duì)每個(gè)字打上LL、RR、MM和LR四種標(biāo)簽中的一個(gè)。四種標(biāo)簽的具體含義如下:


類似于詞性標(biāo)注中的POS(part-of-speech) tags,我們稱上述字標(biāo)簽為POC(position-of-character) tags。這樣,我們將分詞問題轉(zhuǎn)變成對(duì)漢字進(jìn)行序列標(biāo)注的問題。例如:


POC tags反映了的一個(gè)事實(shí)是,分詞歧義問題是由于一個(gè)漢字可以處于一個(gè)詞的不同位置,而漢字的位置取決于字的上下文。

字標(biāo)注本質(zhì)上是訓(xùn)練出一個(gè)字的分類器。模型框架如圖1所示。


圖1 字標(biāo)注訓(xùn)練模型框架

設(shè)計(jì)字特征的關(guān)鍵是包含足夠的上下文關(guān)系。黃昌寧等人在《中文分詞十年回顧》中提到,在[3]中所有語料庫99%以上的詞都是5字或5字以下的詞。因此,使用寬度為5個(gè)字的上下文窗口足以覆蓋真實(shí)文本中絕大多數(shù)的構(gòu)詞情形。進(jìn)一步,該文提到了一個(gè)確定有效詞位標(biāo)注集的定量標(biāo)準(zhǔn)——平均加權(quán)詞長(zhǎng)。其定義為:


是i≥k時(shí)的平均加權(quán)詞長(zhǎng),是語料中詞長(zhǎng)為k的詞次數(shù),K是語料中出現(xiàn)過的最大詞長(zhǎng),N是語料庫的總詞次數(shù)。如果k=1,那么代表整個(gè)語料的平均詞長(zhǎng)。

經(jīng)統(tǒng)計(jì),Bakeoff-2003和Bakeoff-2005所有語料庫的平均加權(quán)詞長(zhǎng)在1.51~1.71之間。因此,5字長(zhǎng)的上下文窗口恰好大致表達(dá)了前后各一個(gè)詞的上下文。

Xue在[6]文給出了如下的特征模板。


學(xué)習(xí)算法是指監(jiān)督機(jī)器學(xué)習(xí)算法,常用的有最大熵算法、條件隨機(jī)場(chǎng)(CRF, Conditional Random Fields)、支持向量機(jī)(SVM, Support Vector Machine)、平均感知機(jī)(AP, Averaged Perceptron)等。

基于字標(biāo)注的分詞方法是基于統(tǒng)計(jì)的。其主要的優(yōu)勢(shì)在于能夠平衡地看待詞表詞和未登錄詞的識(shí)別問題。其缺點(diǎn)是學(xué)習(xí)算法的復(fù)雜度往往較高,計(jì)算代價(jià)較大,好在現(xiàn)在的計(jì)算機(jī)的計(jì)算能力相較于以前有很大提升;同時(shí),該方法依賴訓(xùn)練語料庫,領(lǐng)域自適應(yīng)較差?;谧謽?biāo)注的分詞方法是目前的主流分詞方法。

2.4中文分詞研究進(jìn)展

2.4.1 統(tǒng)計(jì)與字典相結(jié)合

張梅山等人在《統(tǒng)計(jì)與字典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞》提出通過在統(tǒng)計(jì)中文分詞模型中融入詞典相關(guān)特征的方法,使得統(tǒng)計(jì)中文分詞模型和詞典有機(jī)結(jié)合起來。一方面可以進(jìn)一步提高中文分詞的準(zhǔn)確率,另一方面大大改善了中文分詞的領(lǐng)域自適應(yīng)性。[7]


圖2 領(lǐng)域自適應(yīng)性分詞系統(tǒng)框架圖

2.4.2基于深度學(xué)習(xí)的分詞方法

近幾年,深度學(xué)習(xí)方法為分詞技術(shù)帶來了新的思路,直接以最基本的向量化原子特征作為輸入,經(jīng)過多層非線性變換,輸出層就可以很好的預(yù)測(cè)當(dāng)前字的標(biāo)記或下一個(gè)動(dòng)作。在深度學(xué)習(xí)的框架下,仍然可以采用基于子序列標(biāo)注的方式,或基于轉(zhuǎn)移的方式,以及半馬爾科夫條件隨機(jī)場(chǎng)。[11]深度學(xué)習(xí)主要有兩點(diǎn)優(yōu)勢(shì):

  • 深度學(xué)習(xí)可以通過優(yōu)化最終目標(biāo),有效學(xué)習(xí)原子特征和上下文的表示;
  • 基于深層網(wǎng)絡(luò)如 CNN、 RNN、 LSTM等,深度學(xué)習(xí)可以更有效的刻畫長(zhǎng)距離句子信息。

Neural Architectures for Named Entity Recognition》一文中提出了一種深度學(xué)習(xí)框架,如圖3,利用該框架可以進(jìn)行中文分詞。具體地,首先對(duì)語料的字進(jìn)行嵌入,得到字嵌入后,將字嵌入特征輸入給雙向LSTM,輸出層輸出深度學(xué)習(xí)所學(xué)習(xí)到的特征,并輸入給CRF層,得到最終模型。[9]


圖3 一個(gè)深度學(xué)習(xí)框架

3. 中文分詞方法實(shí)踐

3.1 基本思路

我們首先利用正則表達(dá)式提取URL、英文一類特殊詞,對(duì)文本數(shù)據(jù)進(jìn)行預(yù)處理。而后分別實(shí)現(xiàn)雙向最大匹配法和基于字標(biāo)注的平均感知機(jī)分詞兩個(gè)分詞模塊并一起集成到分詞系統(tǒng)。在使用平均感知機(jī)進(jìn)行分詞訓(xùn)練時(shí)嘗試增加訓(xùn)練數(shù)據(jù)集,如使用Bakeoff-2005的PKU訓(xùn)練數(shù)據(jù)集和雙向最大匹配法的分詞結(jié)果進(jìn)行增量訓(xùn)練。

3.2 雙向最大匹配法

雙向最大匹配法即對(duì)句子分別用正向最大匹配和逆向最大匹配進(jìn)行分詞,然后根據(jù)一定的規(guī)則選擇某一分詞結(jié)果。我們?cè)趯?shí)現(xiàn)是所制定的規(guī)則為:

  1. 如果正反向分詞結(jié)果詞數(shù)不同,則取分詞數(shù)量較少的那個(gè);
  2. 如果分詞結(jié)果詞數(shù)相同:
    1. 分詞結(jié)果相同,可返回任意一個(gè);
    2. 分詞結(jié)果不同,返回其中單字較少的那個(gè)。

3.3 基于字標(biāo)注的平均感知機(jī)分詞方法

3.3.1 特征設(shè)計(jì)

我們選擇5個(gè)字為上下文窗口大小,即:


該上下文窗口包含如下7個(gè)特征:


由于感知機(jī)的基本形式是二分類的,而字標(biāo)注為四分類(多分類)。為了基于感知機(jī)實(shí)現(xiàn)多分類,將每個(gè)字的某一特征權(quán)重設(shè)計(jì)為長(zhǎng)度為4的向量,向量的每個(gè)分量對(duì)于某一分類的權(quán)值,如圖4所示。


圖4 字的特征設(shè)計(jì)

3.3.2 算法設(shè)計(jì)

對(duì)于預(yù)測(cè)算法而言,如果是簡(jiǎn)單的序列標(biāo)注問題,那么取得分最高的標(biāo)簽即可,但是在中文分詞問題中,當(dāng)前字的標(biāo)簽與前一個(gè)字的標(biāo)簽密切相關(guān),例如若前一個(gè)字標(biāo)簽為S(單字成詞),則當(dāng)前字的標(biāo)簽只可能為S或B(詞首),為了利用上述信息,我們引入狀態(tài)轉(zhuǎn)移和Viterbi算法。預(yù)測(cè)算法的偽代碼如圖5所示。


圖5 預(yù)測(cè)算法偽代碼

在使用隨機(jī)梯度下降法的訓(xùn)練過程中,我們采取平均化參數(shù)方法防止某一訓(xùn)練數(shù)據(jù)對(duì)結(jié)果影響較大。訓(xùn)練算法的偽代碼如圖6所示。

圖6 訓(xùn)練算法偽代碼

3.3.3 增量訓(xùn)練

在增量訓(xùn)練中,首先使用初始訓(xùn)練語料訓(xùn)練一個(gè)初始模型,然后結(jié)合初始模型以及增量語料進(jìn)行增量訓(xùn)練得到一個(gè)增量模型。增量訓(xùn)練可以提高分詞系統(tǒng)的領(lǐng)域適應(yīng)性,進(jìn)一步提高切分中文分詞準(zhǔn)確率, 同時(shí)避免了對(duì)初始語料的需求以及使用全部語料訓(xùn)練模型所需要的時(shí)間。[8]模型增量訓(xùn)練流程圖如圖7所示:


圖7 模型增量訓(xùn)練流程圖

3.4 實(shí)驗(yàn)結(jié)果及分析

表1給出了不同模型下測(cè)試數(shù)據(jù)1(130KB)的評(píng)測(cè)結(jié)果。該測(cè)試數(shù)據(jù)為新聞文本。從表1中可以看出,雙向最大匹配的分詞結(jié)果還算不錯(cuò),并且算法效率高。平均感知機(jī)模型在使用Bakeoff2005的PKU訓(xùn)練集進(jìn)行增量訓(xùn)練后效果提升顯著,同時(shí)需要花費(fèi)額外的訓(xùn)練時(shí)間。最后我們希望結(jié)合統(tǒng)計(jì)與詞典的優(yōu)點(diǎn),嘗試使用最大雙向匹配分詞結(jié)果集進(jìn)行增量訓(xùn)練,分詞結(jié)果有少量提升但并不明顯。

表2給出了不同模型下測(cè)試數(shù)據(jù)2(31KB)的評(píng)測(cè)結(jié)果。該測(cè)試數(shù)據(jù)為微博文本。從表2中可以看出,測(cè)試數(shù)據(jù)2的分詞結(jié)果比測(cè)試數(shù)據(jù)1的分詞結(jié)果差。并且,值得注意的是,基于平均感知機(jī)使用原始訓(xùn)練集訓(xùn)練出的模型分詞效果不太理想,而在增量訓(xùn)練后效果提升非常顯著。這是微博文本相較于新聞文本更加不規(guī)范,新詞(如網(wǎng)絡(luò)詞)更多等原因造成的??梢酝茰y(cè),若使用分詞標(biāo)準(zhǔn)一致的微博訓(xùn)練集進(jìn)行增量訓(xùn)練,將進(jìn)一步提高測(cè)試數(shù)據(jù)2的分詞結(jié)果。

      表1 不同模型下測(cè)試數(shù)據(jù)1的評(píng)測(cè)結(jié)果

模型

訓(xùn)練時(shí)間

測(cè)試時(shí)間

Precision

Recall

F-Measure

雙向最大匹配

——

0.03s

0.943

0.945

0.944

平均感知機(jī)

58.7s

0.02s

0.932

0.896

0.914

平均感知機(jī)+增量訓(xùn)練(Bakeoff2005 PKU訓(xùn)練集,6434KB)

58.7s

+568.1s

0.02s

0.944

0.941

0.943

平均感知機(jī)+增量訓(xùn)練(Bakeoff2005 PKU訓(xùn)練集6434KB+最大雙向匹配分詞結(jié)果集)

58.7s

+568.1s

+37.4s

0.02s

0.952

0.941

0.947

   表2 不同模型下測(cè)試數(shù)據(jù)2的評(píng)測(cè)結(jié)果

模型

訓(xùn)練時(shí)間

測(cè)試時(shí)間

Precision

Recall

F-Measure

雙向最大匹配

——

0.01s

0.887

0.901

0.894

平均感知機(jī)

58.7s

0.01s

0.797

0.726

0.759

平均感知機(jī)+增量訓(xùn)練(Bakeoff2005 PKU訓(xùn)練集,6434KB)

58.7s

+568.1s

0.01s

0.886

0.900

0.893

平均感知機(jī)+增量訓(xùn)練(Bakeoff2005 PKU訓(xùn)練集6434KB+最大雙向匹配分詞結(jié)果集)

58.7s

+568.1s

+20.9s

0.01s

0.892

0.900

0.896

 

3.5 模型改進(jìn)思路

基于字標(biāo)注的平均感知機(jī)分詞模型的分詞結(jié)果已經(jīng)達(dá)到不錯(cuò)的精度,但是在模型性能和模型分詞精度上仍有提升的空間。

為了提高模型性能,有如下幾種思路[8]:

  • 感知機(jī)并行訓(xùn)練算法:從表1中可以看出,當(dāng)訓(xùn)練數(shù)據(jù)規(guī)模較大時(shí),感知機(jī)的訓(xùn)練過程是非常耗時(shí)的。并行訓(xùn)練能大幅度的提高訓(xùn)練效率。算法的基本思想是當(dāng)訓(xùn)練數(shù)據(jù)規(guī)模較大時(shí),將訓(xùn)練數(shù)據(jù)劃分為S個(gè)不相交的子集,然后在這S個(gè)不相交子集上并行訓(xùn)練多個(gè)子模型,對(duì)多個(gè)子模型進(jìn)行融合得到最終的模型。
  • 模型壓縮:在實(shí)際應(yīng)用中,即使訓(xùn)練語料規(guī)模不是特別大,根據(jù)模版提取的特征數(shù)量仍然會(huì)到達(dá)百萬級(jí)甚至是千萬級(jí)之多,消耗大量?jī)?nèi)存。實(shí)際上,模型中存在很大一部分特征的權(quán)重很小,對(duì)于計(jì)算狀態(tài)序列的分?jǐn)?shù)影響微乎其微,因此可以通過統(tǒng)計(jì)特征的權(quán)重對(duì)模型進(jìn)行壓縮,將對(duì)計(jì)算分?jǐn)?shù)結(jié)果影響特別小的特征從模型中刪除。這樣在不顯著影響性能的前提下既可以減小模型文件的大小還可以降低對(duì)內(nèi)存的需求。
  • 多線程并行測(cè)試:利用多核處理器,在進(jìn)行分詞測(cè)試時(shí),只需要共享同一個(gè)模型,實(shí)現(xiàn)對(duì)文件中的多個(gè)句子的多線程并行解碼。

為了提高模型的分詞精度,有如下幾種思路:

  • 增量訓(xùn)練:進(jìn)一步增加分詞標(biāo)準(zhǔn)一致的領(lǐng)域訓(xùn)練集進(jìn)行訓(xùn)練。
  • 統(tǒng)計(jì)與詞典相結(jié)合:實(shí)驗(yàn)結(jié)果表明,直接使用雙向最大匹配算法的分詞結(jié)果集進(jìn)行并不能較好的利用詞典信息從而提高分詞正確率。為了更好的利用詞典信息,可以將詞典信息進(jìn)行特征表示,融入到統(tǒng)計(jì)模型中。[8]

 

4. 參考文獻(xiàn)

[1] 劉挺, 怎樣做研究, 新浪博客http://blog.sina.com.cn/s/articlelist_1287570921_1_1.html,2007

[2] 梁南元, 書面漢語的自動(dòng)分詞與另一個(gè)自動(dòng)分詞系統(tǒng)CDWS, 中國漢字信息處理系統(tǒng)學(xué)術(shù)會(huì)議, 桂林, 1983

[3] 黃昌寧,趙海. 中文分詞十年回顧. 中文信息學(xué)報(bào). 2007

[4] Chen, K. J. and Liu S.H. Word identification for Mandarin Chinese sentences. Proceedings of the 14th International Conference on Computational Linguistics. 1992.

[5] Nianwen Xue and Susan P. Converse. Combining Classifiers for Chinese Word Segmentation, First SIGHAN Workshop attached with the 19th COLING, Taipei, 2002

[6] Nianwen Xue. Chinese word segmentation as character tagging. Computational Linguistics and Chinese Language Processing. 2003

[7] 張梅山. 鄧知龍. 統(tǒng)計(jì)與字典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞. 中文信息學(xué)報(bào). 2012

[8] 鄧知龍,基于感知器算法的高效中文分詞與詞性標(biāo)注系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn),哈爾濱工業(yè)大學(xué),2013

[9] Guillaume Lample, Miguel Ballesteros, Sandeep Subramanian, Kazuya Kawakami, and Chris Dyer. Neural architectures for named entity recognition. arXiv preprint arXiv:1603.01360. 2016

[10] 吳軍. 數(shù)學(xué)之美(第二版).人民郵電出版社. 2014

[11] 李正華等,中文信息處理發(fā)展報(bào)告(2016). 中國中文信息學(xué)會(huì). 2016

 

5. 其他資料

  1. 中文分詞文獻(xiàn)列表
  2. 我愛自然語言處理-中文分詞入門
  3. 碼農(nóng)場(chǎng)-中文分詞
  4. THUOCL: 清華大學(xué)開放中文詞庫

另附常見分詞系統(tǒng)評(píng)測(cè)結(jié)果如下(圖片來源見水印):



該文章在 2020/3/7 15:12:46 編輯過
關(guān)鍵字查詢
相關(guān)文章
正在查詢...
點(diǎn)晴ERP是一款針對(duì)中小制造業(yè)的專業(yè)生產(chǎn)管理軟件系統(tǒng),系統(tǒng)成熟度和易用性得到了國內(nèi)大量中小企業(yè)的青睞。
點(diǎn)晴PMS碼頭管理系統(tǒng)主要針對(duì)港口碼頭集裝箱與散貨日常運(yùn)作、調(diào)度、堆場(chǎng)、車隊(duì)、財(cái)務(wù)費(fèi)用、相關(guān)報(bào)表等業(yè)務(wù)管理,結(jié)合碼頭的業(yè)務(wù)特點(diǎn),圍繞調(diào)度、堆場(chǎng)作業(yè)而開發(fā)的。集技術(shù)的先進(jìn)性、管理的有效性于一體,是物流碼頭及其他港口類企業(yè)的高效ERP管理信息系統(tǒng)。
點(diǎn)晴WMS倉儲(chǔ)管理系統(tǒng)提供了貨物產(chǎn)品管理,銷售管理,采購管理,倉儲(chǔ)管理,倉庫管理,保質(zhì)期管理,貨位管理,庫位管理,生產(chǎn)管理,WMS管理系統(tǒng),標(biāo)簽打印,條形碼,二維碼管理,批號(hào)管理軟件。
點(diǎn)晴免費(fèi)OA是一款軟件和通用服務(wù)都免費(fèi),不限功能、不限時(shí)間、不限用戶的免費(fèi)OA協(xié)同辦公管理系統(tǒng)。
Copyright 2010-2025 ClickSun All Rights Reserved