基于模板的對幾種特殊結構句子的語(yǔ)句改寫(xiě)
Np+V+著(zhù)+N
→(有)+N+V+在+Np
在此,Np表示句首方處所結構;V表示動(dòng)詞或動(dòng)詞短語(yǔ);N表示句末名詞性結構。
在原句式中,“掛”和“畫(huà)”是動(dòng)作和受事關(guān)系,“墻上”表示存在的處所;在變換式中,“掛”和“畫(huà)”仍是動(dòng)作和受事的關(guān)系,“墻上”仍表示“畫(huà)”的存在的處所。三者在共現詞之間的語(yǔ)義關(guān)系上保持不變。
通過(guò)對存現句的句子結構分析得出各種句法結構框架,進(jìn)一步進(jìn)行抽象化,就得到了改寫(xiě)模板。分別以s,f,t表示處所、方位和時(shí)間的品詞標記,則每種結構都會(huì )有(s)處所詞,(f)方位詞,(t)時(shí)間詞。將其分離出來(lái),作為該類(lèi)模板的關(guān)鍵詞結構。對于有介詞的句式,將介詞保留或是變換成另一種形式。合并名詞短語(yǔ),形容詞短語(yǔ)等非關(guān)鍵成分,就得到了如下的改寫(xiě)模板:
其他幾種句式比如倒裝句、名詞謂語(yǔ)句、雙重否定句、反問(wèn)句、特指問(wèn)句、選擇問(wèn)句、“把”字句、“被”字句、“比”字句等的改寫(xiě)模板的抽取過(guò)程與上述存現句的類(lèi)似。
2 改寫(xiě)的處理過(guò)程
模板匹配是基于模板方法的改寫(xiě)系統的關(guān)鍵,基本思想是實(shí)現一個(gè)具有少數關(guān)鍵詞常項、任意多個(gè)變項的模板匹配算法,把原語(yǔ)句中的任意符號串結構自動(dòng)替換成目標語(yǔ)句中的符號串結構。在具有關(guān)鍵項、約束項、任意變項的模板匹配算法的基礎上,可以利用按照一定的層次結構組織存貯的模板,實(shí)現從原語(yǔ)句到目標語(yǔ)句的自動(dòng)改寫(xiě)。在此關(guān)鍵項是指抽出的所有模板共通的關(guān)鍵詞,而約束項是指所有抽出模板中除關(guān)鍵項之外的關(guān)鍵詞。在進(jìn)行語(yǔ)句改寫(xiě)時(shí)對將要進(jìn)行改寫(xiě)的語(yǔ)句抽出其結構框架,計算它與改寫(xiě)模板的相似度以決定與之相匹配的改寫(xiě)模板,計算式如式(1),式(2)所示。
關(guān)鍵項相似度和約束項相似度計算:
則待改寫(xiě)句與模板的相似度計算:
式中:SKW為待改寫(xiě)句與模板對應的關(guān)鍵項個(gè)數;RW為待改寫(xiě)句與模板對應的約束項個(gè)數;TKW為模板中所含關(guān)鍵項個(gè)數;TRW為模板中所含約束項個(gè)數;KWS為待改寫(xiě)句與模板的關(guān)鍵項相似度;RWS為待改寫(xiě)句與模板的約束項相似度;TemSim為待改寫(xiě)句與模板的相似度;α,β是加權參數由預備試驗獲得。通過(guò)式(1),式(2)的計算獲得待改寫(xiě)句與模板的相似度值,滿(mǎn)足設定的相似度閾值的模板用于改寫(xiě)。
3 語(yǔ)句改寫(xiě)實(shí)驗及考察
3.1 實(shí)驗數據及結果
實(shí)驗使用了從中學(xué)課文中收集的約300個(gè)句子,模板庫中模板總數為196個(gè)。語(yǔ)句改寫(xiě)的輸入內容是使用分詞系統得到的分詞和詞性標注過(guò)的句子。改寫(xiě)結果的正誤判斷通過(guò)手工進(jìn)行。判斷的基準分為改寫(xiě)正確和改寫(xiě)錯誤。改寫(xiě)正確:改寫(xiě)句沒(méi)有錯誤、表達意思不變或錯誤較少及表達意思基本不變;改寫(xiě)錯誤:信息缺失、語(yǔ)序混亂及表達意思改變。
采用評價(jià)函數對抽出模板及其語(yǔ)句改寫(xiě)的效果進(jìn)行評價(jià),公式如下:
式中:CPR為正確改寫(xiě)率;TCR為模板覆蓋率;CPN為正確改寫(xiě)數目;PST為改寫(xiě)句子總數;IST為輸入句子總數。由式(3)對實(shí)驗結果評價(jià)得到在被改寫(xiě)句中改寫(xiě)正確率為74.71%,模板覆蓋率為66.34%。
3.2 實(shí)驗結果的考察
在被改寫(xiě)的語(yǔ)句中隨機抽取200句,其中錯誤改寫(xiě)句為49句。通過(guò)對改寫(xiě)錯誤句子進(jìn)行考察,獲得造成改寫(xiě)誤差的不同原因。在改寫(xiě)錯誤中由于分詞和詞性標注錯誤而導致改寫(xiě)的錯誤約占19.23%,而由于待改寫(xiě)句修飾成分過(guò)和多句子過(guò)長(cháng),則分詞后的詞匯信息單元過(guò)多,超出了模板所能描述的程度,出現的錯誤改寫(xiě)率占38.46%。模板匹配錯誤而導致的改寫(xiě)錯誤有:模板抽出的錯誤和相似度計算不夠精確而導致的錯誤的匹配分別占15.38 9/6和26.93%。由此可見(jiàn)對于較長(cháng)的句子需要對抽出模板的方法進(jìn)一步探討,此外相似度計算也有進(jìn)一步改進(jìn)的必要。
4 結 語(yǔ)
通過(guò)考察句子的語(yǔ)法結構,抽出句子的結構框架從而進(jìn)行了語(yǔ)句改寫(xiě)模板的構造。對待改寫(xiě)句則通過(guò)計算改寫(xiě)句與相應模板的框架中包含的關(guān)鍵項和約束項的相似度進(jìn)行模板的匹配。通過(guò)對小規模數據進(jìn)行的實(shí)驗及考察給出了針對幾種特殊結構的句子的改寫(xiě)效果。錯誤分析指出了改寫(xiě)方法及處理細節上存在的問(wèn)題,在今后的研究中計劃針對抽取模板的細化、相似度計算方法的改進(jìn)、擴大對不同結構語(yǔ)句的模板的抽取范圍和進(jìn)行較大規模數據的實(shí)驗考察等方面進(jìn)行探討。
評論