以上講到的“離散意群”表達方式有點和計算機程序中的“參數傳遞”方式相近。成語和典故的使用就相當於“對象引用”(Reference of Object)了。其實還可以有其他的類比。使用計算機的人都熟悉“*”和“?”這樣的通配符。在自然語言中也有類似現象。例如,在文化素養高的人群裏,也有類似的語言現象:電視劇裏的老朋友中的一方於一忍再忍之後不得不對另一方所說的臺詞:“你要再這樣下去,我就’甚麼’了”是為了緩和口吻的威脅性。《東方之子》節目裏接受採訪的人物在聽到採訪記者的讚揚之後,面對麥克風回答說:“我當然要盡力把我的作品搞得‘甚麼’一點”。回答者如此謙虛,連“好’字都不願意直接說出來。這樣的說話方式好比圖像處理中的柔化(blur)處理,有意增加了語言的模糊性。
在考慮自然語言的計算機處理問題時,至少在目前,我們追求的還是“不確定性”越少越好。在當前技術水平下,很顯然最多只能讓計算機去處理第一第二層次中的信息。這就意味著:信息源(不管它是人還是另一臺計算機)應該儘可能把有用(非冗餘)信息集中在第一、二層,最好全部集中在第一層。如若不然,由於計算機收不到更外層中的信息,不確切性便不能全部消除。舉例來說,如果讓計算機進行機器翻譯,只給它一句英文句子:”The boy saw a girl with a telescope‧”而不帶其他信息,那麼正確的譯文應該是兩句:“那男孩看見了一個帶著望遠鏡的女孩。”“那男孩通過望遠鏡看見了一個女孩。”以保證原文和譯文都帶有同樣的
不確切性。
我的作法是在該校正的詞間作好文字的多重切分(根據語意、數詞....一次運算決定),然後只Run一次,測試結果沒慢!
這一關過了之後,中國古文的切分與轉換可以解決了↓
A.
所有固定(Solid)詞(如:“余生也有涯...”(余/餘?)→Norms
用窮舉法(約120000句)列出所有可能造成歧異的句型,不管多少字,可校正到99.99999(所以需要多領域的朋友挑錯),速度只慢0.002秒。
B.
餘下的就是無能為力的死句了,當我們校正所有的可能後,無法計算死句前後所有的Context(A+這只船到上海+B),A與B是無限大。