利用网络测试汉字使用频率的方法
"的"这个字使用平率最高了,不妨以它为基准,算100%.每个汉语网页都有这个字.上百度,搜索"的"字,可以发现显示"百度一下,找到相关网页约100,000,000篇"再搜索想要测试使用频率的字,比如"好",可以看到"百度一下,找到相关网页约24,200,000篇"这样就能算出来,"好"字的使用频率为22.4%.这种方法的使用我也见过
商务印书馆的魏励先生的研究“做”和“作”的一篇文章,就是利用百度搜索统计使用频率的。这篇文章在全国第四届语言文字应用学术研讨会上宣读,并受到人们的关注和讨论。这说明这种不用投入多少资金的“网络语料库”方法在一定范围也是可行的。还应该看到,这种未加工的语料收集,还是有很大的局限性的。看了小魏的这个贴补子,所受启发很大。
[ 本贴由 孙兰荃 于 2006-4-1411:58 最后编辑 ]
页:
[1]