魏袖鼎 发表于 2006-4-13 17:04:58

利用网络测试汉字使用频率的方法

"的"这个字使用平率最高了,不妨以它为基准,算100%.每个汉语网页都有这个字.上百度,搜索"的"字,可以发现显示"百度一下,找到相关网页约100,000,000篇"再搜索想要测试使用频率的字,比如"好",可以看到"百度一下,找到相关网页约24,200,000篇"这样就能算出来,"好"字的使用频率为22.4%.

孙兰荃 发表于 2006-4-14 11:50:51

这种方法的使用我也见过

商务印书馆的魏励先生的研究“做”和“作”的一篇文章,就是利用百度搜索统计使用频率的。这篇文章在全国第四届语言文字应用学术研讨会上宣读,并受到人们的关注和讨论。这说明这种不用投入多少资金的“网络语料库”方法在一定范围也是可行的。还应该看到,这种未加工的语料收集,还是有很大的局限性的。
看了小魏的这个贴补子,所受启发很大。

[ 本贴由 孙兰荃 于 2006-4-1411:58 最后编辑 ]
页: [1]
查看完整版本: 利用网络测试汉字使用频率的方法