湘里妹子学术网

 找回密码
 注册
查看: 2836|回复: 1

利用网络测试汉字使用频率的方法

[复制链接]
发表于 2006-4-13 17:04:58 | 显示全部楼层 |阅读模式
"的"这个字使用平率最高了,不妨以它为基准,算100%.每个汉语网页都有这个字.上百度,搜索"的"字,可以发现显示"百度一下,找到相关网页约100,000,000篇"再搜索想要测试使用频率的字,比如"好",可以看到"百度一下,找到相关网页约24,200,000篇"这样就能算出来,"好"字的使用频率为22.4%.
发表于 2006-4-14 11:50:51 | 显示全部楼层

这种方法的使用我也见过

商务印书馆的魏励先生的研究“做”和“作”的一篇文章,就是利用百度搜索统计使用频率的。这篇文章在全国第四届语言文字应用学术研讨会上宣读,并受到人们的关注和讨论。这说明这种不用投入多少资金的“网络语料库”方法在一定范围也是可行的。还应该看到,这种未加工的语料收集,还是有很大的局限性的。
看了小魏的这个贴补子,所受启发很大。

[ 本贴由 孙兰荃 于 2006-4-14  11:58 最后编辑 ]
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2025-6-17 11:54 , Processed in 0.374480 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表