湘里妹子学术网

 找回密码
 注册
查看: 2598|回复: 3

关于分词系统的问题请教各位

[复制链接]
发表于 2004-2-26 13:48:40 | 显示全部楼层 |阅读模式
小弟现在在做本科毕业设计,题目是一个文本知识挖掘系统,大体要求如下
1)从文本中抽取实体的名称,并且判断它们的类型(如山脉、学校等),最后建立一个实体名称词典
2)获取这些实体之间的位置关系,最后生成一个数据库,其中的命题形式为“谓词
(entity1, entity2)”。例如,“位于东部(南京,中国)”表示南京位于中国的东部,
其中“位于东部”是一个谓词。

现在最主要是的问题是如何让电脑知道这是一个地理实词,比如“徐家汇百脑汇”这样的组合不知道怎么样让电脑区别开来
发表于 2004-2-27 10:05:58 | 显示全部楼层
这个题目确实很大。可以搞小范围实验。我在福州搞项目——智能答问,太忙。没法提供具体帮助。
 楼主| 发表于 2004-2-29 14:48:20 | 显示全部楼层
谢谢楼上各位,我打算从样本库中得到提取规律,然后考虑下一步如何提高识别率:sad:
发表于 2004-3-1 09:44:40 | 显示全部楼层
1)
从文本中抽取实体的名称,并且判断它们的类型(如山脉、学校等),最
后建立一个实体名称词典
→用全文尋技術提取Codes,但可先行作出分類Dics(應先作实体名称词典)
2)
获取这些实体之间的位置关系,最后生成一个数据库,其中的命题形式为“
谓词(entity1, entity2)”。例如,“位于东部(南京,中国)”表示南京位于中
国的东部,其中“位于东部”是一个谓词。
→实体之间的位置关系與邏輯關係可從程式中與Dics中動手(若使用試算表
型式的Dics格試,還可同時運算數值)
2)
如何让电脑知道这是一个地理实词↓
就用分類切分即可辦到。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-5-6 07:15 , Processed in 0.149384 second(s), 19 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表