sisly 发表于 2004-2-26 13:48:40

关于分词系统的问题请教各位

小弟现在在做本科毕业设计,题目是一个文本知识挖掘系统,大体要求如下
1)从文本中抽取实体的名称,并且判断它们的类型(如山脉、学校等),最后建立一个实体名称词典
2)获取这些实体之间的位置关系,最后生成一个数据库,其中的命题形式为“谓词
(entity1, entity2)”。例如,“位于东部(南京,中国)”表示南京位于中国的东部,
其中“位于东部”是一个谓词。

现在最主要是的问题是如何让电脑知道这是一个地理实词,比如“徐家汇百脑汇”这样的组合不知道怎么样让电脑区别开来

xychy 发表于 2004-2-27 10:05:58

这个题目确实很大。可以搞小范围实验。我在福州搞项目——智能答问,太忙。没法提供具体帮助。

sisly 发表于 2004-2-29 14:48:20

谢谢楼上各位,我打算从样本库中得到提取规律,然后考虑下一步如何提高识别率:sad:

Artvine 发表于 2004-3-1 09:44:40

1)
从文本中抽取实体的名称,并且判断它们的类型(如山脉、学校等),最
后建立一个实体名称词典
→用全文尋技術提取Codes,但可先行作出分類Dics(應先作实体名称词典)
2)
获取这些实体之间的位置关系,最后生成一个数据库,其中的命题形式为“
谓词(entity1, entity2)”。例如,“位于东部(南京,中国)”表示南京位于中
国的东部,其中“位于东部”是一个谓词。
→实体之间的位置关系與邏輯關係可從程式中與Dics中動手(若使用試算表
型式的Dics格試,還可同時運算數值)
2)
如何让电脑知道这是一个地理实词↓
就用分類切分即可辦到。
页: [1]
查看完整版本: 关于分词系统的问题请教各位