关于分词系统的问题请教各位
小弟现在在做本科毕业设计,题目是一个文本知识挖掘系统,大体要求如下1)从文本中抽取实体的名称,并且判断它们的类型(如山脉、学校等),最后建立一个实体名称词典
2)获取这些实体之间的位置关系,最后生成一个数据库,其中的命题形式为“谓词
(entity1, entity2)”。例如,“位于东部(南京,中国)”表示南京位于中国的东部,
其中“位于东部”是一个谓词。
现在最主要是的问题是如何让电脑知道这是一个地理实词,比如“徐家汇百脑汇”这样的组合不知道怎么样让电脑区别开来 这个题目确实很大。可以搞小范围实验。我在福州搞项目——智能答问,太忙。没法提供具体帮助。 谢谢楼上各位,我打算从样本库中得到提取规律,然后考虑下一步如何提高识别率:sad: 1)
从文本中抽取实体的名称,并且判断它们的类型(如山脉、学校等),最
后建立一个实体名称词典
→用全文尋技術提取Codes,但可先行作出分類Dics(應先作实体名称词典)
2)
获取这些实体之间的位置关系,最后生成一个数据库,其中的命题形式为“
谓词(entity1, entity2)”。例如,“位于东部(南京,中国)”表示南京位于中
国的东部,其中“位于东部”是一个谓词。
→实体之间的位置关系與邏輯關係可從程式中與Dics中動手(若使用試算表
型式的Dics格試,還可同時運算數值)
2)
如何让电脑知道这是一个地理实词↓
就用分類切分即可辦到。
页:
[1]