关于分词系统的问题请教各位

sisly 发表于 2004-2-26 13:48:40

小弟现在在做本科毕业设计，题目是一个文本知识挖掘系统，大体要求如下
1)从文本中抽取实体的名称，并且判断它们的类型（如山脉、学校等），最后建立一个实体名称词典
2)获取这些实体之间的位置关系，最后生成一个数据库，其中的命题形式为“谓词
(entity1, entity2)”。例如，“位于东部(南京，中国)”表示南京位于中国的东部，
其中“位于东部”是一个谓词。

现在最主要是的问题是如何让电脑知道这是一个地理实词，比如“徐家汇百脑汇”这样的组合不知道怎么样让电脑区别开来

xychy 发表于 2004-2-27 10:05:58

这个题目确实很大。可以搞小范围实验。我在福州搞项目——智能答问，太忙。没法提供具体帮助。

sisly 发表于 2004-2-29 14:48:20

谢谢楼上各位，我打算从样本库中得到提取规律，然后考虑下一步如何提高识别率:sad:

Artvine 发表于 2004-3-1 09:44:40

1)
从文本中抽取实体的名称，并且判断它们的类型（如山脉、学校等），最
后建立一个实体名称词典
→用全文尋技術提取Codes，但可先行作出分類Dics(應先作实体名称词典)
2)
获取这些实体之间的位置关系，最后生成一个数据库，其中的命题形式为“
谓词(entity1, entity2)”。例如，“位于东部(南京，中国)”表示南京位于中
国的东部，其中“位于东部”是一个谓词。
→实体之间的位置关系與邏輯關係可從程式中與Dics中動手(若使用試算表
型式的Dics格試，還可同時運算數值)
2)
如何让电脑知道这是一个地理实词↓
就用分類切分即可辦到。

页: [1]

湘里妹子学术网's Archiver

关于分词系统的问题请教各位