湘里妹子学术网

 找回密码
 注册
楼主: Artvine

[分享]漢語分詞標注、眉注、音標與英文詞意對應程式測試

  [复制链接]
发表于 2003-11-14 13:41:59 | 显示全部楼层

检查您的浏览器版本(已经提示过N次了),推荐使用IE6.0!!!

发表于 2003-11-14 14:32:04 | 显示全部楼层

也就是说:)

现在的浏览器版本排斥上声韵?对不?


:-P
 楼主| 发表于 2003-11-14 15:03:39 | 显示全部楼层

Re

老實說我也不懂問題出在哪?只能先檢查I.E.
的語系設定吧。
发表于 2003-11-17 22:53:06 | 显示全部楼层

喂,请问水电工君

您以上的实验做到哪一步来了?
怎么没有消息了呢?
继续加油哦!
 楼主| 发表于 2003-11-18 09:52:00 | 显示全部楼层

Re

這兩天在忙著克服字音轉變與分隔符號的問題。
(不過好像作到的也不多)
與其它研究者的觀念不同,我不思考詞性問題,直接以數理邏輯用窮舉
取代(Replace)的方法來解決。
也請多給些可測試的例子與意見,謝謝!
发表于 2003-11-18 15:31:22 | 显示全部楼层

向水电工先生致敬!

水電工 于 2003-11-18 09:52 写道:
也請多給些可測試的例子與意見,謝謝!


水电先生,不知您还需要哪些可测试的例子?说具体一点儿行吗?也就是说您希望我们如何配合?一定尽力协助。

您严谨的治学精神很是令我辈钦佩!妹子代表论坛所有朋友向您致敬了!



*^^**^^**^^*
 楼主| 发表于 2003-11-25 14:41:55 | 显示全部楼层

可參考這些分詞觀念的討論

汉语分词进一步研究的可行性与必要性探讨?↓
http://www.souwu.com/bitfarmer/t ... 6&TOPIC_ID=4258

[ 本贴由 水電工 于 2003-11-25  14:42 最后编辑 ]
发表于 2003-11-25 14:57:02 | 显示全部楼层

将以上讨论转些有价值的过来看看

calford

新会员

发表总数:9 发表於 - 2003/03/31 15:36:00      
--------------------------------------------------------------------------------
个人认为,目前来看,汉语分词的研究对于多数有志于nlp的研究者来说,没必要继续在此问题上过分纠缠。有以下几个原因:
1、分词的精度困于歧义、人名,地名识别、新词发现等领域,难以突破。问题的解决要依靠语法,语义的解析,而解析的规模,难度要远远大于基于词典的分词算法的实现,依靠个人很难实现。因此,达到100%准确性目前是不太可能的。
2、应用上来说,基于内容的应用,分词精度97%,98%和更高影响很小,加上领域词典的设计,在具体应用领域对后续处理基本没有影响。
3、分词速度也已经令人满意。分词速度无需进行测试,理论证明算法复杂度即可,而且,基于hash映射的分词速度一定是最高的,虽然占用内存大,但不是不可能的,我自己就实现了一个基于hash查找的分词系统。
因此,大家应该把注意力转移到后续的基于内容的处理上来,没有必要在继续纠缠于分词的速度,精度等末节了(对我们大多数来说)

--------------------------------------------------------------------------------------------------------
低维投影

栏目版主

广东
发表总数:131

欢迎大家访问一个网上分词系统,并提出宝贵建议:
http://www.blcu.edu.cn/jsjdepart/lzy/index.html

----------------------------------------------------------------------------------------------------------------
luckybug_lolo

新会员
发表总数:1 发表於 - 2003/05/20 :  21:38:52     

欢迎大家访问一个网上分词系统,并提出宝贵建议:
http://www.blcu.edu.cn/jsjdepart/lzy/index.html

----------------------------------------------------------------------------------------------------
wym

双星会员


辽宁
发表总数:31 发表於 - 2003/05/18 :  21:04:10     
--------------------------------------------------------------------------------
我认为语言的理解不是解题的过程,人与人的交流是遵循一定规则的,犹如计算机之间的通讯要有协议的。语言的理解不是计算出来的,也不是统计出来的,只是一个简单而巧妙的查询过程;即知之为知之、不知为不知。分词不准或不能正确理解语句,只有一个简单原因——就是阅历不够,需加强学习,无任何捷径而言?摆脱常规的束缚,理解语言是一件很简单的事情,难点仅在于如何高效合理的存贮、寻址与利用,把客观世界影射成虚拟的时空。


低维投影

栏目版主


广东
发表总数:131 发表於 - 2003/05/18 :  09:56:30     
--------------------------------------------------------------------------------
“至少给出语句的原作者能够做到100%的分词?”——
不要混淆出题和解题两者。原作者是按语意选词构句的,读者是从句子中分词后理解语意的。如同可以构造一个一元一百次方程,出题者从出题方向可以有准确解,但解题者是无法用代数解出五次以上方程,只能求出近似解。

“一个语句有两种或更多种分词方法是很正常的,犹如多意词一样”这说明问题不在分词技术而在语句上。如量子物理的测不准定律,问题不在方法而在对象上;消息论中也有类似定理。分词是达不到100%的,从目前分词方法的水平看,改进分词方法不如求分词方法的理论上限更有意义。

科学的发现有时是残酷的,敢于接受残酷的科学,才是真正的科学。

wym

双星会员


辽宁
发表总数:31 发表於 - 2003/05/17 :  21:45:11     
--------------------------------------------------------------------------------
此二例都是原作者只知第一种分法,但别人发现的第二种分法导致语意完全相反。

科学的发现有时是残酷的,敢于接受残酷的科学,才是真正的科学。


一个语句有两种或更多种分词方法是很正常的,犹如多意词一样,每种分词结果只能有一种场合相适应,即语境会从中选择最适合的一种分词结果。因此,分词的准确需大语境的帮助?分词是机械的过程,选择是有理智的。学而不思则惘、思而不学则怠、学如逆水行舟、不进则退!


低维投影

栏目版主


广东
发表总数:131 发表於 - 2003/05/17 :  00:11:51     
--------------------------------------------------------------------------------
此二例都是原作者只知第一种分法,但别人发现的第二种分法导致语意完全相反。

科学的发现有时是残酷的,敢于接受残酷的科学,才是真正的科学。

wym

双星会员


辽宁
发表总数:31 发表於 - 2003/05/16 :  21:33:36     
--------------------------------------------------------------------------------
下雨天留客天留人不留
A 下雨天,留客,天留,人不留。
B 下雨天,留客天。留人不?留。

养猪大如山老鼠只只亡
酿酒缸缸好做醋坛坛酸
A 养猪大如山 老鼠只只亡
酿酒缸缸好 做醋坛坛酸
B 养猪大如山老鼠 只只亡
酿酒缸缸好做醋 坛坛酸


我认为对上面例子做到100%应该是可以的,至少给出语句的原作者能够做到100%的分词?去掉词不达意的分词,就是准确的分词--即100%的分词。总之,做到100%的分词需语意的支持,知之为知之、不知为不知、是知也!




低维投影

栏目版主


广东
发表总数:131 发表於 - 2003/05/16 :  18:45:37     
--------------------------------------------------------------------------------
“不要拿特例来攻击他人的系统”。根本是逃避问题!不要说智能系统,一般软件都强调稳定性和健壮性。作为智能系统,更要突出对特例的灵活处理。死机、系统崩溃、攻击网站不都是“特例”惹的祸吗?

quote:
--------------------------------------------------------------------------------
此文由智能计算发表。
我所说的人分词不能达到100%,不是对某句话对于人来有难度。而是在大量文本处理时人有一个平均的差错率。

--------------------------------------------------------------------------------


人的平均差错率是基于人的疲劳:人连续做多位数乘法一万题也有差错,可以原谅;机器算兆亿题都不容许出错。

科学的发现有时是残酷的,敢于接受残酷的科学,才是真正的科学。

Edited by - 低维投影 重新编辑於 2003/05/16 18:46:19

智能计算

新会员


北京
发表总数:7 发表於 - 2003/05/16 :  09:13:06     
--------------------------------------------------------------------------------
这对于人来说,也很难了。去年973年会上,清华的张院士说得再好不过了,“不要拿特例来攻击他人的系统”。我所说的人分词不能达到100%,不是对某句话对于人来有难度。而是在大量文本处理时人有一个平均的差错率,就像古文勘校一样,随扫随有——改正了前人的差错,后人又留下了手误。学界几位老先生曾提倡过分词连写,让所有写汉语的人,分词具有一致性太难了。


低维投影

栏目版主


广东
发表总数:131 发表於 - 2003/05/15 :  23:58:15     
--------------------------------------------------------------------------------

quote:
--------------------------------------------------------------------------------
此文由wym发表。

人工分词也达不到100%----能否举一个例子!



--------------------------------------------------------------------------------


下雨天留客天留人不留
A 下雨天,留客,天留,人不留。
B 下雨天,留客天。留人不?留。

养猪大如山老鼠只只亡
酿酒缸缸好做醋坛坛酸
A 养猪大如山 老鼠只只亡
酿酒缸缸好 做醋坛坛酸
B 养猪大如山老鼠 只只亡
酿酒缸缸好做醋 坛坛酸




科学的发现有时是残酷的,敢于接受残酷的科学,才是真正的科学。

wym

双星会员


辽宁
发表总数:31 发表於 - 2003/05/15 :  20:39:33     
--------------------------------------------------------------------------------
人工分词也达不到100%----能否举一个例子!


智能计算

新会员


北京
发表总数:7 发表於 - 2003/05/11 :  11:06:33     
--------------------------------------------------------------------------------
人工分词也达不到100%,何况计算机。要不你可以看一下北大语料,机器切分加上多种方式校对,包括人工校对,富士通也盖了章验收。还不是有很多错误吗?分词在开放语料中能达到足金品质,还不知需要多长的时间呢?


wym

双星会员


辽宁
发表总数:31 发表於 - 2003/05/07 :  19:23:03     
--------------------------------------------------------------------------------
偶尔一个灵感!分词做到100%准确度,实际很简单。


hanmeizhi

新会员



发表总数:2 发表於 - 2003/05/01 :  09:01:32      
--------------------------------------------------------------------------------
不只大虾们能不能贴个分词算法源代码?


calford

新会员



发表总数:9 发表於 - 2003/04/02 :  16:50:31      
--------------------------------------------------------------------------------
感谢大家的意见。其实我接触自然语言处理,也是从分词开始的。这里,针对江湖隐士的意见,我是这样认为的:
1、词性等相关信息的确定恐怕已经不完全属于分词领域,虽然词性标注最好能和分词结合,而且也应该结合。
2、由于通用分词系统的精度很难保证,分词应该具体到某个领域。这一点我是赞成的。孙茂松教授认为应该对不同的领域应用不同的分词标准。可以将词典分为通用词典和领域词典两个,这样可以大大提高特定领域的分词精度。我想,这样应该可以解决特定领域的分词问题。包括特定领域的人命,地名等,这也是解决人名、地名划分问题的一个手段。
对Dawnsun的意见,我得看法是这样的:
1、我不是说所有的人都不用研究分词了,当然对于那些专门研究分词的专家等,当然是以精度100%做为目标。但分词毕竟是一个手段,而不是目标,如果分词的精度已经可以达到后续处理的需要,大多数以应用做为目标的朋友就没必要纠缠于1%了。目前,基于内容的自然语言处理是潮流,也是目标,通过我们实现的一个中文文本分类系统,我发现瓶颈是后续处理,而并非分词。基于内容的处理的其他方面也是如此。
2、3见前面的第二点。要补充的是如果说你所说得基于内容的理解用的是语法解析等基于规则的手段,那可能分词、包括词性标注的精度会有一定的影响。但目前使用机器学习的方法是主流。
4、你误会了我得意思。我是说如果比较分词速度的话,应该使用理论证明,而非实践证明,即不是说我用什么什么地硬件配置一分钟可以分多少字节的词,而应从理论上证明算法的时间复杂度。




Dawnsun

新会员


其它
发表总数:3 发表於 - 2003/04/02 :  10:04:24     
--------------------------------------------------------------------------------
不太赞同calford的观点,跟各位高手讨教:
1.分词的精度确实困于歧义、未登录词识别等难题难以突破,但没有道理就此避让。若不再“过分纠缠”恐怕达到100%准确性将是永远不可能的了。

2.分词对应用的影响客观地说,应该是不同领域有不同的情况,不一定局限在精度问题上,江湖隐士的第二点分析十分精辟。目前的中文NLP水平和实际需求之间的差距还是很大的,现在还不是奢望通用、智能的时候,我们应该务实一些,分领域从一些具体(甚至于是很局限性的)问题做起,哪怕很不智能,但真正把我们NLP的技术应用于实际,我想这可能是中文NLP智能起来的必由之路。

3.具体到分词精度对基于内容的应用的影响问题,我觉得也应该是不同领域影响不同,但在很多领域(应用)应该说影响是不小的。原因很简单,目前错误的2~3%主要是错在人名、地名、机构团体名等未登录词上,而内容又主要是由人物、时间、地点等要素构成。

4.我不知道calford认为分词在何种软硬件配置上达到什么样的速度便可以无需测试了? 我从不奢望分词速度可以超过应用需求,资源永远都是有限的。

另,很赞同江湖隐士的看法,分词其实任重道远,让我们一起努力吧!


江湖隐士

普通会员



发表总数:26 发表於 - 2003/04/01 :  17:11:58     
--------------------------------------------------------------------------------
是不是应该继续研究分词,我有不同看法:
其一,我觉得应该从分词本身的定义来看,如果单从词形切分来看,目前已经公布的有98%以及99.5%的,若此属实,再研究的意义已经不大,但如果分词把词性、词义、词在句子中的重要程度、以及词在实际环境中和其他词的相关信息等等都包含的话,还有许多工作要做。(目前绝大多数的分词算法都只关注词形)
其二、没有统一的分词标准,这就意味着没有万能的分词。针对不同的领域,对分词的要求大不一样。例如:对于信息检索来说,组合歧义处理不好关系不大,但是对于MT来说就十分关键了。因此我认为面向特定领域的分词研究是目前分词研究的趋势。

;|;|;|

[ 本贴由 monkey-EB 于 2003-11-25  15:07 最后编辑 ]
发表于 2003-11-25 15:06:54 | 显示全部楼层

没办法试

以上提供的两个网址都是“北京语言大学计算机科学与技术“的网上分词系统,都不能进去用,遗憾!还不如进水电工君的网站去玩玩。



;|;|;|

[ 本贴由 monkey-EB 于 2003-11-25  15:10 最后编辑 ]
发表于 2003-12-6 23:22:01 | 显示全部楼层

呵呵,还是碰到问题了:)

水电工君,今天上课想把您的程式调出来给学生展示一下,随便打了下面这句话,结果“分词”结果很不尽人意,您看看,这是怎么了?


在您的程式里显示的结果是:

其实  结  不结   婚   并不是   很重   要的

--------------------------------------------------------------------------------------------------

按词的正确划分应该是:

其实   结  不  结婚   并   不是   很    重要   的

---------------------------------------------------------------------------------------------------------
按语义划分也可以是:

其实   结不结   婚    并   不是   很    重要  的

结不结婚结婚不结婚-----正反并列的联合短语,但是,“婚“又不能独立成词,所以,实际上在这个程式里就会存在字、词、短语的区分问题。而这个问题在现代汉语中也还没有完全解决,这就给做程式的人带来一定的困难。真的不太容易做呢!不知水电工君如何处理?
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-5-13 12:10 , Processed in 0.064507 second(s), 11 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表