中文电子资源的二次开发与利用

疯狂滴石头 · 发表于 2009-9-26 19:41:58

作者：徐德宽来源：http://www.yyxx.sdu.edu.cn/content/xueshuyanjiu/xueshu2-xdk2.htm

计算机与网络技术的飞速发展使文字的存储与传输发生了根本性的变化，以各种形式存在的电子素材为语言文字工作者和学习者提供了海量的研究资源。如何采用先进的技术手段对这些资源加以充分有效的利用，是摆在语言文字研究者面前的新课题。由于种种原因，目前中文电子资源的文件类型和格式多种多样，很难直接加以利用。另外，不少语言文字工作者对于计算机只停留在应用的水平上，对于如何利用计算机帮助自己进行研究感到很茫然，甚至有一种莫名的畏难心理。

　　本文将作者在中文电子资源二次开发利用方面所经历过的困惑、苦恼、走过的弯路和经过摸索所积累的一点经验，总结出来，供大家参考。

　　本文分为两部分。首先介绍如何将几种常见的非文本形式的文件转换为文本文件的方法以及需注意的问题，然后介绍如何利用ICON编程语言编写程序，利用计算机进行语言学研究。

　　一、将非文本形式的文件转换为文本文件

　　（一）Web文件（*.htm、*.html）：目前互联网上有许许多多以*.htm、*.html格式存在的中文资源，如网络文学、网上报纸、杂志，网上BBS讨论，网上聊天等。这些内容都是进行语言研究的很好的语料。要想将这些文件转换为文本文件，可以利用IE浏览器来进行。先打开IE浏览器的"编辑"菜单，选择"全选"，再打开"文件",选择"另存为"，在"保存类型"一栏中选择"文本文件"，再按"保存"按钮，就可以将文件另存为文本格式。

　　（二）PDF文件（*.pdf）：PDF是英文 "portable documentation file"的缩写，意思是"便携式文件"，是利用Adobe Acrobat制作的特殊格式的文件，有很多电子图书采用这种格式。该类型的文件需要用专门的阅读软件Acrobat Reader来阅读。3将该文件转换为文本文件可以采用以下两种方法：

　　1、先利用转换软件"aerial"（可从http://www.ambia.com 下载）转换为RTF格式，再利用字处理软件（WPS、WORD等）另存为文本格式。

　　2、利用Acrobat Reader打开该文件，?quot;编辑"→"全部选定"→"复制"菜单，然后打开字处理软件（WPS、WORD、记事本、写字板等），建立新文件，选菜单"编辑"→"粘贴"，再保存为文本文件。

　　（三）DynaDoc文件（*.wdl）：该种文件是另一种格式的电子图书。我们可以利用专门的阅读软件Dynadoc Free Reader打开文件，选菜单"编辑"→"选定"→"复制"，然后打开字处理软件（WPS、WORD、记事本、写字板等），建立新文件，选菜单"编辑"→"粘贴"，再保存为文本文件。

　　（四）帮助文件（*.hlp）：目前大多数软件都带有帮助文件，这些帮助文件也是数量可观的语料。可以先利用转换软件Hlp2doc或Hlp2RTF（在"开天辟地"（二）第四张光盘上可以找到这两个软件）将帮助文件转换为WORD文件或RTF文件，再利用字处理软件（WPS、WORD等）另存为文本格式。

　　（五）图形文件（*.gif、*.jpg、*.jpeg等）：先利用图形处理软件（"图画"、"映象"等）打开，再另存为文字识别软件可以识别的格式（如*.bmp、*.tif等），然后再利用文字识别软件（"清华紫光"、"尚书"等）进行文字识别，校对后保存为文本格式。

　　（六）对于用各种字处理软件（如wps、word和cced等）编写的非文本格式的文件，一般可以利用该软件的文件转换功能存储为文本文件。

　　需要指出的是，由于中文字符的特殊性，许多非文本格式的文件在汉字之间加了一个空格，在转换成文本文件时，一般要将字间空格删除，这时，可利用"四通利方"或"中文之星"附带的"文本转换"功能，将空格删除。以中文之星2.97为例，转换的具体方法为：打开中文之星2.97，在菜单栏中按"文本转换"按钮，在"文件来源"对话框中输入欲进行处理的文件名，在"转换结果保存到"对话框中输入保存转换结果的文件名，在"空格处理"下面给出的选项中选中"删除汉字前面的空格"，再按"开始转换"按钮，转换很快就会完成。WPS2000中也附带了空格删除功能。使用方法是：用WPS2000打开欲删除空格的文件，单击菜单栏上的"工具"菜单，在弹出的下拉菜单中单击"文字"，然后再从弹出的菜单中选择"删除空格"，会出现下列画面：

　　这时单击"是（Y）"，汉字之间的空格被删除。

　　二、利用ICON程序语言编写软件进行语言学研究

　　将文件转换为文本形式之后，就可以着手利用计算机对这些资料进行研究了。研究的内容非常广泛，不仅可以采用传统的"笔加卡片"方式进行的研究，如词语、句子摘录，词条排序等，可以方便快捷地通过计算机完成，而且还能完成传统方式所无法完成或很难完成的工作，如各种语言成分的查找、检索、统计，字、词频的统计，将文件以特定的方式（如每小句一行）输出，对字、词按内码、笔画、读音、部首等属性信息进行排序，等等。要使计算机完成上述种种任务，离不开各种应用软件。但是，目前市面上能满足一般语言学研究者进行语言研究需要的软件还不多见，这就要求研究者自己掌握一、两种编程语言，根据自己的需要编写应用软件。

　　由美国亚利桑那大学计算机系开发的ICON语言是一种以字符串和结构处理为特色的程序语言，现在已经有了可以在WINDOWS上运行的版本，而且清华大学出版社已经出版了由张卫国教授编著的《ICON语言教程》，中国读者自学很方便。经过一段时间的学习，笔者已经能够编写一些短小的程序，用来进行学习、研究了。例如，利用收集到的语料，对汉语中的一些特殊句式，如"被"字句、"把"字句，进行研究。具体方法是：首先利用编写的检索软件对语料进行定向检索，把符合条件的检索结果保存为单独的文件，然后可以对这些句式进行结构、搭配、频率等方面的研究。需要指出的是，这样得出的检索结果一般是以行为单位输出的，一行中不一定包含一个完整的句子，这样，许多重要的语言信息就无法发现，因此，可以编写一个程序，使文件以一行一个句子（或小句）的形式排列，然后再进行检索，这样得到的结果就以句子（或小句）的形式输出，我们就可以对特定的语言现象进行更加深入的分析和研究了。

　　下面就简单介绍以下笔者编写的检索程序的使用方法：

　　首先，启动程序，出现下列画面：

　　输入《红楼梦》第一回的文件名hlm1.txt，按回车后，出现下列对话框：

　　请输入欲检索的词语：

　　假如我们想检索"在"，就输入"在"，按回车后,会出现下列对话框:
　　请输入保存检索结果的文件名：
　　输入保存检索结果的文件名hlm1-zai.txt，按回车后，几乎同时出现下列画面：打开文件hlm1-zai.txt，就会发现23个含有"在"的句子。

　　hlm-zai.txt
　　在
　　找到了23个含有"在"的句子！

　　该程序可用来进行连续字符串的检索，而对于不连续字符串（如同时含有"把"和"被"的句子）的检索，可以把检索过程分成两部分，比如先检索含有"把"的句子，存成一个文件，再利用该程序从含有"把"的文件中检索含有"被"字的句子就可以了。

Artvine · 发表于 2009-9-27 09:25:26

PDF轉HTM和TEXT(Exe/232Kb/468Kb)

http://artvine3.org/pdf/pdf2htm.exe
http://artvine3.org/pdf/pdf2txt.exe

P.S.必須於DOS環境使用。

		自动登录	找回密码
密码			注册

中文电子资源的二次开发与利用

相关帖子