湘里妹子学术网

 找回密码
 注册
查看: 2692|回复: 0

壮语方言词在线语料库检索系统设计

  [复制链接]
发表于 2009-8-15 09:00:56 | 显示全部楼层 |阅读模式
作者:沈向荣     来源:广西语言研究     2009-5-27   


一、软件的可行性和基本功能

1.1 引言:MIS系统介绍

所谓MIS(管理信息系统--Management Information System)系统 ,是一个由人、计算机及其他外围设备等组成的能进行信息的收集、传递、存贮、加工、维护和使用的系统,是一门新兴的科学,其主要任务是最大限度的利用现代计算机及网络通讯技术加强各类信息资源管理,通过对各类资源的调查了解,建立正确的数据,加工处理并编制成各种信息资料及时提供给使用者参考。MIS系统在经济领域广泛应用。当前,MIS系统也开始引入到科研领域,应用在语言研究中。在MIS中,处理的对象是抽象成数据的信息,因此,MIS有着自己的巨大优势:

1、解决结构化问题。
2、高速和量化,避免主观,提高效率。
3、实现一个相对稳定的、协调的工作环境,有利于分工协作。
4、应用科学的、客观的处理方法,符合实际情况。

MIS系统主要有两种。传统的MIS系统的核心是CS(Client/Server——客户端/服务器)架构,而基于Internet的MIS系统的核心是BS(Browser/Server——浏览器/服务器)架构。BS架构比起CS架构有着很大的优越性,传统的MIS系统依赖于专门的操作环境,这意味着操作者的活动空间受到极大限制;而BS架构则不需要专门的操作环境,在任何地方,只要能上网,就能够操作MIS系统。这也就给交互式信息的产生创造了先决条件。使得通过互联网的信息传递更加的便捷。

1.2可行性分析

MIS系统的飞速发展,技术的成熟以及应用领域的不断扩大,为网上信息的交互提供了一个良好的平台和方便的操作界面。由于MIS系统基于用户需求的设计方法,使得该系统的使用更加的人性化、个人化、更贴近用户。壮语方言词在线语料库检索系统是根据壮语研究的需要设计的。本系统开发的目的是为了壮语研究者能够更加方便的进行壮语语言描写、方言比较研究和壮汉语历史比较研究,还可以作为壮语词典编纂和汉语方言调查的重要辅助工具。与传统的手工比对和各自为战的壮语研究相比,MIS系统的应用可以使语言研究者的合作更加方便,语言材料的利用更加快捷。

1.3基本功能概述

本系统具有如下基本功能:

·身份验证:对系统使用者身份进行确认从而分配不同的权限。主要分为系统管理员、管理员和普通用户。
·系统维护:系统管理员可对语言基本数据进行校验、修改和代码管理、用户管理、日志管理以及备份/恢复系统数据。
·事务处理:提供给用户在语言数据种类范围类任意选取的操作
提供给用户检索、筛选、提取语言数据的操作
提供给用户统计语言数据的操作
提供给用户语言数据表格和其他输出的操作(打印/存储)
·辅助功能:提供给用户每种方言的语音系统介绍
提供给用户输入输出音标系统操作
汉语方言调查表和古今语音对照表查询
·其它事项:根据数据库系统设计和用途的原因,本系统限制普通用户对系统自带数据进行增删改

为了用户处理自己的数据,系统也提供了自定义数据库的功能,可自由添加数据

二、数据流程和数据结构设计

2.1数据流程图

数据流程图是程序内部各模块之间逻辑关系的直观表达。本系统主要采用动态网页,在系统相关说明部分使用静态网页。利用ASP与数据库结合的技术建立数据库查询管理系统,采用交互式的动态的web画面来实现。其结构流程图如下:

2.2数据库结构系统设计

本数据库应用的数据项涉及多种数据类别,包括方言名称、语音词条、音节、声母、韵母、调类、汉义等等。本设计的目的是对“壮语方言词语料库”所汇集的数据进行组织和管理,其核心是设计数据库的结构。壮语方言数据本身并不复杂,但要进行各方言点的比较研究以及与汉语进行历史比较就显出了复杂性的一面。这就需要对数据关系进行分析,从软件工程的角度进行数据结构设计。因此,设计过程中必须考虑数据库、数据库记录和属性字段的可拓展性,必须考虑软件系统的可移植性。鉴于以上考虑我们定义了以下数据库:

检索库:存放与不同的词典和调查者信息以及词典中的汉义和义类等唯一检索属性。
语言库:存放壮语方言词条以及各词条的相关信息。
控制库:存放系统维护相关控制信息。
辅助库:壮语方言比较研究和壮汉历史比较研究相关的各项辅助数据。
用户库:存放各级用户相关资料信息。
自定义库:存放用户自定义的数据资料和输出结果。
本项目的数据结构可根据不同的功能的数据库描述如下(只详列主要的数据库):

1、检索词典库(主控库)

数据库名:DIC_C.MDB,别名:汉义词条库

功能:提供汉语词条以及语义类别检索入口,输出多种壮语方言检索结果的汉语意义。
该库包括一个词典数据表、一个方言点数据表、一个调查者数据表和多个词条数据表。数据表可不断添加,目前有两个词条数据表,词条分别来自《壮语通用词与方言代表点词汇对照汇编》和《壮语方言研究》。词典数据表为DIC_C,方言点数据表DIC_L,调查者数据表为:DIC_I,词条数据表命名规则为:DIC_C数字,表结构如下:

数据表名:DIC_C    别名:词典信息表
词典信息表包括编号、书名、作者、出版社、出版时间、方言点6个字段。
字段名
标题
类型
宽度
说明
DICID
编号
文本
2

BOOK
书名
文本
50

AUTHOUR
作者
文本
20

PRESS
出版社
文本
50

DATE
出版时间
日期
10

LOCA
方言点
文本
200
方言点2 调查者2,多项用逗号分隔。

数据表名:DIC_L    别名:方言点信息表
方言点信息表包括标题、编号、方言点、备注4个字段。
字段名
标题
类型
宽度
说明
LOCID
编号
文本
2

ADDRESS
方言点
文本
10

MEMO
备注
文本
50


数据表名:DIC_I    别名:调查者信息表
调查者信息表包括标题、编号、调查者、简介4个字段。
字段名
标题
类型
宽度
说明
INVEID
编号
文本
2

NAME
调查者
文本
10

INFO
简介
文本
60


数据表名:DIC_C01    别名:汉义词条一表
汉义词条一表包括标题、编号、意义类型、通用壮语4个字段。
字段名
标题
类型
宽度
备注
WDID
编号
文本
9
词典2 方言点2编号5
M_TYPE
意义类型
文本
3
(暂缺)后续版本提供
ZH_TY
通用壮语
文本
18
(暂缺)后续版本提供
CHINESE
汉义词条
文本
30
出自《壮语通用词与方言代表点词汇对照汇编》

数据表名:DIC_C02    别名:汉义词条二表

汉义词条二表与一表结构相同,也包括标题、编号、意义类型、通用壮语4个字段。
字段名
标题
类型
宽度
备注
WDID
编号
文本
9
词典2 方言点2编号5
M_TYPE
意义类型
文本
3
(暂缺)后续版本提供
ZH_TY
通用壮语
文本
18
(暂缺)后续版本提供
CHINESE
汉义词条
文本
30
出自《壮语方言研究》

以上数据表中,编号字段是主键,它们之间的关系是:汉义编号(WDID)=词典编号(DICID)+方言点编号(LOCID)+顺序编码(5位)。另外,词典信息表的方言点字段值是这部词典收集的各个方言点的编号集合,每个词典方言点编号由这个方言点的方言点编号和调查者编号各两位数字组成。即:词典信息表的方言点字段值={词典方言点编号1,词典方言点编号2,词典方言点编号3,…}={ LOCID + INVEID,LOCID + INVEID, LOCID + INVEID,… }

2、语言信息库

DIC_Z.MDB,别名:壮语方言库
功能:提供壮语方言词条及词条的相关信息。
该库包括多个方言词条数据表。每个方言点作为一个方言词条数据表,命名规则为:DIC_Z数字,表结构如下(仅举一例):
数据表名:DIC_Z01,别名:壮语方言词一表
字段名
标题
类型
宽度
备注
WID
编号
文本
9
词典2 方言点2编号5
ZH_FY
壮语方言
文本
18

IPA
国际音标
文本
18

PAGE
页码
文本
16

SYN
同义词条
文本
50
出自《壮语通用词与方言代表点词汇对照汇编》
S1
第一音节
文本
9

S1_INITIAL
声母1
文本
4

S1_FINAL
韵母1
文本
4

S1_TONE
声调1
文本
1

S2
第二音节
文本
9

S2_INITIAL
声母2
文本
4

S2_FINAL
韵母2
文本
4

S2_TONE
声调2
文本
1

S3
第三音节
文本
9

S3_INITIAL
声母3
文本
4

S3_FINAL
韵母3
文本
4

S3_TONE
声调3
文本
1

WLEN
词长
整型
20


壮语方言词表的编号与检索词典库中的汉义词表的汉义编号具有一一对应关系,并以此字段建立检索总库和方言词表的联系。

3、控制库

数据库名:CTL.MDB,别名: 系统管理库
包括数据表操作信息以及界面风格相关信息。
数据表名:CTL_DB,别名:数据操作表
字段名
标题
类型
宽度
备注
ACT
行为
文本
10

SQL
操作码
文本
128

NOTE
提示
文本
128

ERR
错误处理
文本
128


数据表名:CTL_STYLE,别名:样式定义表
字段名
标题
类型
宽度
备注
CSS
样式
文本
10

CODE
代码
文本
128

PS
注释
文本
20



4、用户库
数据库名:USR.MDB,别名: 用户信息库
字段名
标题
类型
宽度
备注
UID
编号
整数
4
自动编号
UNAME
用户名
文本
10

UPSW
密码
文本
128

GRADE
权限等级
整数
1
0,1,2分别表示普通用户、管理员和系统管理员

5、辅助库

数据库名:SEC.MDB,别名: 辅助信息库
包括古今音对照表和汉语方言调查表。
数据表名:SEC_FY,别名:方言调查字表
字段名
标题
类型
宽度
备注
ID
编号
整数
4
自动编号
CHR
字符
文本
10

MI
声纽
文本
128

MF
韵目
文本
2

MT
中古调
文本
2

MS

文本
2

MQ
清浊
逻辑
1
TRUE,FALSE分别表示清浊
PAGE
页码
整型
2

MEMO
注释
文本
20



6.自定义库

由用户自己创建,结构不限。

三、界面设计和软件特点
3.1界面和开发环境

1、用户界面

壮语方言词语在线语料库检索系统的界面设计力求做到简洁美观使用方便,下面就主要的系统界面做简单介绍。

1)登陆界面。在系统初始化界面之后的第一个界面。目的是根据用户身份不同分别赋予不同的用户权限。未注册用户可以点击注册按纽进行注册。
2)管理界面。包括后台登陆界面和后台数据维护界面。下面分别是后台管理登录界面和数据维护界面中的语料库表添加的画面截图。


3)查询界面

壮语方言词语在线语料库检索系统的信息查询界面分为单词典检索、单语言点(多词典联合)检索和多语言点(多词典联合)检索,仅以多语言点检索界面为例,其他查询界面与此类似。
4)用户录入界面

界面与后台管理员数据维护相似,所不同的是操作对象用户自定义库。

3.2开发工具/环境

(1)WindowsXP
(2)Microsoft Visual Basic/VB.net
(3)Microsoft excel 2003
(4)Microsoft Access 2003
(5)云龙国际音标输入法3.1(包括IPAPanNew.ttf字体)
(6)Asp/Asp.net

3.3属性

1、可维护性:系统设有数据备份和恢复功能,系统管理员定期对数据进行备份,并随时进行系统重索引和紊乱恢复。要求数据操作直观、方便,易于维护和管理。

2、可拓展性:设计数据库添加模块,可对数据库进行拓展。并提供统一的数据库格式化加工程序。

3、可使用性:用户界面友好直观,使用方便,无须专门学习,同时具有完善的查询和统计功能。

4、安全性:系统用于网络时,限制非登陆用户使用;用户采用权限分级,一般用户仅具有浏览、检索、打印、存储的权限;限制用户直接进入数据库,防止数据紊乱或遭破坏。

5、结构合理性:要求系统数据库设计合理,反映实际数据关系。

参考文献

1.广西区民语委研究室,《壮语通用词与方言代表点词汇对照汇编》,广西民族出版社,1998年10月第1
2.丁声树、李荣,《古今字音对照手册》,中华书局,1981年1
3.中国社会科学院语言研究所,《方言调查字表》,商务印书馆,1982年12月第1
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-4-29 05:50 , Processed in 0.106672 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表