一种方言同音字汇自动生成系统

文档序号:27912628发布日期:2021-12-11 10:00阅读:942来源:国知局
导航: X技术> 最新专利> 计算;推算;计数设备的制造及其应用技术
一种方言同音字汇自动生成系统

1.本发明涉及文字处理技术领域,具体涉及一种方言同音字汇自动生成系统。


背景技术:

2.中国是方言大国,每种方言都有自己独特的语音系统,整理每种方言的语音系统是方言调查的基本任务。方言同音字汇,简单来说就是一本按方言韵母、声母、声调查字的语文工具书。可以方便地供方言调查者进一步记录语音材料(例如,变调、儿化、轻声、音变等),整理方言的词汇和语法,进行方言语音系统以及古今语音演变的研究;也可以供讲方言的人对照学习普通话;对其他方言区的人了解、学习该方言也有帮助。因此,研究方言的人非常看重“同音字汇”。但是“方言同音字汇”的制作相当困难,传统是采用做卡片的方式,做好一本同音字汇需要很长时间,稍有不慎,就会出现偏差,是一项费时费力的工作。可以说,“方言同音字汇”的制作,已成为制约加速方言调查工作的“瓶颈”。因此,基于计算语言学知识,通过计算机自动生成“方言同音字汇”是一项意义深远的任务。
3.随着科学研究的交叉融合渗透,相关领域研究人员开始利用计算机辅助方言的调查与研究,以减轻方言调查者的工作量。在“同音字汇”自动处理方面,相关研究工作主要有以下三个方面。
4.上海师范大学潘悟云利用visual foxpro开发了一个“汉语方言计算机处理系统”,在该系统的第四个功能“方言音系分析”中,可调入按一定格式建立的visual foxpro数据库字表,生成同音字表。但是用户在使用中必须严格采用该系统所规定的vfp数据库格式,否则即会出现运行错误,并且要求数据库中一定要有汉字、中古声母、中古韵母、中古声调等14个字段
1.。此外,该软件最终生成的同音字表虽然按韵、声、调的顺序对同音字进行了排序,但每一组同音字都有声、韵、调三个属性,离生成文本形式的同音字汇“竖排表”还有一定的距离。
5.广西民族大学海柳文
2.利用visual foxpro开发的“汉语方言民族语言语音材料处理软件”。在进行“同音字汇排序”时,该系统只能按英文字母的音序进行排序,因此影响了同音字汇生成的精度。
6.广西师范大学刘村汉
3.基于excel开发的“方言字音处理系统”,在生成同音字汇时,要进行复杂的公式运算,操作一不小心,就有可能出错。加大了对计算机不熟悉的方言调查者学习和操作的难度。
7.以上软件在同音字汇自动生成方面做出了有效的尝试,并且取得了一定的效果,但它们在用户可用性、用户体验以及准确率上仍然有待提升。


技术实现要素:

8.针对现有技术的不足,本发明旨在提供一种方言同音字汇自动生成系统。
9.为了实现上述目的,本发明采用如下技术方案:
10.一种方言同音字汇自动生成的系统,具体包括:
11.数据读入模块:用于从数据库中读入目标方言的字表及id、字目、声、韵、调五个字段的信息,自动分析出目标方言的声、韵、调系统;
12.排序模块:用于供用户对数据读入模块分析出的声、韵、调系统的排序依据进行设定,并根据用户设定的排序依据对声、韵、调系统进行排序,如果用户没有对排序依据进行设定,则采用默认的排序依据对声、韵、调系统进行排序;
13.同音字汇竖排表生成模块:用于对排序模块得到的排序结果,过滤掉相同的声、韵、调,即所有属于同一个韵母的字,韵母只表示一次;所有属于同一个声母的字,声母只表示一次;所有属于同一个声调的字,声调只表示一次,最终生成同音字汇竖排表。
14.进一步地,上述系统还包括有数据库,用于当用户没有自行建立 access或者excel数据库来存储字表时,供用户从文档中复制字表到所述数据库中。
15.进一步地,数据读入模块可与用户自行建立的access数据库挂接,并自动加载该数据库的字表和字段。
16.进一步地,数据读入模块可与用户建立的excel表挂接,自动加载字表和各个字段。
17.进一步地,所述默认的排序依据为:声母按发音部位排序,韵母按开口度排序,声调按平、上、去、入排序,韵母相同的,按声母排列,韵母和声母都相同的,再按声调排列。
18.进一步地,排序模块对声、韵、调系统进行排序的过程为:
19.依据韵、声、调的排序依据规定的韵、声、调优先级,得到韵、声、调的所有排列组合,按顺序对于每个韵、声、调的排列组合依次使用stryun[m]==stryun_type[i]&&strsheng[m]== strsheng_type[i]&&strdiao[m]==strdiao_type[k]检测字表中的每个字目m的声strsheng、韵stryun、调strdiao是否符合该条件,stryun_type[i]、strsheng_type[i]、strdiao_type[k]分别表示本次检测针对的韵、声、调排列组合中的韵、声、调,当某个字目均符合上述条件,则跳出本次检测并加入到结果集中。
[0020]
本发明的有益效果在于:本发明根据用户事先给定的韵、声、调排序依据和排序顺序,对已经录入的方言字表进行排序,排序技术采用对应韵、声、调与字表所有字目的一个四重循环,最终生成“同音字汇竖排表”,能很好的满足方言调查实用化的需求。
附图说明
[0021]
图1为本发明实施例的系统运行流程示意图;图2为本发明实施例的排序循环流程图。
具体实施方式
[0022]
以下将结合附图对本发明作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本发明的保护范围并不限于本实施例。
[0023]
现有的同音字汇软件都是利用visual foxpro数据库或excel 进行排序,而visual foxpro数据库或者excel的排序主要是针对英文字母,由于国际音标的集合远远大于英文字母,且排列与英文字母不同,所以排序的时候会有很多困难。
[0024]
基于此,本实施例的方言同音字汇自动生成系统中,数据库只用于存储,从数据库
中读取所需要的数据信息后,所有运算都用程序进行,所采用的程序开发语言为c#和dephixe,数据库为 access(2003/2007)、excel(2003/2007)。采用c#和dephixe的一个重要原因是它们都支持unicode编码,因为常用的国际音标基本上是大字符集,大都是unicode编码的,例如“云龙国际音标”。采用access 与excel作为数据库的原因有三个:一是支持unicode编码;二是 access与excel作为microsoft office的系统程式,在windows系统上的安装非常容易,为大多数用户所熟悉;三是它们使用简单方便,可移植性非常强,小巧灵活,用来存储方言字表绰绰有余。
[0025]
如图1所示,本实施例的方言同音字汇自动生成的系统的运行流程大致如下:从数据库中读入目标方言的字表及“id(索引)、字目、声、韵、调”五个字段的信息

自动分析出该方言的“声、韵、调”系统

用户对自动分析出的“声、韵、调”排序

根据用户要求的“声、韵、调”顺序对字表进行排序,如用户没有指定顺序,将按默认的顺序排序

过滤掉相同的声、韵、调

生成同音字汇竖排表。
[0026]
更具体地,本实施例提供的一种方言同音字汇自动生成的系统,具体包括:
[0027]
数据读入模块:用于从数据库中读入目标方言的字表及id(索引)、字目、声、韵、调五个字段的信息,自动分析出目标方言的“声、韵、调”系统;
[0028]
后续分析所需要的数据有两个,一个是方言调查者在记音调查后得到的字表,这个字表用国际音标记录了每一个字目的“声”“韵”“调”三个属性。本实施例的数据读入模块提供了三种方式读入这些数据。
[0029]
第一种方式:本实施例系统还提供有数据库,当用户没有建立自己的access或者excel数据库来存储字表时,用户可以从word、txt 等文档中复制字表到本实施例系统提供的数据库中。
[0030]
第二种方式:如果用户的字表存储在自己建立的access数据库中,本实施例的数据读入模块则可以与之挂接,并自动加载该数据库的字表和字段,用户可以很方便地通过下拉框选择字表和字表中的各个字段。
[0031]
第三种方式:如果用户的字表存储在excel表中,本实施例的数据读入模块中也可以与之挂接,自动加载字表和各个字段。
[0032]
当数据读入模块读入方言调查字表后,便能自动分析出该方言的声、韵、调系统。
[0033]
排序模块:用于供用户对数据读入模块分析出的“声、韵、调”系统的排序依据进行设定,并根据用户设定的排序依据对“声、韵、调”系统进行排序,如果用户没有对排序依据进行设定,则按默认的排序依据进行排序。
[0034]
本实施例系统所需要的第二个数据就是方言调查者在分析得出的声、韵、调系统的基础上提供的顺序表。通常,声母是按发音部位排,韵母按开口度排,声调是按平、上、去、入排,因每个方言点的语音系统都不相同,一般来说,应由用户即方言研究者自己设定。字目的“声、韵、调”三个属性,如果按不同的方式进行组合,可以有六种排序方式。如果用户没有对声、韵、调的排序依据进行设定,排序模块将按默认的“韵、声、调”顺序排列,韵母相同的,按声母排,韵母和声母都相同的,再按声调排。
[0035]
为了便于说明,现在假设有一个方言字表,它有24个字目,具体见表1。
[0036]
表1 方言字表
[0037][0038]
假定调查该方言的学者给出的韵、声、调排列顺序如表2所示。
[0039]
表2 韵、声、调顺序
[0040][0041]
则整个排序过程将采用韵、声、调的排序依据再加上字表所有字目的四重循环。循环流程图如图2所示。
[0042]
通过对表1进行分析可知,上述方言字表共包含5种韵母、5种声母、6种声调以及24个字目,其排列顺序如表2所示。
[0043]
依据韵、声、调的排序依据(如表2所示)规定的韵、声、调优先级,得到韵、声、调的所有排列组合,按顺序对于每个韵、声、调的排列组合依次使用stryun[m]==stryun_type[i]&&strsheng[m] ==strsheng_type[i]&&strdiao[m]==strdiao_type[k]检测字表中的每个字目m的声strsheng、韵stryun、调strdiao是否符合该条件,stryun_type[i]、strsheng_type[i]、strdiao_type[k]分别表示本次检测针对的韵、声、调排列组合中的韵、声、调,当某个字目均符合上述条件,则跳出本次检测并加入到结果集中。全部检测执行完后得到的结果如表3所示。
[0044]
图2中“stryun[m]==stryun_type[i]&&strsheng[m]== strsheng_type[i]&&strdiao[m]==strdiao_type[k]”一句表示,当字表中的某个字目的声(strsheng)、韵(stryun)、调(strdiao)在检测中符合条件的时候。
[0045]
在表3中,所有的字目都按韵、声、调的顺序进行了排列,其中 id为24的“惹”字没有与之同音的,排序模块把它当作同音字的一种特殊情况,也自动进行了排序。
[0046]
表3 按韵、声、调排序后的字表
[0047][0048]
同音字汇竖排表生成模块:用于对排序模块得到的排序结果,过滤掉相同的声、韵、调,即所有属于同一个韵母的字,韵母只表示一次;所有属于同一个声母的字,声母只表示一次;所有属于同一个声调的字,声调只表示一次,最终生成同音字汇竖排表。
[0049]
排序模块生成的同音字汇是一个表格的形式,每个字都有声、韵、调三个属性,不利于观察和使用。因此同音字汇竖排表生成模块就是要把相同的“声、韵、调”属性过滤掉,即所有属于同一个韵母的字,韵母只表示一次;所有属于同一个声母的字,声母只表示一次;所有属于同一个声调的字,声调只表示一次。最后生成的同音字汇形式是一个文本,叫同音字汇竖排表。前面表1中提供的24个字目的字表最终生成的同音字汇竖排表见表4。
[0050]
表4 同音字汇竖排表
[0051][0052]
至此,同音字汇的生成工作全部完成。
[0053]
对于本领域的技术人员来说,可以根据以上的技术方案和构思,给出各种相应的改变和变形,而所有的这些改变和变形,都应该包括在本发明权利要求的保护范围之内。
完整全部详细技术资料下载
当前第1页 1  2 
相关技术
  • 一种订单管理方法和装置
  • SQL语句的处理方法、装置、...
  • 数据处理方法、装置、计算机系...
  • 一种多能互补分布式能源系统综...
  • 云计算资源的分配方法、装置、...
  • 基于H5页面的数据处理方法和...
  • 联邦学习的后门攻击防御方法及...
  • Top-k集合空间关键字近似...
  • 一种解决量测信息存在随机时延...
  • DAO层降级方法和装置
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1

PHP网站源码坪地网站优化按天扣费吉祥阿里店铺托管盐田百度关键词包年推广福田网络广告推广盐田设计公司网站大芬网站推广横岗阿里店铺托管平湖网站推广系统东莞网站排名优化塘坑百度竞价荷坳网页设计丹竹头外贸网站制作双龙百度标王西乡英文网站建设塘坑百度爱采购同乐关键词按天计费丹竹头百度竞价包年推广松岗企业网站改版同乐网站优化排名深圳营销网站沙井网页制作荷坳SEO按天计费罗湖设计网站龙岗推广网站宝安网站优化丹竹头关键词按天收费永湖网站优化按天扣费福田建设网站光明网站设计模板石岩网站关键词优化歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

PHP网站源码 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化