查看: 361|回复: 0
打印 上一主题 下一主题

互联网时代的文字错讹

[复制链接]

688

主题

688

帖子

2074

积分

金牌会员

Rank: 6Rank: 6

积分
2074
跳转到指定楼层
楼主
发表于 2019-3-2 23:25:11 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
近日,在网络媒体上读到一篇学术论文,其中引用《大唐新语》" 终南捷径 " 的典故说:"(卢)藏用指终南山谓之曰:‘此中大有佳处,何必在远!’(司马)承祯徐答曰:‘以仆所观,乃仕宦快捷方式耳。’ " 继而搜索 " 终南快捷方式 "," 百度汉语 " 里竟然收有这一词条,释义依据即是《大唐新语》。" 终南快捷方式 " 显然是 " 终南捷径 " 之误,这个错讹在许多严肃的学术著作里屡见不鲜,叶圣陶先生 1914 年发表过一篇文言小说《终南捷径》,也被有些研究者误作《终南快捷方式》。
究其原因,这一错误的产生与汉语词汇的繁简转换有关。由于计算机专有名词 shortcut 在内地和港台的翻译不同,内地译作 " 快捷方式 ",港台译作 " 捷径 ",因此在对这类译词进行繁简转换时,即使上下文不涉及翻译用语,也会出现繁体字 " 捷徑 " 变成简体字 " 快捷方式 " 的现象。

时值毕业季,在审读各类论文时发现,除了单个汉字繁简转换不对应的常见错误(比如 " 皇后 " 误成 " 皇後 "、" 千里 " 误成 " 千裏 "),整个词语转换时发生的错讹也大量存在,其中 " 终南快捷方式 " 这类由繁转简的讹变相对较少,更多的是由简转繁时带来的讹误,如:资料→數據、信息→資訊、申请项目→申請專案、数字化→數位化。更有甚者,如海内存知己→海記憶體知己、卜算子→卜運算元、途中奔驰→途中賓士、鲁隐公元年→魯隱西元年。" 资料 " 变成 " 数据 "、" 信息 " 变成 " 资讯 " 还并不影响文意,但 " 海内存知己 " 变成 " 海记忆体知己 " 就会让一般读者感到莫名其妙。这些错误的发生可归因于内地与港台对同一事物的称名不同,尤其涉及译名分歧最多,于是按词繁简转换时就会出现错误的关联。类似现象,江庆柏先生《电脑自动转换中文简繁字产生的问题》(《古籍整理出版情况简报》2014 年第 1 期)一文已有揭示,但未引起足够重视,各类出版物中繁简转换错误层出不穷。
实际上,互联网时代的文字错讹,除了繁简转换之误,还有不少新的衍生类型。例如,因电脑、手机输入法产生的错讹。现今最常用的是拼音输入法,由于输入拼音后在候选项里会有多组备选字词,在选取时因操作不慎或者判断失误,会导致文本中音近讹字的出现。同样,使用形码输入法,如五笔字型输入法,以及手写输入法等,会导致形近讹字的出现。
此外,还有一类非常特殊的错讹,因九宫格输入而产生。九宫格是手机拼音输入法最常用的一种键盘布局,将 ABC …… XYZ 等 26 个字母分布在 8 个键位上,这样一来,比如拼写 " 早上 " 和 " 晚上 " 是完全相同的键位,在备选词里又毗邻,容易导致 " 早 "" 晚 " 混用的情况,这类不涉及汉字形音义关系的错误关联在传统书写中不会发生。
再如,因 OCR(Optical Character Recognition,光学字符识别)产生的错讹。OCR 的原理就是通过扫描纸本等载体上的文字,确定其形状,然后根据计算机程序进行匹配识别转译成字符。简而言之,就是把图像上的文字转换成文本字符。OCR 软件在许多领域应用广泛,如果识别的对象本身是规范的排版文本,识别率非常高,人工校读也简便易行。但是在涉及古籍文本时,就容易发生形近而讹,加之人工校读不仔细,会遗患无穷。比如几年前,在全国各地售卖糖炒栗子的包装上,常会看到板栗简介中援引《诗经》的 " 树之棒果 "," 棒果 " 是 " 榛栗 " 之讹,通过查检发现,这可能是某篇学术论文在 OCR 时发生的错误,导致网上关于板栗的简介以讹传讹,最终传播到了大众生活中。

汉语文献的文字讹误类型,以形近而讹和音近而讹为主,从文字的书写主体即人自身来看,形近而讹主要与视觉判断有关,音近而讹主要与听觉判断有关。
笔者在以往的研究中还发现,书写对象的特点也会带来一定的影响。比如汉字中形声字数量庞大,尤其进入楷书阶段以后,形声字比例大增,到了南宋已占汉字的 90% 以上,大量形声字的存在,使得同一声旁且形旁相近的文字最易发生讹混。如 " 杨(楊)" 与 " 扬(揚)",皆从 " 昜 " 声,而形旁 " 木 " 与 " 扌 " 相近,整个字形尤为相似,且读音相同,字义也多存相关性,于是在书写与传抄过程中,极易发生异变与混同。汉语中的讹字、异体字、通假字的孳生往往与形声字这个特性有关。如今电脑拼音输入法产生的错误,也是这一历史问题的延续与变体,有时看似操作不慎,其实是因为受到形声字这一特性的干扰。再者,汉字的结构特点与书写习惯也会影响文字的正误,如古人直行竖写,就会发生《战国策》中 " 触龙言 " 被写成 " 触讋 " 的错误。
可见,传统文字错讹的原因主要在两个层面:一是书写主体(书写者)判断疏失,一是书写对象(汉字、文本等)特性干扰,但是前文例举的错讹 " 终南快捷方式 "、" 早 "" 晚 " 混用、" 树之棒果 " 等,已超出了这两个层面,它们有个共同之处,都和新型的书写媒介有关。无论是繁简转换,还是九宫格输入、OCR 文字识别,错误的发生,都在这些中间环节。这让我们意识到,互联网时代书写主体和书写对象之间还存在着一个机器智能的媒介,新型文字错讹本质上是机器智能带来的副作用,要化解机器智能的不足和局限,只有不断提升技术工具性能,并且增加人工干预。

面对新型文字错讹,总体而言,要大力发展信息技术,如人工智能、大数据、构建知识关联来解决新时代的新问题。以前文例举的几种错讹类型而言,如繁简转换,可以在 word 软件里关闭 " 转换常用词汇 ",只按字转换,不按词转换。由于一个简体字对应多个繁体字,由繁转简时,一般较少出现讹误,这种方法能够有效规避 " 終南捷徑 " 转成 " 终南快捷方式 " 的问题。但是由简转繁,这种方法又会带来不少繁简单字不对应的错误,必须辅以严格的校对。另一方面,需要通过更新技术手段解决词汇在转换过程中带来的关联错误,比如在计算机中建立繁简词表,并标明具体对应的时间与地域信息,如是中国古代的繁体字词,还是港台当代的繁体字词,进而构建历时性的繁简词库与共时性的繁简词库。至于九宫格输入、OCR 文字识别等新型错讹,目前除了技术革新,比如基于大数据的聚类分析,恐怕还得依靠人工校正。
当然,最彻底有效的规范手段,是加强语言文字知识的普及教育,从文字使用者角度树立规范与责任意识,防患于未然。


收藏收藏

这是一种鼓励!你懂的~

×

打赏支付方式:

打赏

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则





亲,赶快加入我们吧!
X
0512苏州网X

0511.net镇江网 分享生活 温暖你我

0511.net镇江网|镇江大小事,尽在镇江网! 镇江网由镇江亿速网络科技有限公司组建。镇江网汇集了镇江本地新闻信息,视频专题、国内外新闻、民生资讯、社会新闻、镇江论坛等。镇江网是镇江地区最具影响力的综合性门户网站,是镇江人浏览本地新闻的首选网站。...

点击查看详情 
快速回复 返回顶部 返回列表
友情链接