当生僻字成为“拦路虎”,是时候让数据多跑路了

2023-05-26 10:34:00    字号:

  据报道,上海有一位胡先生因其名字中有一个生僻字“俈”(kù)而在医院就医时遭遇社保卡信息无法显示,挂号频频失败的困扰。
  报道指出,胡先生的名字中的生僻字“俈”在许多医院信息系统使用的字库中都不存在,因而无法匹配其医保信息。还有些医院,虽然能够挂号,但不能显示胡先生完整的名字,进而影响其住院和费用报销。
  另有医院,由于使用的是其他类型字库,又可以让胡先生顺利挂上号……能不能挂上号,“过程就跟开盲盒一样”。
  后经媒体介入,上海市医疗保险事业管理中心解决了这一问题,胡先生最终可以在上海所有医院正常使用自己的社保卡办理就医手续。
  然而,这并不意味着其余有生僻字姓名的市民不会再遇到类似困难。据不完全统计,中国有约6000万人的姓名中含有生僻字。使用名字的数字服务场景越来越多,比如办理证件和银行卡、各类考试报名、各种网络业务实名认证等等。
  由于国内各地区、行业和行政层级所使用的汉字生僻字字库标准目前尚未统一,各字库之间亦未充分实现数据共享和互联互通,各字库能显示的生僻字各有不同。
  公安部数据库里收录的地址、姓名中的生僻字达3万多个,但多数生僻字缺少计算机系统里的通用编码,无法在数字设备中输入与显示,致使部分市民无法享受相应数字公共服务,给日常生活造成不便。在全面数字化转型的今天,这也形成了一类特殊的数字鸿沟。虽然社会各界都在努力推动生僻字数字化编码,但目前仍面临一些挑战。
  首先,从实际操作层面来看,将一个生僻字实现数字化编码并收录进公共服务信息系统并非一件简单的事情。全流程至少需要经历发现、考证、编码、设计字体字形和推广应用等多个环节。通常,一个汉字从申请到获得国际标准化组织认定的编码,大概需要3年至5年时间。这也是国家工信部等单位一直在推进汉字统一编码工作、新版《信息技术中文编码字符集》也将于今年8月正式实施,但仍无法覆盖所有生僻字的主要原因。
  其次,解决生僻字数字化问题需要花费一定成本。上海一地,每年大约需要600万元来解决新产生的生僻字编码需求。全国其他地区的情况又与上海不尽相同。
  比如某些地方使用生僻字的人员规模不大,因此当地像银行、医院等一些部门缺少动力来投入大量经费将生僻字进行数字化编码,从而导致相关问题久拖不决。
  值得一提的是,即使某个生僻字问题已经在上海范围内解决了编码问题,当相关人员需要跨地区办理一些公共服务业务时,可能还是会遇到无法识别该生僻字的困难。这是由于不同地区、不同单位所使用的字库还没有实现数据共享和互联互通。
  同时,全国各个地区、各级部门所使用字库的信息基础还不一致,标准也不统一,某些生僻字的编码在不同系统中均不一样,存在“一字多码”的问题。
  全国政协委员、致公党上海市委专职副主委邵志清曾经对一些机构和政务服务部门的字库做过调研,发现在户口和居民身份证方面,公安部门建立的公安人口信息专用字库并非公开的技术标准,其他部门无法对接。
  社保和医保的管理部门以及大部分医院使用的又是一个本世纪初的自造字软件,但这个软件现已不再更新。银行等其他机构所使用的字库则更加多种多样,姓名中有生僻字的用户所遭遇的状况就更是五花八门。
  由此看来,要有效解决生僻字数字化矛盾,当务之急还需建立全国通用的汉字生僻字字库,并统一生僻字编码标准、提供行业解决方案,统筹各地方、各部门和各行业共享和使用,进而使得生僻字信息数据能够跨地区“多跑路”,才能方便群众“少跑路”。
  然而,涉及不同地域、不同层级以及不同部门之间的数据整合与互联互通并非短期内就能轻易达成。数据共享中的权责划分、数据安全、收益成本均衡等问题也不是简单通过技术手段就能解决,而是需要一个相对较长的流程再造和标准统一过程,并且还需要一定的人力和物力投入。对此,相关部门有必要尽早考虑设计更加灵活高效的跨区域协同机制。
  与此同时,在全国层面生僻字库互联互通尚未达成之前,各地方也应积极行动,将生僻字数字化作为一项切实的民生工作来抓,积极出台各项弹性措施,协调政务、金融、交通、教育、医疗等相关条线采取行动,为生僻字姓名使用者移除获得公共服务的“拦路虎”,保障其在数字化转型过程中的基本权益。
  (澎湃新闻2023-05-25,澎湃研究所研究员 吕娜)

附件下载

相关链接