85 1995年11月

『日本の手書き文字認識技術に関する現状調査』

―IPTP文字認識技術コンテストの総括報告―

                          技術開発研究センター主任研究官 堤田 敏夫
  1.  郵政事業の機械化は1968年に導入された郵便番号制度に端を発し、文字認識技術の発展に支えられ、これまで300台以上の郵便番号及び宛て名自動読取区分機が設置されるに至っている。一方、近年の人件費の高騰と新郵便番号制への移行計画に伴い、抜本的な郵便読取り性能の向上が不可欠なものとされている。
  2.  郵政研究所では、文字認識技術の現状の把握と将来性のある文字認識アルゴリズムの発掘を狙いとし、平成3年〜5年度に3回にわたる文字認識技術コンテストを実施してきた。第1、第2回は郵便番号用の手書き数字認識技術を、第3回は宛て名町域用の手書き漢字認識技術を対象としており、延べ34の国内外研究機関の参加を得た。
  3.  手書き数字認識技術の現状は、第2回コンテストの優秀機関において、数字単位の正読率97.94%、誤読率0.20%、誤読の少なさを重視した認識精度(10×誤読率+リジェクト率)3.9と高い性能レベルにあった。また、参加機関による認識アルゴリズム高度化により、第1回の最良の認識精度7.1に比べ大きな改善が図られた。
  4.  手書き漢字認識技術の現状は、第3回コンテストの優秀機関において、後処理有りの町域単位の正読率97.95%、誤読率0.17%、認識精度(10×誤読率+リジェクト率)3.6が得られ、町域照合等の後処理を用いることで数字認識と同等レベルにあった。一方、記入枠のない自由書式向けの文字切出し技術を加えた認識精度は、1桁以上低いレベルにあり今後の検討/評価課題が残されている。
  5.  郵政研究所では、より高い認識性能の実現を目指し、異なる認識手法から得た複数の認識結果を組合せ総合判定する認識アルゴリズム複合化方式の研究に取り組んでいる。これまで、手書き数字に対し、ニューラルネットを用いた複合化、手書き漢字に対し候補文字順位の手法間平均による複合化を検討し、コンテスト参加手法間の認識傾向差が少なくはなかったことに着目し上位3手法を用いた複合認識実験を行ってきた。特に手書き漢字認識における町域単位の認識精度は1.1とでき、その有用性が認識できた。