No.103 1997年4月

郵便番号データにみる手書き数字認識技術の現状

                    技術開発研究センター主任研究官    堤田  敏夫

 我が国における郵便処理の機械化は、郵便番号と宛て名の自動読み取り区分機の導入によって大きな前進をみたが、先端的な文字認識技術の研究開発がそれらを支える中核的な役割を担ってきた。また、平成10年2月に施行される新郵便番号制では、7桁化する郵便番号読取りのための手書き数字認識技術が改めて重要なものとなっている。
 郵政研究所では、次世代の文字認識技術の醸成と発掘を目指し、特に手書き数字認識に関する現状技術の調査と認識性高度化に向けた基礎的な研究を進めてきた。
1.手書き数字認識技術の評価には、ボールペン、サインペン、万年筆、毛筆等で書かれた様々な字形、書き癖を盛り込んだ評価データを用いており、これらは郵便番号記入枠内の上3桁を対象に約20,000通の年賀ハガキから収集した。
2.第1回、第2回文字認識技術コンテスト(平成3、4年度)と手書き数字認識技術サーベイ(6年度)による調査の結果、優秀アルゴリズムの認識精度S(=リジェクト率+10×誤読率)の最良値は、第1回コンテストの7.9からサーベイにて3.4(正読率98.20%、リジェクト率1.62%、誤読率0.18%)に向上し、極めて高いレベルにあった。また、提出されたアルゴリズムには、文字線(傾き)方向を特徴として捉え、統計的識別関数を用いて文字を認識するものが多かった。
3.高精度実現に必要なアルゴリズム要素をより広い観点から見出すための、特徴抽出17方式と識別11方式の組合せによる延べ185通りの認識実験(平成6〜8年度)の結果、局所的な方向(傾き)成分を伝搬、集積等によって構造化していく特徴抽出法と、主成分分析、多層ニューラルネットワーク等を用いて有意な特徴空間に変換できる識別法とからなる認識アルゴリズムが効果的なものであることがわかった。
4.認識精度が上位のアルゴリズム間に存在する相補正、および現状技術に残された課題といえる誤読、リジェクトパタンの分析から、誤読、リジェクトの約60%は認識アルゴリズム複合化による改善が効率的で、更なる30%の改善には前処理を含めた認識アルゴリズム全般の高度化が不可欠なものと推測できた。これは、現状技術をベースとした積み上げの視点からみたものであるが、新しい文字認識技術創出のための1つのアプローチであると考えられる。