Homshの画期的なブレークスルー:ViT+ArcFace
虹彩認識精度が世界トップレベルに到達
等価エラー率(EER)はわずか0.29%、ROC AUCは理論限界に迫る —
Vision Transformerで虹彩認識の境界を再定義しました
▲ Vision Transformerが虹彩特徴抽出の基盤パラダイムを再定義
I. 今回は、単なる進歩ではない — パラダイムシフトだ
虹彩認識に20年間携わってきたエンジニアに「これまでで最も困難だった問題は何ですか?」と尋ねると、
おそらく彼は少しの間を置いて、「ラバーシート」と答えるだろう。
1993年にJohn DaugmanがIrisCodeアルゴリズムを提案して以来、「ラバーシート展開」プロセスは、世界中の虹彩認識システムのDNAに刻まれた呪文のようなものだった。円形の虹彩を長方形の画像に展開し、Gaborフィルターでテクスチャを抽出する…このワークフローは30年間使用されており、誰も疑問視しなかった。
私たちがそれを捨てると決めるまで。
II. なぜラバーシートは機能しなくなったのか?
Vision Transformer(ViT)は、過去3年間で深層学習分野における最も目覚ましい技術的ブレークスルーの一つである。画像を16×16の「パッチ」にスライスし、言語モデルの自己注意メカニズムを使用して画像のグローバル構造を理解し、長年支配的だった畳み込みニューラルネットワーク(CNN)を複数のトップクラスの視覚タスクで凌駕している。
初めてViTを虹彩認識に適用しようとしたとき、初期の結果は期待外れだった。等価エラー率(EER)は4.65%と高く、期待をはるかに下回っていた。
チームはすぐに根本原因を特定した。ラバーシートは64×512ピクセルの環状虹彩を長方形に「平坦化」し、それをViTに必要な224×224の入力にスケーリングする — 縦方向に3.5倍、横方向に2.3倍のストレッチ。虹彩の自然な放射状/円周方向のテクスチャ構造は著しく歪み、ViTのパッチ注意メカニズムがその意味を認識することを不可能にした。
言い換えれば、私たちは最も賢いモデルに間違った方法でデータを供給していたのだ。
その解決策はシンプルに聞こえるが、従来の慣習を破る勇気を必要とした — ラバーシートを捨て、ROI円形クロッピングに切り替える。虹彩の中心を原点とし、虹彩の自然な空間的対称性を維持するために正方形の領域(半径の2.5倍)をクロップし、それを直接224×224にリサイズしてViTに入力する。これにより、各16×16パッチは、本物の、歪みのない虹彩テクスチャを認識できる。
III. 主要指標:EER = 0.29%、ROC AUC = 0.9999
この単一の前処理ステップの変更は、大きな違いをもたらした:
| ソリューション |
EER |
備考 |
| ラウンド1:ViT + ラバーシート |
4.65% |
従来のワークフロー |
| ラウンド2:CNN + ラバーシート |
2.80% |
バックボーン置換による限定的な改善 |
| ラウンド3:ViT + ROIクロッピング |
~0.12%* |
重要なブレークスルー |
| 最終バージョン:ViT-S/16 + ROI + 正則化 |
0.29% |
本番グレードのソリューション |
*ラウンド3の結果は厳密な統計的検証を受けておらず、楽観的なバイアスが含まれています。
最終的にリリースされたシステムは、ViT-S/16(22.1Mパラメータ)+ ArcFace角度マージン損失を採用し、8つの公開データセットの融合(合計4,480人の被験者/67,704枚の画像)でトレーニングされた。厳密な統計的検証の結果は以下の通りである:
● EER = 0.29%(等価エラー率)
● 95%信頼区間:[0.21%、0.40%](200回のブートストラップリサンプリングラウンド)
● ROC AUC = 0.9999(ほぼ完璧なスコア)
● 平均真正ペア類似度:0.8742(同一人物に対する高い一貫性)
● 平均偽装ペア類似度:0.0450(異なる人物に対する完全な特徴分離)
● FRR=1%で、FAR = 0.00%(高セキュリティ運用ポイントでの偽認識ゼロ)
▲ ROC曲線(AUC=0.9999)と真正/偽装スコア分布 — 2つのピークが完全に分離
IV. トレーニングデータ:大きいだけでなく、多様性も重視
本研究では、業界で最も困難な2つのシナリオを含む8つの公開データセットを融合した:
双子データ(CASIA-Iris-Twins)
200組の双子からの虹彩データ — ほぼ同一の遺伝子であっても、虹彩のテクスチャは完全に異なる。これは、アルゴリズムの識別力を検証するための「究極のテスト」である。
可視光下での制約のないシナリオ(UBIRIS.v2)
518人の被験者から11,000枚以上の画像 — 自然光下で、モーションブラー、ピントボケ、照明変動を伴ってキャプチャされた。これは、実際の展開シナリオに最も近いデータセットである。
トレーニングはApple Silicon M2 Ultra(Mac Studio)で約12.3時間(90回のトレーニングエポック)で完了し、ピーク推論レイテンシはわずか約35ms(ROIクロッピングと特徴抽出を含む)だった。
V. 業界トップクラスのワークとの水平比較
| 方法 |
バックボーン |
前処理 |
EER |
| Daugman IrisCode |
Gabor |
ラバーシート |
~0.10%(制御環境下) |
| UniqueNet(2016) |
Siamese CNN |
ラバーシート |
0.18% |
| IrisFormer(2023) |
ViT-B/16 |
ラバーシート |
0.22% |
| PolyIRIS(2021) |
マルチスケールCNN |
ラバーシート |
(単一データセット) |
| Homsh ViT+ArcFace(本リリース) |
ViT-S/16 |
ROIクロッピング |
0.29%(8データセット) |
▲ 4.65%から0.29% EERへ:4回のイテレーションによる技術進化のパス
VI. 次のステップ
1.クロスデータセット独立評価
トレーニングに含まれていないIIT Delhiデータセットでのブラインドテストにより、実際の汎化能力を検証する。
2.ライブネス検出統合
マルチフレームフラッシュ応答またはテクスチャ分析を組み合わせて、写真再生攻撃から防御し、完全ななりすまし防止システムを構築する。
3.中・長距離虹彩認識
中距離(3m)データを導入し、より長いキャプチャ距離のシナリオに拡張する — 商用実装の次のブルーオーシャン。
4.軽量化とエッジサイド展開
ViT-S/16モデルを<5Mパラメータに蒸留し、リソースが限られたエッジデバイス(NPU/FPGA)に適応させる。
結論:30年の慣習は再検討に値する
Daugmanのラバーシートは、その時代の最適なソリューションだった。しかし、テクノロジーの本質はこうだ。より良いツールが登場したら、古いパラダイムは脇にどくべきだ。
Vision Transformerは、画像認識の基盤となるロジックを変えた。4回の実験と4ヶ月の探求を経て、ViTが虹彩認識でその潜在能力を真に解き放つための正しい方法を見出した — ViTを古いワークフローに適応させるのではなく、ViTに合わせた新しい前処理パラダイムを設計することだ。
EER 0.29%は単なる数字ではない、宣言でもある:
虹彩認識はTransformer時代に入り、Homshはそのスタートラインに立っている。
Homshについて
WuHan Homsh Technology Co., Ltd.(HOMSH)は2011年に設立され、コア虹彩認識アルゴリズムとチップの独立した知的財産権を持つ世界でも数少ないハイテク企業の一つである。そのコアPhaselirs™アルゴリズムと虹彩認識用のQianxinシリーズFPGA/ASICインテリジェントチップは、金融収集、税関手続き、政府証明書発行、軍事セキュリティなどの分野で広く使用されている。