Jusqu’à aujourd’hui google n’avait jamais laissé filtrer la moindre information sur ses méthodes de numérisation. Ca n’est plus le cas, grâce à cette vidéo et ce schéma Un synthèse ici en français.
Visiblement, google a pris une structure du robot américain de numérisation Kirtas, en a ôté les appareils photos numériques (canon eos) pour y adapter une caméra infrarouge. Celle-ci d’après les publications, permettrait d’ajuster l’image par rapport à un plan et de la rétablir. En d’autres termes, les courbures de pages dues aux reliures des ouvrages, les papiers chiffonnés, seraient ainsi corrigés. L’avantage ? : améliorer les performances de la reconnaissance de caractères et augmenter donc la pertinence des recherches sur le corpus de google books.
On connait par ailleurs les contraintes du Kirtas, qui ne sait pas traiter les grands formats (supérieurs au A3) et les petits formats ainsi que les documents trop épais ou trop fin. De même qu’on sait que la cadence maximale de la machine ne peut être que rarement atteinte. La vidéo montre bien la nécessité qu’un opérateur assiste le robot afin de s’assurer que les pages sont correctement plaquées par la machine. Cette technologie n’explique pas les cadences de production, mais les performances de l’OCR.
Il est donc fort probable que d’autres machines soient également utilisées par google. Avec les mêmes caméra infrarouge ?