Optimizing Document Processing Pipeline for Parsing Receipts in the Wild

Show simple item record

dc.contributor Moyà Alcover, Gabriel
dc.contributor.author Kibria, Md Raisul
dc.date 2023
dc.date.accessioned 2025-02-10T08:49:53Z
dc.date.available 2025-02-10T08:49:53Z
dc.date.issued 2023-07-19
dc.identifier.uri http://hdl.handle.net/11201/168624
dc.description.abstract [cat] Amb els avenços habilitats per la recent aparició de models de transformers multimodals basats en l’atenció, hi ha hagut un creixement significatiu en el domini científic de la comprensió visual de documents (VDU). Tot i que els rendiments són molt alts en aquests estudis, les precisions sovint no es generalitzen quan s’empren dades adquirides en condicions no controlades (conegudes com a dades in the wild o dades crues). Aquest repte és especialment pronunciat quan es tracta de rebuts de compres en format paper, ja que presenten dissenys diversos, diferents tipus de lletra, gran varietat d’idiomes i són capturats en diversos entorns. En aquest treball, presentem un procés format per un conjunt de passes òptim que té la capacitat d’adaptar-se a les dades crues. El procés que es presenta consta d’una sèrie de passos: en primer lloc, es realitza l’eliminació de qualsevol soroll de l’entrada, en segon lloc, s’identifica la regió d’interès per al model de VDU. En concret, s’ha utilitzat la xarxa U2-Net per a la segmentació, YOLOv7 per a la detecció de regions i el model DONUT extensible d’extrem a extrem per extreure informació textual i estructurar-la. Empíricament, el procés dissenyat millora significativament les prediccions de l’estat de l’art, assolint una precisió d’edició d’arbres (TED) del 62,16% i la puntuació f1 del 74,88%. A més, la transparència i la generalitat de la solució contribueixen a la seva importància en el domini de recerca limitat de l’anàlisi de documents adquirits en condicions no controlades. ca
dc.format application/pdf
dc.language.iso eng ca
dc.publisher Universitat de les Illes Balears
dc.rights all rights reserved
dc.rights info:eu-repo/semantics/openAccess
dc.subject 00 - Ciència i coneixement. Investigació. Cultura. Humanitats ca
dc.subject 004 - Informàtica ca
dc.subject.other Visual document understanding ca
dc.subject.other Receipt parsing ca
dc.subject.other Document segmentation ca
dc.subject.other Multi-modal networks ca
dc.title Optimizing Document Processing Pipeline for Parsing Receipts in the Wild ca
dc.type info:eu-repo/semantics/masterThesis ca
dc.type info:eu-repo/semantics/publishedVersion
dc.date.updated 2024-06-03T11:23:33Z


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search Repository


Advanced Search

Browse

My Account

Statistics