anssi nurminen algorithmic extraction of data in ... - Semantic Scholar

Apr 16, 2013 - Keywords: PDF, portable document format, Qt, data extraction, data mining, ...... PDF rendering library [10] is a xpdf-3.0 [11] based C++ open source ...... Document management — Portable document format — Part 1: PDF 1.7.
2MB Sizes 3 Downloads 394 Views
ANSSI NURMINEN ALGORITHMIC EXTRACTION OF DATA IN TABLES IN PDF DOCUMENTS Master's Thesis

Examiners: Prof. Tapio Elomaa, MSc. Teemu Heinimäki Examiners and topic approved by the Faculty Council of the Faculty of Computing and Electrical Engineering on 9 January 2013.

I

ABSTRACT TAMPERE UNIVERSITY OF TECHNOLOGY Degree Programme in Information Technology NURMINEN, ANSSI: Algorithmic Extraction of Data in Tables in PDF Documents Master of Science Thesis: 64 pages, 4 appendices (8 pages) April 2013 Majoring in: Embedded systems (software emphasis) Examiners: Prof. Tapio Elomaa, MSc. Teemu Heinimäki Keywords: PDF, portable document format, Qt, data extraction, data mining, Adobe, tables, table row, table column, discovering tables, table discovery, table recognition, HTML, XML, table structure recognition, table structure definition, table detection, table extraction, convert PDF to HTML, convert PDF to XML, layout analysis, document understanding, big data, information extraction, information extraction system, Poppler

Tables are an intuitive and universally used way of presenting large sets of experimental results and research findings, and as such, they are the majority source of significant data in scientific publications. As no universal standardization exists for the format of the reported data and the table layouts, two highly flexible algorithms are created to (i) detect tables within documents and to (ii) recognize table column and row structures. These algorithms enable completely automated extraction of tabular data from PDF documents. PDF was chosen as the preferred target format for data extraction because of its popularity and the availability of research publications as natively digital PDF documents, almost without exceptions. The extracted data is made available in HTML and XML formats. These two formats were chosen because of their flexibility and ease of use for further processing. The software application that was created as a part of this thesis work enables future research to take full advantage of existing research and results, by enabling gathering of large volumes of data from various sources for a more profound statistical analysis.

II

TIIVISTELMÄ TAMPEREEN TEKNILLINEN YLIOPISTO Tietotekniikan koulutusohjelma NURMINEN, ANSSI: Algorithmic Extraction of Data in Tables in PDF Documents Diplomityö, 64 sivua, 8 liitesivua Huhtikuu 2013 Pääaine: Sulautetut järjestelmät (ohjelmistopainotuksella) Tarkastajat: professori Tapio Elomaa, dipl.ins. Teemu Heinimäki Avainsanat: PDF, taulukko, taulukot, data, talteenotto, big data, HTML, XML, Qt, Poppler, big data Lähes poikkeuksetta kaikki nykyisin tehtävä tutkimustyö julkaistaan verkossa, ja yhä enenevässä määrin ”open access”-journaaleissa. Saatavilla olevan tutkimusdatan räjähdysmäinen kasvu on johtanut monilla aloilla tilanteeseen, jossa sen käsittely manuaalisesti on erittäin työlästä, ellei jopa mahdotonta. Jotta tulevaisuuden tutkimustyö voisi hyödyllisellä tavalla rakentua jo olemassa olevan tiedon päälle, tarvitaan siis automaattisia menetelmiä datan keräämiseen ja käsittelyyn. Taulukot ovat intuitiivinen ja selkeä tapa esitellä pientä suurempia määriä tilastoja, tutkimustuloksia ja muita löydöksia. Suuri osa tieteellisten julkaisujen tärkeistä tuloksista julkaistaankin juuri taulukkomuodossa. Mitään standardisointia taulukoillle eri julkaisijoiden välillä ei kuitenkaan ole, ja taulukot esiintyvät julkaisuissa hyvinkin monimuotoisina, hyvin vaihtelevilla rakenteilla ja ykstyiskohdilla. Näitä ongelmia varten tämän diplomityön yhteydessä on kehitetty kaksi täysin uutta, joustavaa algoritmia taulukkomuotoisen datan talteenottamiseen ja prosessoimiseen tietokoneiden paremmin ymmärtämään muotoon (HTML, XML). Ensimmäisen algoritmin tehtävä on taulukoiden paikantaminen PDF (Adoben Portable Document Format) dokumenttien sivuilta. Toinen algoritmi jäsentelee taulukoiden tietoalkiot dataja otsikkoriveihin, ja määrittelee niiden rivi- ja sarakerakenteen. Nämä kehitetyt algoritmit mahdollista