Повечето данни не се прехвърлят в техния оригинален формат. Причината за това е, че  вътрешните формати обикновено са разработени за ефективност. Приложенията съхраняват своите данни по начин, който е най-удобен за съответното приложение. При прехвърляне на данни между приложения, най-важната характеристика е съвместимостта. Искате формат, който ще бъде лесно прочетен от другото приложение.

Решението на този проблем е същото, като много други ИТ решения:  стандартизация. Има редица стандарти, които са се развивали с течение на времето. Разбира се, вие искате вашето приложение за анализ на данни да поддържа колкото е възможно повече от тях. Многото формати при импортиране ви гарантират, че може да достъпвате данни от толкова източници, колкото е възможно, докато много формати при експортиране ви гарантира, че вашите резултати могат да бъдат използвани от други системи. Някои от по-старите стандарти са излезли от употреба, но никога не се знае как ще бъдат (или трябва да бъдат) форматирани данните, така че е най-добре да покриете всички бази.

В груб ред за представяне, най-често срещаните формати за транфер на данни са:

  • Традиционните „плоски“ (flat) файлове (понякога наричани SDF)
  • Делимитирани файлове
  • Текстови файлове с доклади за печат (print report file)
  • Excel/DBASE
  • XML
  • PDF
  • JSON

Важно е да се отбележи, че поддръжката на всеки от тези формати не е толкова просто. Всеки един от тях има нюанси и вариации, и следователно поддръжката е по-скоро като скала от 0 до 100. В следващите няколко публикации ще обсъждаме проблемите, които са свързани  с всеки един от тези формати, но сега искам да започнем в средата, с PDF. Избрах PDF не защото той е най-добрият, а защото се превръща във повсеместен. В същото време това е почти най-лошия формат, в който може да получите данни. В действителност, от изброените по-горе той е единствения, който не е проектиран за пренос на данни.

Основният проблем с PDF е, че той е това, което наричат формат за „презентиране“ (като HTML). Неговата основна цел е да направи информацията да изглежда добре. Всички характеристики на PDF включват как и къде да се постави съдържанието на виртуална страница. Когато се опитате да използвате PDF като източник на данни, приложението трябва да проектира наобратно това, което е на страницата, да се опита да подразбере структурата на данните. Обикновено се използва хоризонталното и вертикалното подравняване на елементите, за да се изведат колони и редове, но дори и съвсем малки разлики могат да причинят проблеми. И това дори не включва усложненията за текста от шрифтовете и размерите. Всичко изглежда добре, но усложнява процеса по превръщането на това, което е на страницата обратно в данни. Моят инструмент поддържа PDF, както правят и много други, но приемливостта на резултата може да варира от пример до пример и от доставчик до доставчик.

Вашата цел трябва да бъде повторяемо, и надеждно улавяне на данни, и в повечето случаи PDF не е добра алтернатива. Както вече бе споменато, всички други формати, споменати по-горе, са предназначени за транфер на данни, и ако имате някакъв избор за това как да получите данните си, всеки един от другите би бил за предпочитане пред PDF.

Автор: Grant Brodie, Arbutus Software