В предишната статия говорихме за PDF като избор за трансфер на данни. Логично продължение ще е да обсъдим файловете със съхранени доклади от различни системи в текстов формат (print image files), тъй като те служат за подобна цел. Те са едновременно презентация на отпечатан документ, но са и чист текст, и затова са много по-надежден източник за прехвърляне на данни.

Както при всеки протокол за трансфер на данни, и тук има редица характеристики, които трябва да знаете. За щастие, тъй като това е добре установена техника, повечето от инструментите, които може да използвате се справят добре с по-голямата част от проблемите. Почти всеки инструмент чете източник с доклад и извлича избраните данни в плосък файлов формат от някакъв вид. Заради приликите, ще се спрем само на онези характеристики, които могат да променят вашия избор, или е вероятно да бъдат проблемни.

Повторното използване на съществуващи шаблони може да спести много време с файловете, съдържащи доклади. В качеството си на доклад, е доста обичайно да откриете, че неведнъж попадате на един и същ формат, но може би за други места, или времеви периоди. Обикновено  има много стъпки за приблизително дефиниране, когато се работи с тези файлове, независимо от вашия инструмент, тъй като трябва да определите коя информация е от значение, и как да я извадите от доклада. Ако приемем, че това не е първия път, когато срещате този формат за доклади, един идеален инструмент ще ви позволи да изберете съществуващ шаблон, за да ви спести колкото е възможно повече от тази работа. Повторното дефиниране на данни е не само  допълнителна работа, но увеличава и шансовете за грешки. Когато правите повторно дефиниране, може да пропуснете някоя едва доловима характеристика, необходима за идентифициране на подходящите записи, което води до неправилен анализ. Разбира се, предложението на Arbutus ви позволява повторно използване на съществуващите шаблони с нови доклади, както правят някои други инструменти, премахвайки този риск и елемента на досада.

Промените в съществуващия шаблон също са много често срещани. Типичен сценарий е да се дефинира шаблон на доклад, за да се улови само информацията, която знаете че ви е нужна точно сега. Причината да не вземете всичко е комбинация от досадното естество на това да се дефинира всеки един елемент от доклада и размера на получения файл. Така че, може да дефинирате само ключовите елементи на всеки ред, като пропуснете тези, които смятате, че няма да са от значение. Дори и да дефинирате всички елементи в детайлния ред, кои ще прихване номера на страницата, или времето/датата на създаване от заглавката на доклада? И в двата случая, понякога впоследствие осъзнавате, че някоя от тази не прихваната информация в крайна сметка би била полезна. Един лош продукт ще ви принуди да повторите всичките си стъпки отново от нулата (не само досадно, но и рисковано, както бе обяснено по-горе). Един идеален продукт (включително Arbutus) ще ви позволи да извлечете съществуващия шаблон и да добавяте/променяте, каквото е нужно. Самото съществуване на тази възможност ви позволява да бъдете икономичен в началото, знаейки, че винаги може да добавите още от събраните данни по-късно.

Символните множества също са постоянен проблем. Почти всеки инструмент ще ви позволи да дефинирате ASCII данни, но ако данните идват от света на мейнфрейм може да срещнете EBCDIC. Това обикновено не е проблем, тъй като повечето програми за трансфер автоматично предоставят конвертиране EBCDIC-към-ASCII. Това, което може да бъде проблем е Unicode. Има два основни варианта: UTF-8 и UTF-16. Може да срещнете данни в някой от тези формати, в зависимост от обстоятелствата, а поддържането и на двата определено е плюс. Тъй като повечето текстови редактори поддържат и двата, сигурно си мислите, че ще може да ги прочете в единия формат (да кажем UTF-8) и редактора да го конвертира в другия (UTF-16). Проблемът в това е, че UTF-8 е много-байтово символно множество (MCBS), и в обичайно използване различни единични символи може да заемат до 1, 2 или 3 байта. След конвертирането, често ще откривате, че данните са разместени, поради това, че повечето други символни множества имат еднаква ширина за всеки символ.

Както бе споменато в началото, файловете със съхранени доклади са много по-добър избор за трансфер на данни от PDF, но ще трябва да се уверете, че избрания от вас инструмент не ви принуждава многократно да преоткривате колелото при нормална употреба.

Автор: Grant Brodie, Arbutus Software