Scanning - tjänster och specialiteter
Vi delar in våra tjänster i följande områden nedan. För fördjupad information om de olika tjänsterna klicka respektive länk i rutan "Läs mer om" till höger.
Scanning - specialiteter
OCR scanning av adressregister
I Skriptoriets scanningtjänst för adressregister (t.ex. från LADOK) ingår bl.a.:
- Förbättrad OCR-tolkning med hjälp av anpassat dictionary för svenska adresser
- Kontroll av namn mot personnamndatabaser baserade på folkbokföringen
- Kontroll av gatunamn mot gatunamndatabas från Posten
- Kontroll av fältlängd och innehåll i postnummerfältet
- Kontroll av Postort mot postortdatabas från Posten
- Validering och rättning av personnummer och organisationsnummer
- Borttagning av dupletter och/eller jämförelser mot ert register som tillval!
Leverans som databas i Excelark, Accessdatabas eller tabbavgränsad textfil.
OCR scanning av strukturerade och semi-strukturerade listor
Vi konverterar flerradiga poster till enradiga fältindelade poster. Det kan t.ex. handla om medlemsregister från en tryckt matrikel. Det kan även handla om lägenhetsregister, åtalsregister eller vilken datautskrift som helst som har ett hyfsat regelbundet utseende.
OCR scanning av epostadresser
Denna tjänst inkluderar omfattande efterbearbetning och kvalitetskontroller för att få så korrekta epostadresser som möjligt!
Vi delar först upp varje epostadress i dess olika ingående element. Sedan analyserar vi varje del separat, samt flaggar misstänkta fel för närmare visuell kontroll. Exempel på kontroller som görs: Kontroll att varje adress har ett at-tecken @, kontroll att det finns en giltig toppdomän t.ex. .se, .com m.fl. Fuzzy-jämförelser för att hitta domäner som avviker med enstaka tecken från annan domän, jämförelse av namndelen i epostadressen mot namndatabaser, kontroll att inga ogiltiga tecken ingår osv. Särskilda kontroller av de snarlika tecknen l (L), I (i), 1 (Ett) osv.
Scanning och tolkning av enkäter
Vi och vår tryckeripartner tar hand om allt arbete kring enkäter.
I Skriptoriets scanningtjänst för enkäter ingår bl.a. följande:
- Gratis handledning + Word-mall med kryssrutor och referensmärken
- Förberedelser: scanningprofiler, tolkningsmallar och databastabeller
- Scanning, inläsning av kryssrutor och verifiering av handtextade fält
- DVD med alla enkäter som (en/flersidiga) PDF-filer, namngivna med enkätID
- Öppna svar fås även sammanslagna i en stor multipage PDF sorterad på enkätID
- Enkätdata i Excel (med bildlänk som öppnar motsvarande PDF), samt SPSS-fil
- Kvalitetsrapporter: Felkoder per variabel, ej ifyllda enkäter, värden per variabel
Genom vår tryckeripartner erbjuds förutom tryckning även flera tillvalstjänster såsom svarspostmottagning och en professionell prepressavdelning! Se vidare under länken: "Scanning av enkäter" ovan till höger!
Tolkning med flexibel datafångstteknik
OCR-tolkning av vissa data utförs med hjälp av flexibla regler istället för fast formulärteknik! En databas med motsvarande datafält fylls med en datapost per formulär eller dokument! Tolkningen kan även göras på en vanlig PDF (som ej innehåller en bild), men som då bearbetas som bild av programvaran när tolkningen utförs!
Programmatisk textextraktion ur PDFer
Vi kan extrahera textområden ur oskyddade PDFer programmatiskt och bygga en databas på det viset. Det kan t. ex. gälla myndighetshandlingar, som domslut. Extraktionsområden kan sättas med hjälp av exakta koordinater, eller med hjälp av koordinater relativt keywords, eller relativt "regular expressions".
Omdöpning av PDFer med OCR-tolkad eller extraherad textdata
Denna tjänst innebär som typexempel att några olika data OCR-tolkas och hämtas med flexibel datafångstteknik (alternativt extraheras ett litet textområde programmatiskt ur en textPDF) från vanligtvis första sidan av en flersidig PDF och att denna fångade data efter kontroller och bearbetning sedan används för att döpa om den ursprungliga PDF-filen.
Scanning till PDFer med löpande numrering
Denna tjänst innebär scanning utan OCR. Slutprodukten består av bilder lagrade i något av formaten PDF eller TIFF. De är numrerade med löpnummer i scanningordning, 0001.PDF, 0002.PDF osv. En vanlig variant av detta är att scanna till en multipage PDF per flersidigt dokument med hjälp av separationsblad. Scanning till flersidiga PDFer med automatisk dokumentbrytning passar bra t.ex. vid due diligence, revisionsdokumentationer m.m.
Scanning - övrigt
Scanning med manuell indexering
Denna tjänst innebär scanning och manuell indexering av ett antal fördefinierade fält. Passar ofta bäst för äldre dokument med svårtolkad maskinskriven text eller med viss handskriven information som måste fångas.
OCR till PDF
Scanning och/eller OCR-tolkning till PDFer med osynlig tolkad text under bild. Passar bra för exempelvis OCR-tolkning av TIFF-bilder eller PDF-bilder för att skapa ett arkiv som är sökbart i fulltext.
OCR till Word
OCR av böcker och dokumenttexter till redigerbar Word-fil. Teckenverifiering ingår.
Bearbetning med VBA-macron/VBscript
PDFer med variabelt datainnehåll hämtat från databas
Vi skapar PDFer med variabelt datainnehåll hämtat från databas/excelark. Ofta handlar det om att vi presenterar data vi tagit fram genom OCR-konvertering i PDF-form för att det ska ligga i ett sökbart eArkiv. Men får vi en databas/lista i excelark samt en mall för hur datainnehållet ska presenteras i PDF-form så går det bra också!
Programmatisk textextraktion ur PDFer
Vi kan extrahera textområden ur oskyddade PDFer programmatiskt och bygga en databas på det viset. Det kan t. ex. gälla myndighetshandlingar, som domslut.
Bearbetning av Access- eller Exceltabeller som separat tjänst
Vi åtar oss att bearbeta tabeller i Excel- eller Access-format med VBA-macron och andra metoder.
Borttagning av dupletter ur adressregister
Som en tillvalstjänst till vår tjänst OCR-konvertering av adressregister, så erbjuder vi borttagning av dupletter ur adressregister, samt jämförelser av adressregister mot kundregister. Vi använder fuzzy-matchning för att även identifiera dupletter som ej är exakt lika, men mycket nära.
Toppnyheter
2012-10-20 Script för PDF-kontroll
2012-09-10 LADOK åt NextMedia
2011-10-24 Textextraktion från PDF
2011-08-24 Scanning av STHLM2
Kontakta oss
Skriptoriet
Karlbergsvägen 37 A
113 62 Stockholm
Tel: 08-34 14 19
Mob: 070-722 81 48
E-post: niclas@skriptoriet.se
Skype: Skriptoriet
Yahoo messenger: niclaswallin@yahoo.se

Niclas Wallin