Rozpoznávání citlivých údajů v textu

Představte si, že se vám za roky práce nahromadily stovky online dokumentů a vy je potřebujete roztřídit, abyste s nimi správně nakládali. Na jedné hromádce budou dokumenty, v nichž se nachází citlivé údaje, na druhé pak ty bez nich. Vsadím se, že třídit ručně by se vám je nechtělo.

NER odhalí citlivé údaje

NER, Named Entity Recognition neboli rozpoznávání pojmenovaných entit, vyřeší zmíněný úkol za vás. Pokud byste si o této podmnožině strojového učení chtěli přečíst víc, doporučujeme tento článek. V zásadě se jedná o to, že se algoritmus naučí na velkém množství dat rozpoznávat, jaké údaje v textu patří mezi ty citlivé. Jakkoli to zní jednoduše, zase tak snadné to není.

Úskalí se nachází třeba mezi rozlišením měst a vlastních jmen osob, což jsme poznali například u „problémového“ města Jindřichův Hradec. Vezměme si dále samotná vlastní jména osob, s nimiž mají často problém i lidé. V češtině bychom si ještě nějak poradili, ale co taková asijská jména?

NER nespočívá v prostém vyhledávání podle specifických znaků, třeba znaku zavináče (@), pro rozlišení e-mailu, protože potom byste označili za citlivý dokument i ten, který obsahuje: Zde uveďte e-mail ve formátu jmeno@adresa.cz. Na těchto příkladech vidíme, že je důležitý také kontext.

Čekají na vás gigabajty nebo snad terabajty neroztříděných dokumentů? Nemusíte to být vy, kdo se jimi probere, dokonce to nemusí být ani nikdo z vašich kolegů. Ozvěte se nám a najdeme pro vás řešení.

Zdroj: https://www.gaussalgo.com/learn-with-me/rozpoznavani-citlivych-udaju-v-textu-ner-pro-laiky