csen

Představte si, že se vám za roky práce nahromadily stovky online dokumentů a vy je potřebujete roztřídit, abyste s nimi správně nakládali. Na jedné hromádce budou dokumenty, v nichž se nachází citlivé údaje, na druhé pak ty bez nich. Vsadím se, že třídit ručně by se vám je nechtělo.

NER odhalí citlivé údaje

NER, Named Entity Recognition neboli rozpoznávání pojmenovaných entit, vyřeší zmíněný úkol za vás. Pokud byste si o této podmnožině strojového učení chtěli přečíst víc, doporučujeme tento článek. V zásadě se jedná o to, že se algoritmus naučí na velkém množství dat rozpoznávat, jaké údaje v textu patří mezi ty citlivé. Jakkoli to zní jednoduše, zase tak snadné to není.

Úskalí se nachází třeba mezi rozlišením měst a vlastních jmen osob, což jsme poznali například u „problémového“ města Jindřichův Hradec. Vezměme si dále samotná vlastní jména osob, s nimiž mají často problém i lidé. V češtině bychom si ještě nějak poradili, ale co taková asijská jména?

NER nespočívá v prostém vyhledávání podle specifických znaků, třeba znaku zavináče (@), pro rozlišení e-mailu, protože potom byste označili za citlivý dokument i ten, který obsahuje: Zde uveďte e-mail ve formátu jmeno@adresa.cz. Na těchto příkladech vidíme, že je důležitý také kontext.

Čekají na vás gigabajty nebo snad terabajty neroztříděných dokumentů? Nemusíte to být vy, kdo se jimi probere, dokonce to nemusí být ani nikdo z vašich kolegů. Ozvěte se nám a najdeme pro vás řešení.

Zdroj: https://www.gaussalgo.com/learn-with-me/rozpoznavani-citlivych-udaju-v-textu-ner-pro-laiky

 

Kontaktujte nás

Odesláním souhlasíte se .

Cookies

Náš web používá cookies. Díky tomu vám můžeme nabídnout uživatelský zážitek více efektivní. Souhlas k ukládání cookies udělíte kliknutím na políčko „Souhlasím".
Souhlas můžete odmítnout zde.