GPT3 se autorským právem nezatěžuje, nemusí

Kategorie: Blog Zveřejněno: čtvrtek 23. únor 2023 Napsal Kamil Kopecký Vytisknout E-mail

Úvodní poznámka: Tento komentář berte spíš jako menší úvahu na téma, kde jsou hranice plagiování a zda nové druhy prediktivních jazykových modelů (ChatGPT apod.) nejsou vlastně jen moderními formami vykrádání cizích lidských myšlenek, které jsou pak vydávány za unikátní obsah. Nejde o žádný kvalifikovaný právní výklad, ale prosté zamyšlení - více etické než právní. Berte tak celé sdělení s nadhledem.

Jazykový model GPT3 s sebou jednoznačně přinesl revoluci v oblasti tvorby textů všeho druhu a jde o skvělý a jistě velmi užitečný nástroj, který má širokou paletu uplatnění. Zároveň však s sebou nese některé ne zcela vyjasněné otázky, ke kterým patří např. otázka původnosti, originálnosti, či chcete-li tzv. plagiování. A právě o tom bude můj dnešní komentář.

Hned na úvod - v tomto textu neřeším plagiování, ve kterým si někdo pomocí AI vygeneruje text, který pak vydává za svůj. Řeším situaci, kdy AI pracuje s cizími texty a cizími myšlenkami, které necituje. Neřeším tedy zneužití AI, ale podstatu jejího fungování.

Neurální sítě a prediktivní jazykové modely se učí z velkého množství informací, které se snaží zpracovávat, třídit, vyhodnocovat, systematizovat, uspořádavat do logických celků, vzájemně kombinovat podle různých parametrů a především předpovídat, jaké informace po něm budeme jako lidé chtít, co nám má zobrazit. Základem fungování je pak především trénování (učí se pod dozorem či bez dozoru člověka rozpoznávat konkrétní informace) - konkrétně model GPT-3 je natrénován na obrovském množství textových dat z různých zdrojů na internetu, včetně webových stránek, knih, novinových článků, blogů, sociálních médií a dalších.

Během trénování se GPT-3 učí rozpoznávat a využívat slovní spojení a kontext, což mu umožňuje generovat kvalitní texty s minimálními chybami (pravopis, gramatika), snaží se také porozumět kontextu. Poté používá své znalosti a statistické vztahy mezi slovy a větami k vytvoření nové textové sekvence, která odpovídá požadovanému úkolu nebo zadání.

Základem jeho databáze jsou však texty, které vytvořili živí autoři - ať už šlo o spisovatele, výzkumníky, politiky nebo třeba běžné uživatele sociálních sítí. Nezapomeňme například, že i Wikipedie má své autory a mnoho textů na Wikipedii, která je do tréninkové databáze zahrnuta, je například ozdrojováno a má své konkrétní živé lidské autory.

Problém je, že původ informací GPT3 běžným uživatelům vždy neodhaluje, běžní uživatelé dostanou finální textový výstup, který neobsahuje žádné druhy citací, odkazů, zdrojů, neví tedy, z čeho model vychází, kdo je původce informací, které jsou uživatelům prezentovány. Sama neuronová síť uvádí, že je to dáno tím, že je příliš složitá na to, aby uvedla všechny zdroje, ze kterých při řešení požadavku vychází, a že je obtížné určit, které konkrétní zdroje ovlivnily výsledek. Jenže z pohledu autorského práva využívá informace, které vytvořil někdo jiný, které potom upravuje (i když sofistikovaně) a prezentuje jako své vlastní.

Samotná AI tvrdí, že nemůže být obviněna z plagiátorství v tradičním slova smyslu, protože plagiátorství se týká záměrného kopírování nebo používání cizího díla jako svého vlastního, bez uvedení zdroje. Podle svých slov spíše “kombinuje a zpracovává informace ze široké škály zdrojů”. Zároveň však tvrdí, že “Pokud AI vytváří textové dokumenty, měla by být uváděna citace, pokud jsou používány informace z jiných zdrojů, stejně jako u lidských autorů.”

Jenže fakticky toto vždy nedělá - respektivě někdy zdroj uvede, jindy ne. Nemluvě o tom, že si dokonce i vymýšlí fiktivní zdroje informací s fiktivními autory, fiktivními názvy a fiktivními odkazy.

Navíc i když využíváme a kombinujeme širokou škálu zdrojů, pořád pracujeme s dílem někoho jiného, které pak buď citujeme přímou citací, nebo jej parafrázujeme. A pozor - parafráze je interpretace cizích MYŠLENEK vlastními slovy, což GPT3 dělá - vlastními slovy vyjadřuje cizí myšlenky - a i zde platí důsledně pravidlo citování.

Každopádně AI není člověk, nenese tedy odpovědnost, ta jde samozřejmě za jejími tvůrci či uživateli (dále v textu).
Pojďme se na chvilku podívat na to, jak se GPT3 dívá na citování zdrojů, která využívá při trénování, a jak se dívá na citace zdrojů v rámci již vygenerovaných výstupů.

Jaký je pohled GPT3 na citování zdrojů použitých při trénování?

Výklad GPT3 s ohledem na citování vypadá takto:

Dotaz: Má tedy AI povinnost citovat data z webových stránek, které použila při učení?
GPT3: Ne, obecně AI není povinna citovat data, která byla použita při jejím učení. To je z toho důvodu, že umělá inteligence není subjektem, který by měl být odpovědný za citaci zdrojů. Namísto toho je zodpovědností lidí, kteří vytvořili a nasadili AI do provozu, aby se ujistili, že používají data a zdroje správným způsobem a v souladu se zákony a pravidly.

To znamená, že pokud byly textová data použita k trénování AI získána z veřejně dostupných zdrojů, jako jsou webové stránky, knihy, noviny a další, není nutné citovat každý zdroj. Nicméně, pokud byly použity citlivé informace nebo data, která byla chráněna autorskými právy, může být potřeba získat souhlas autora nebo vlastníka práv na citaci zdroje.

Skutečně nechci nijak tvrzení GPT3 právně rozporovat, ale každé originální dílo je chráněno autorským zákonem, včetně veřejně dostupných knih, webů, novin apod. Maximálně za jeho užití autoři nevybírají finance, ale je vždy spojeno s nimi samotnými, s jejich jménem, s jejich osobou či institucí. Nikdo je jejich autorství a práv automaticky nemůže zbavit. GPT3 ale jejich autorství trénováním “rozpouští”. Určitě né vždy, ale velmi často ano.

Je to srovnatelné se situací, kdy studentovi zadáme vytvořit esej na nějaké konkrétní téma. Student nejdříve nastuduje zdroje, knihy, encyklopedie, webové stránky, poté si promyslí, o čem a jak bude psát, a začne tvořit text. V případě konkrétních myšlenek, definic, informací však vždy důsledně cituje zdroje, nekrade cizí myšlenky! AI to však dělá a vymlouvá se na to, že protože není člověk a protože zdrojů prostudovala fakt hodně, nemůže ani ty nejrelevantnější zdroje uvést.

Studentů se u zkoušek pravidelně ptáme, z čeho jste se učili (“trénovali”), a studenti nám samozřejmě (aspoň nějaké) zdroje uvedou. V případě AI by ovšem toto neplatilo.

Jaký je pohled GPT3 na citování zdrojů použitých při generování výsledku?

Jedna věc je citace zdrojů při trénování, druhá věc je citace zdrojů při generování výsledků. Jaký je pohled GPT3?

GTP3: Data, která jsou generována AI, jsou vytvářena na základě trénování modelu na vstupních datech. Tyto vstupní data mohou pocházet z různých zdrojů, jako jsou webové stránky, knihy, noviny a další, a také z dat, která byla vytvořena firmou OpenAI pro účely trénování modelu.

Data, která jsou generována AI, nejsou přesně definována jako autorská díla v tradičním slova smyslu, protože byla vytvořena strojem a nikoliv člověkem. Nicméně, pokud jsou generovaná data chráněna právy duševního vlastnictví, například patentovými právy, může být potřeba získat souhlas vlastníka práv k použití těchto dat.

Obecně se AI nepovažuje za subjekt, který by byl povinen citovat zdroje, protože AI není subjektem, který by měl být odpovědný za citaci zdrojů. Na druhé straně, vlastníci a tvůrci AI by měli dodržovat platné zákony a pravidla týkající se práv duševního vlastnictví a zajistit, aby jejich použití dat bylo v souladu s těmito zákony a pravidly.

Takže si to pojďme shrnout - AI říká, že je sice natrénována na lidských datech, ale že výsledky vlastně nejsou “tradičními autorskými díly”, protože je vygeneroval stroj, takže citovat nemusí, protože za citace jsou odpovědní lidé, ne stroje. Je to poměrně jasná ukázka porušení základních etických principů k duševnímu vlastnictví.

“Maže” trénování AI autorská práva?

To, co GPT3 opakovaně uvádí, mě vede k závěru, že v průběhu trénování prostě umělá inteligence autorství lidí maže. Tj. jakmile se jednou stane konkrétní autorským právem chráněný materiál součástí trénování a jeho myšlenky jsou předány do neurální sítě, autorské právo je rozemleto na padrť. Když se však podíváme na výstupy, které jsou AI generovány, jasně vykazují shodu s celou řadou původních zdrojů. Viz třeba tento případ:

Toto je definice sextingu podle AI:
Sexting je termín, který popisuje posílání sexuálně explicitních zpráv, fotografií nebo videí mezi lidmi pomocí mobilních telefonů nebo jiných elektronických zařízení. Tyto zprávy mohou být posílány mezi partnery v intimních vztazích, ale mohou být také zasílány mezi lidmi, kteří se teprve poznávají.

A pro srovnání definice sextingu dle Wikipedie se zdrojováním konkrétních textů:

Sexting je posílání, přijímání nebo přeposílání sexuálně explicitních zpráv, fotografií nebo videí, především mezi mobilními telefony. Může zahrnovat také použití počítače nebo jiného digitálního zařízení.[1] Tyto materiály často vznikají v rámci partnerských vztahů.

Míra shoda je na první pohled zřejmá, přesto není zdroj ocitován vůbec.

Někde v procesu práce s informacemi jednoduše dochází k “zániku autorství” a data, která vychází z umělé inteligence ven, se tváří jako unikátní, protože byla unikátně nakombinována (tj. sestavena AI). Pořád ale výstup vyjadřuje úplně stejné myšlenky, které pocházejí od konkrétních autorů a osob, jenom se liší formou (a procesem tvorby). V tom vidím jednu základní odlišnost oproti např. klasickému personalizovánému vyhledávání na Google - Google vždy nabídne konkrétní odkaz na konkrétní zdroj, autorství nemizí! A my si jej můžeme ověřit!

Komerční dopady? Určitě ano!

Tento způsob fungování AI může autorům různých typů veřejných textů přinést mnoho nepříjemností - ať již jde o snížení návštěvnosti jejich webů, tj. snížení zisků z reklamy, snížení počtu klientů, kteří se o nabídce služeb dané osoby obtížněji dozví, naopak AI bude ve své placené verzi profitovat právě z toho, že bude nekontrolovaně vytěžovat cizí zdroje a cizí práci, ze které autoři nebudou nic mít. Nabízí se paralela s nedávnou novelou autorského zákona, po které Google odstranil náhledy zpravodajského obsahu ze svého vyhledávače, a to prosím nikdo nepřicházel o autorství (maximálně o zisky, ale o autorství ne).

Řešení - uvádět alespoň základní zdroje

Ideálním řešením by bylo, aby jazykové modely uváděly odkazy alespoň na základní relevatní zdroje, ze kterých vygenerovaný text vychází (či na kterých byl natrénován). Takto funguje např. AI integrovaná do Bingu (Microsoft) - k vygenerovanému textu dodává i relevantní či doporučené zdroje. Tím pádem lze ověřit a ocitovat zcela konkrétní zdroj informace.

Kdo nese odpovědnost za dodržování autorského práva umělou inteligencí?

Nabízí se otázka, kdo nese odpovědnost za to, když bude umělá inteligence porušovat autorská právo. Hned na úvod je potřeba říci, že umělá inteligence je pouhým nástrojem v rukou člověka, nemůže nabývat práva, zavazovat se k povinnostem ani odpovídat za své jednání. Když tedy umělá inteligence poruší autorské právo, třeba vytvoří plagiát, bude za ni odpovídat člověk. (zdroj) A to buď její autor (člověk, firma, organizace, která dopustila, že AI porušuje autorská práva), nebo člověk, který vygenerovaný výstup zneužije. Pokud tedy tvůrce umělé inteligence dopustí, že ta bude využívat obsah textu někoho jiného v rozporu s autorským právem, nese odpovědnost.

Každopádně GPT3 jednoznačně představuje právní výzvu a bude nutné skutečně vyjasnit, jak to s těmi citacemi a zdroji je a co se děje s autorstvím lidí, jejichž data byla využita.

Pokud se vám text líbil, můžete mi koupit kafe. :-)

P. S. Obrázky vygenerovány tradičně v Midjourney pod komerční licencí.