Doomsday Ligjor për ChatGPT Generative AI Nëse kapet duke plagjiaturë ose shkelje, paralajmëron etikën e AI dhe ligjin e AI

A fshin AI gjeneruese si ChatGPT faqet tona të internetit dhe përmbajtjen e krijuar nga njeriu? Jini të vetëdijshëm, jini [+] i mërzitur, bëhu gati.

Geti

Jepni kredi aty ku duhet kredia.

Kjo është një urtësi e urtë që ju ndoshta jeni rritur për të besuar me vendosmëri. Në të vërtetë, dikush supozon ose imagjinon se ne të gjithë mund të pajtohemi disi në mënyrë të arsyeshme se ky është një rregull i drejtë dhe i arsyeshëm në jetë. Kur dikush bën diçka që meriton mirënjohje, sigurohuni që ai të marrë njohjen e merituar.

Pikëpamja e kundërt do të dukej shumë më pak bindëse.

Nëse dikush eci përreth duke këmbëngulur se kredia duhet nuk mund të pohoni se një besim i tillë është i pasjellshëm dhe ndoshta i fshehtë. Ne shpesh e gjejmë veten të shqetësuar në mënyrë të zhurmshme kur i mashtrohet merita dikujt që ka arritur diçka të dukshme. Guxoj të them se ne jemi veçanërisht të pafavorshëm kur të tjerët marrin merita të rreme për punën e të tjerëve. Kjo është një goditje e dyfishtë shqetësuese. Personi që duhet të kishte marrë kreditin i mohohet momenti i tij në diell. Përveç kësaj, mashtruesi po shijon vëmendjen, megjithëse gabimisht po na mashtrojnë për të shpërdoruar dashuritë tona të favorshme.

Pse i gjithë ky diskutim për të fituar kredi në mënyrat më të drejta dhe për të shmangur mënyrat e gabuara dhe të përbuzshme?

Sepse ne duket se po përballemi me një telash të ngjashëm kur bëhet fjalë për të fundit në Inteligjencën Artificiale (AI).

Po, pretendimet janë se kjo po ndodh dukshëm nëpërmjet një lloji të AI të njohur si UA gjeneruese. Ka shumë mendime se Generative AI, inteligjenca artificiale më e nxehtë në lajme këto ditë, tashmë ka marrë meritat për atë që nuk meriton të marrë merita. Dhe kjo ka të ngjarë të përkeqësohet pasi AI gjeneruese zgjerohet dhe përdoret gjithnjë e më shumë. Gjithnjë e më shumë kreditohen për inteligjencën artificiale gjeneruese, ndërsa fatkeqësisht ato që meritojnë shumë kredinë e vërtetë mbeten në pluhur.

Mënyra ime e ofruar për të treguar qartë këtë fenomen të supozuar është nëpërmjet dy frazave tërheqëse:

1) Plagjiaturë në shkallë
2) Shkelja e të drejtave të autorit në shkallë

Unë supozoj se ju mund të jeni në dijeni të AI gjeneruese për shkak të një aplikacioni gjerësisht të popullarizuar të AI të njohur si ChatGPT që u lëshua në nëntor nga OpenAI. Do të them më shumë për AI gjeneruese dhe ChatGPT për momentin. Rri atje.

Le të shkojmë menjëherë te thelbi i asaj që po i merr dhitë e njerëzve, si të thuash.

Disa janë ankuar me zjarr se AI gjeneruese potencialisht po shkatërron njerëzit që kanë krijuar përmbajtje. E shihni, shumica e aplikacioneve gjeneruese të AI janë të dhëna të trajnuara duke ekzaminuar të dhënat e gjetura në internet. Bazuar në ato të dhëna, algoritmet mund të zhvillojnë një rrjet të gjerë të brendshëm të përputhjes së modeleve brenda aplikacionit të AI që më pas mund të prodhojë përmbajtje në dukje të re që duket çuditërisht sikur të ishte krijuar nga dora e njeriut dhe jo një pjesë automatizimi.

Kjo arritje e jashtëzakonshme është në një masë të madhe për shkak të përdorimit të përmbajtjes së skanuar në internet. Pa vëllimin dhe pasurinë e përmbajtjes së internetit si një burim për trajnimin e të dhënave, AI gjeneruese do të ishte pothuajse bosh dhe do të kishte pak ose aspak interes për t'u përdorur. Duke ekzaminuar nga AI miliona e miliona dokumente dhe tekste në internet, së bashku me të gjitha llojet e përmbajtjeve të lidhura, përputhja e modelit rrjedh gradualisht për të provuar dhe imituar përmbajtjen e prodhuar nga njeriu.

Sa më shumë përmbajtje të ekzaminohet, shanset janë që përputhja e modelit do të jetë më e mprehtë dhe do të bëhet edhe më e mirë në mimikën, duke qenë të gjitha të tjerat të barabarta.

Këtu është pyetja prej miliardë dollarësh:

Pyetje e madhe: Nëse ju ose të tjerët keni përmbajtje në internet për të cilën është trajnuar një aplikacion gjenerues i AI, duke e bërë këtë me sa duket pa lejen tuaj të drejtpërdrejtë dhe ndoshta krejtësisht pa vetëdijen tuaj fare, a duhet të keni të drejtën për një pjesë të byrekut për çfarëdo vlere që del nga atë trajnim gjenerues të të dhënave të AI?

Disa argumentojnë me forcë se e vetmja përgjigje e duhur është Po, veçanërisht se ata krijues të përmbajtjes njerëzore me të vërtetë meritojnë prerjen e tyre të veprimit. Çështja është se do të ishte e vështirë të gjesh dikë që ka marrë pjesën e duhur, dhe më keq akoma, pothuajse askush nuk ka marrë asnjë pjesë. Krijuesve të përmbajtjes së internetit që kontribuan në mënyrë të pavullnetshme dhe pa vetëdije, në thelb po u mohohet kredia e tyre e ligjshme.

Kjo mund të karakterizohet si mizore dhe e egër. Sapo kemi kaluar nëpër zbërthimin e urtësisë së urtë se kredia duhet të jepet aty ku duhet merita. Në rastin e AI gjeneruese, me sa duket nuk është kështu. Rregulli i vërtetë i gjatë dhe i virtytshëm për kreditimin duket se shkelet në mënyrë të pashpirt.

Ua, replika shkon, po e mbivlerësoni plotësisht dhe po e keqtrajtoni situatën. Sigurisht, AI gjeneruese ekzaminoi përmbajtjen në internet. Sigurisht, kjo ishte shumë e dobishme si pjesë e trajnimit të të dhënave të AI gjeneruese. Pa dyshim, aplikacionet mbresëlënëse gjeneruese të AI sot nuk do të ishin aq mbresëlënëse pa këtë qasje të konsideruar. Por ju keni shkuar shumë larg kur thoni se krijuesve të përmbajtjes duhet t'u jepet ndonjë dukje e veçantë krediti.

Logjika është si më poshtë. Njerëzit dalin në internet dhe mësojnë gjëra nga interneti, duke e bërë këtë në mënyrë rutinore dhe pa bujë në vetvete. Një person që lexon bloge rreth hidraulikës dhe më pas shikon video të disponueshme falas për rregullimin e hidraulikës, mund të dalë të nesërmen dhe të marrë punë si hidraulik. A duhet t'i japin një pjesë të dërgesës së tyre në lidhje me hidraulikun blogerit që shkroi se si të hidratohet një lavaman? A duhet t'i japin një tarifë vloggerit që ka bërë videon që tregon hapat për të rregulluar një vaskë që pikon?

Pothuajse me siguri jo.

Trajnimi i të dhënave të AI gjeneruese është thjesht një mjet për të zhvilluar modele. Për sa kohë që rezultatet nga AI gjeneruese nuk janë thjesht regurgitim i asaj që është ekzaminuar, ju mund të argumentoni bindshëm se ata kanë "mësuar" dhe për këtë arsye nuk i nënshtrohen dhënies së ndonjë kredie specifike për ndonjë burim specifik. Nëse nuk mund ta kapni AI gjeneruese në kryerjen e një regurgitimi të saktë, indikacionet janë se AI është përgjithësuar përtej çdo burimi të veçantë.

Askujt nuk i takon asnjë kredi. Ose, supozohet, mund të thuash se meritat i shkojnë të gjithëve. Teksti kolektiv dhe përmbajtja tjetër e njerëzimit që gjendet në internet merr meritën. Të gjithë e marrim meritën. Përpjekja për të përcaktuar me saktësi kredinë për një burim të caktuar është e pakuptimtë. Jini të gëzuar që AI është duke u avancuar dhe se njerëzimi do të përfitojë. Këto postime në internet duhet të ndihen të nderuar që kanë kontribuar në një të ardhme të përparimeve në AI dhe se si kjo do të ndihmojë njerëzimin për përjetësi.

Do të kem më shumë për të thënë për të dyja këto pikëpamje të kundërta.

Ndërkohë, a anoni kah kampi që thotë se kredia është e papaguar dhe e vonuar për ata që kanë faqe interneti në internet, apo shihni se pala kundërshtare që thotë se krijuesit e përmbajtjes së internetit janë të vendosur nuk është një sjellje më bindëse?

Një enigmë dhe një enigmë të gjitha të bllokuara së bashku.

Le ta shpaketojmë këtë.

Në rubrikën e sotme, unë do të trajtoj këto shqetësime të shprehura se AI gjeneruese në thelb është plagjiaturë ose mundësisht duke shkelur të drejtat e autorit të përmbajtjes që është postuar në internet (e konsideruar si një çështje e të drejtës së pronësisë intelektuale ose IP). Ne do të shikojmë bazën për këto shqetësime. Unë do t'i referohem herë pas here ChatGPT gjatë këtij diskutimi pasi është gorilla 600 kilogramësh e AI gjeneruese, megjithëse mbani në mend se ka shumë aplikacione të tjera gjeneruese të AI dhe ato përgjithësisht bazohen në të njëjtat parime të përgjithshme.

Ndërkohë, mund të pyesni veten se çfarë është në fakt AI gjeneruese.

Le të mbulojmë së pari bazat e AI gjeneruese dhe më pas mund t'i hedhim një vështrim nga afër çështjes urgjente në fjalë.

Në të gjithë këtë vjen një mori konsideratash të Etikës së AI dhe ligjit të AI.

Ju lutemi, kini parasysh se ka përpjekje të vazhdueshme për të futur parimet etike të AI në zhvillimin dhe vënien në terren të aplikacioneve të AI. Një kontigjent në rritje i etikëve të inteligjencës artificiale të shqetësuar dhe të dikurshëm po përpiqen të sigurojnë që përpjekjet për të hartuar dhe adoptuar AI marrin parasysh një këndvështrim për të bërë AI për të mirë dhe duke shmangur AI për të keqen. Po kështu, ka ligje të reja të propozuara për AI që po përdoren si zgjidhje të mundshme për të mbajtur përpjekjet e AI që të mos turbullojnë të drejtat e njeriut dhe të ngjashme. Për mbulimin tim të vazhdueshëm dhe të gjerë të Etikës së AI dhe Ligjit të AI, shih lidhja këtu lidhja këtu, vetëm për të përmendur disa.

Zhvillimi dhe shpallja e parimeve etike të AI-së po ndiqet për të shpresuar që shoqëria të mos bjerë në një mori kurthesh që nxisin AI. Për mbulimin tim të parimeve të Etikës së UA të OKB-së, siç janë hartuar dhe mbështetur nga afro 200 vende nëpërmjet përpjekjeve të UNESCO-s, shih lidhja këtu. Në një mënyrë të ngjashme, ligjet e reja të AI janë duke u eksploruar për të provuar dhe mbajtur AI në një nivel të barabartë. Një nga marrjen e fundit përbëhet nga një grup i propozuar UA Bill of Rights që Shtëpia e Bardhë amerikane publikoi kohët e fundit për të identifikuar të drejtat e njeriut në një epokë të AI, shih lidhja këtu. Duhet një fshat për të mbajtur zhvilluesit e AI dhe AI në një rrugë të drejtë dhe për të penguar përpjekjet e qëllimshme ose aksidentale të fshehta që mund të dëmtojnë shoqërinë.

Në këtë diskutim do të gërshetoj konsideratat e lidhura me Etikën e AI dhe Ligjin e AI.

Bazat e AI gjeneruese

Shembulli më i njohur i AI gjeneruese përfaqësohet nga një aplikacion AI i quajtur ChatGPT. ChatGPT doli në ndërgjegjen e publikut në nëntor kur u publikua nga firma kërkimore e AI OpenAI. Që kur ChatGPT ka mbledhur tituj të mëdhenj dhe ka tejkaluar çuditërisht pesëmbëdhjetë minutat e caktuara të famës.

Unë mendoj se ndoshta keni dëgjuar për ChatGPT ose ndoshta njihni dikë që e ka përdorur atë.

ChatGPT konsiderohet një aplikacion gjenerues i AI sepse merr si hyrje disa tekst nga një përdorues dhe më pas gjeneron ose prodhon një rezultat që përbëhet nga një ese. AI është një gjenerues tekst-në-tekst, megjithëse unë e përshkruaj AI si një gjenerues tekst-në-ese pasi kjo qartëson më lehtë se për çfarë përdoret zakonisht. Ju mund të përdorni AI gjeneruese për të kompozuar kompozime të gjata ose mund ta bëni atë të ofrojë komente mjaft të shkurtra. Është e gjitha në kërkesën tuaj.

E tëra çfarë ju duhet të bëni është të shkruani një kërkesë dhe aplikacioni i AI do të gjenerojë për ju një ese që përpiqet t'i përgjigjet kërkesës suaj. Teksti i kompozuar do të duket sikur eseja është shkruar nga dora dhe mendja e njeriut. Nëse do të futnit një kërkesë që thoshte "Më trego për Abraham Lincoln", AI gjenerues do t'ju ofrojë një ese rreth Linkolnit. Ka mënyra të tjera të AI gjeneruese, të tilla si tekst-në-art dhe tekst-në-video. Këtu do të përqendrohem në variacionin tekst në tekst.

Mendimi juaj i parë mund të jetë se kjo aftësi gjeneruese nuk duket aq e madhe për sa i përket prodhimit të eseve. Mund të bëni lehtësisht një kërkim në internet në internet dhe të gjeni lehtësisht mijëra e mijëra ese rreth Presidentit Lincoln. Gjëja kryesore në rastin e AI gjeneruese është se eseja e krijuar është relativisht unike dhe ofron një përbërje origjinale dhe jo një kopje. Nëse do të provonit të gjenit diku në internet esenë e prodhuar nga AI, nuk do të kishit gjasa ta zbuloni atë.

Inteligjenca artificiale gjeneruese është e trajnuar paraprakisht dhe përdor një formulim kompleks matematikor dhe llogaritës që është krijuar duke ekzaminuar modele në fjalë të shkruara dhe tregime në të gjithë rrjetin. Si rezultat i ekzaminimit të mijëra e miliona pasazheve të shkruara, AI mund të nxjerrë ese dhe histori të reja që janë një përzierje e asaj që u gjet. Duke shtuar funksione të ndryshme probabilistike, teksti që rezulton është pak a shumë unik në krahasim me atë që është përdorur në grupin e trajnimit.

Ka shqetësime të shumta në lidhje me AI gjeneruese.

Një dobësi thelbësore është se esetë e prodhuara nga një aplikacion AI me bazë gjeneruese mund të kenë të ngulitura gënjeshtra të ndryshme, duke përfshirë fakte haptazi të pavërteta, fakte që janë portretizuar në mënyrë mashtruese dhe fakte të dukshme që janë tërësisht të fabrikuara. Këto aspekte të fabrikuara shpesh quhen një formë e Halucinacionet e AI, një frazë tërheqëse që nuk e pëlqej, por me keqardhje duket se po fiton tërheqje popullore gjithsesi (për shpjegimin tim të detajuar se pse kjo është terminologji e keqe dhe e papërshtatshme, shihni mbulimin tim në lidhja këtu).

Një shqetësim tjetër është se njerëzit mund të marrin meritat për një ese gjenerative të prodhuar nga AI, pavarësisht se nuk e kanë kompozuar vetë esenë. Ju mund të keni dëgjuar se mësuesit dhe shkollat janë mjaft të shqetësuar për shfaqjen e aplikacioneve gjeneruese të AI. Studentët mund të përdorin potencialisht AI gjeneruese për të shkruar esetë e tyre të caktuara. Nëse një student pretendon se një ese është shkruar me dorën e tij, ka pak mundësi që mësuesi të jetë në gjendje të dallojë nëse ajo është falsifikuar nga AI gjeneruese. Për analizën time të këtij aspekti ngatërrues të studentëve dhe mësuesve, shihni mbulimin tim në lidhja këtu lidhja këtu.

Ka pasur disa pretendime të çmendura të mëdha në mediat sociale rreth UA gjeneruese duke pohuar se ky version i fundit i AI është në fakt AI e ndjeshme (jo, ata e kanë gabim!). Ata në Etikën e AI dhe Ligjin e AI janë veçanërisht të shqetësuar për këtë trend në rritje të pretendimeve të përhapura. Ju mund të thoni me mirësjellje se disa njerëz po mbivlerësojnë atë që mund të bëjë në të vërtetë AI e sotme. Ata supozojnë se AI ka aftësi që ne ende nuk kemi arritur t'i arrijmë. Kjo është për të ardhur keq. Më keq akoma, ata mund t'i lejojnë vetes dhe të tjerëve të futen në situata të tmerrshme për shkak të supozimit se AI do të jetë i ndjeshëm ose i ngjashëm me njeriun në aftësinë për të ndërmarrë veprime.

Mos antropomorfizo AI.

Duke vepruar kështu, do t'ju kapni në një kurth të ngurtësisë dhe besimit të durueshëm të pritjes që AI të bëjë gjëra që nuk është në gjendje t'i kryejë. Me këtë u tha, më e fundit në AI gjeneruese është relativisht mbresëlënëse për atë që mund të bëjë. Sidoqoftë, kini parasysh se ka kufizime të rëndësishme që duhet t'i mbani parasysh vazhdimisht kur përdorni ndonjë aplikacion gjenerues të AI.

Një paralajmërim i fundit për momentin.

Çfarëdo që shihni ose lexoni në një përgjigje gjeneruese të AI-së duket për t'u transmetuar si thjesht faktike (data, vende, njerëz, etj.), sigurohuni që të qëndroni skeptik dhe të jeni të gatshëm të kontrolloni dy herë atë që shihni.

Po, datat mund të sajohen, vendet mund të krijohen dhe elemente që zakonisht presim të jenë të paqortueshme janë të gjithë subjekt i dyshimeve. Mos i besoni asaj që lexoni dhe mbani një sy skeptik kur shqyrtoni çdo ese ose rezultate gjeneruese të AI. Nëse një aplikacion gjenerues i inteligjencës artificiale ju tregon se Abraham Lincoln fluturoi në të gjithë vendin me avionin e tij privat, padyshim që do ta dinit se kjo është e keqe. Fatkeqësisht, disa njerëz mund të mos e kuptojnë se avionët nuk ishin aty në kohën e tij, ose mund ta dinë, por nuk arrijnë të vënë re se eseja e bën këtë pretendim të pacipë dhe jashtëzakonisht të rremë.

Një dozë e fortë e skepticizmit të shëndetshëm dhe një mendësi e vazhdueshme e mosbesimit do të jetë pasuria juaj më e mirë kur përdorni AI gjeneruese.

Ne jemi gati të kalojmë në fazën tjetër të këtij sqarimi.

Interneti dhe AI gjeneruese janë në këtë së bashku

Tani që keni një pamje të qartë se çfarë është AI gjeneruese, ne mund të shqyrtojmë pyetjen shqetësuese nëse AI gjenerues është në mënyrë të drejtë ose të padrejtë "leverage", ose disa do të thoshin në mënyrë flagrante duke shfrytëzuar Përmbajtja e internetit.

Këtu janë katër temat e mia jetike në lidhje me këtë çështje:

1) Probleme të dyfishta: Plagjiaturë dhe shkelje të së drejtës së autorit
2) Do të përpiqeni të provoni plagjiaturë ose shkelje të së drejtës së autorit
3) Krijimi i rastit për plagjiaturë ose shkelje të së drejtës së autorit
4) Minat ligjore tokësore presin

Unë do të mbuloj secilën nga këto tema të rëndësishme dhe do të ofroj konsiderata të thella që të gjithë duhet t'i shqyrtojmë me vëmendje. Secila nga këto tema është pjesë përbërëse e një enigme më të madhe. Nuk mund të shikosh vetëm një copë. As nuk mund të shikoni ndonjë pjesë të veçuar nga pjesët e tjera.

Ky është një mozaik i ndërlikuar dhe i gjithë enigmës duhet t'i kushtohet vëmendje e duhur harmonike.

Probleme të dyfishta: Plagjiaturë dhe shkelje të së drejtës së autorit

Problemi i dyfishtë me të cilin përballen ata që prodhojnë dhe ushtrojnë inteligjencë artificiale gjeneruese është se mallrat e tyre mund të bëjnë dy gjëra të këqija:

1) Plagjiaturë. Inteligjenca artificiale gjeneruese mund të interpretohet si plagiarizing përmbajtje që ekziston në internet sipas skanimit të internetit që u zhvillua gjatë trajnimit të të dhënave të AI.
2) Shkelja e të drejtave të autorit. UA gjeneruese mund të pretendohet si ndërmarrje shkelje e autorit lidhur me përmbajtjen e internetit që u skanua gjatë trajnimit të të dhënave.

Për të sqaruar, ka shumë më tepër përmbajtje në internet sesa skanohet në të vërtetë për trajnimin e të dhënave të AI gjeneruese. Zakonisht përdoret vetëm një pjesë e vogël e internetit. Kështu, me sa duket mund të supozojmë se çdo përmbajtje që nuk është skanuar gjatë trajnimit të të dhënave nuk ka mish viçi të veçantë me AI gjeneruese.

Megjithatë, kjo është disi e diskutueshme pasi mund të vizatoni një vijë që lidh përmbajtjen tjetër që është skanuar me përmbajtjen që nuk është skanuar. Gjithashtu, një kusht tjetër i rëndësishëm është që edhe nëse ka përmbajtje që nuk është skanuar, mund të argumentohet se është plagjiaturë dhe/ose e shkelur e drejta e autorit nëse rezultatet e AI-së gjeneruese ndodhin në të njëjtën fjalë. Mendimi im është se ka shumë lëkundje në të gjithë këtë.

Bottom line: Inteligjenca artificiale gjeneruese është e mbushur me enigma të mundshme ligjore për Etikën dhe Ligjin e AI, kur bëhet fjalë për plagjiaturë dhe shkelje të së drejtës së autorit duke mbështetur praktikat mbizotëruese të trajnimit të të dhënave.

Deri më tani, krijuesit e inteligjencës artificiale dhe studiuesit e inteligjencës artificiale kanë bërë patinazh nëpër këtë zonë pothuajse pa gjuajtje, pavarësisht nga shpata e varur dhe e varur në mënyrë të pasigurt që varet sipër tyre. Vetëm disa procese gjyqësore janë nisur deri më sot kundër këtyre praktikave. Ju mund të keni dëgjuar ose parë artikuj lajmesh për veprime të tilla ligjore. Njëra, për shembull, përfshin firmat tekst-për-imazh të Midjourney dhe Stability AI për shkeljen e përmbajtjes artistike të postuar në internet. Një tjetër përfshin shkeljen e tekstit në kod kundër GitHub, Microsoft dhe OpenAI për shkak të softuerit Copilot që prodhon aplikacione AI. Getty Images gjithashtu ka synuar të ndjekë Stability AI për shkeljen e tekstit në imazh.

Ju mund të parashikoni që do të ngrihen më shumë padi të tilla.

Tani për tani, është pak e mundshme për të nisur ato padi pasi rezultati është relativisht i panjohur. A do të mbështesë gjykata me krijuesit e AI apo do të jenë fituesit ata që besojnë se përmbajtja e tyre është shfrytëzuar padrejtësisht? Një betejë e kushtueshme ligjore është gjithmonë një çështje serioze. Shpenzimi i kostove ligjore në shkallë të gjerë duhet të peshohet me shanset për të fituar ose humbur.

Krijuesit e inteligjencës artificiale duket se nuk kanë pothuajse asnjë zgjidhje tjetër veçse të bëjnë një luftë. Nëse ata do të dorëzoheshin, qoftë edhe pak, shanset janë që do të rezultonte një lumë padish shtesë (në thelb, duke i hapur derën mundësive të shtuara që të tjerët të mbizotërojnë gjithashtu). Pasi të ketë gjak të ligjshëm në ujë, peshkaqenët e mbetur legalë do të vrapojnë drejt "rezultatit të lehtë" të konsideruar dhe me siguri do të ndodhte një gjakderdhje monetare dërrmuese dhe rrahëse.

Disa besojnë se ne duhet të miratojmë ligje të reja të AI që do të mbronin krijuesit e AI. Mbrojtja mund të jetë edhe prapavepruese. Baza për këtë është se nëse duam të shohim përparime gjeneruese të AI, duhet t'u japim krijuesve të AI një pistë të zonës së sigurt. Sapo proceset gjyqësore të fillojnë të shënojnë fitore kundër krijuesve të AI, nëse kjo ndodh (ne nuk e dimë ende), shqetësimi është se AI gjeneruese do të avullojë pasi askush nuk do të jetë i gatshëm të mbështesë firmat e AI.

Siç është theksuar me aftësi në një artikull të fundit të Ligjit të Bloomberg të titulluar "ChatGPT: IP, siguria kibernetike dhe rreziqe të tjera ligjore të AI gjeneruese" nga Dr. Ilia Kolochenko dhe Gordon Platt, Ligji i Bloomberg, shkurt 2023, këtu janë dy fragmente jetike që i bëjnë jehonë këtyre pikëpamjeve:

“Një debat i ndezur tani shpërthen midis studiuesve ligjorë amerikanë dhe profesorëve të ligjit të IP-së nëse gërvishtja e paautorizuar dhe përdorimi i mëvonshëm i të dhënave të mbrojtura nga e drejta e autorit përbën shkelje të së drejtës së autorit. Nëse pikëpamja e praktikuesve ligjorë që shohin shkelje të të drejtave të autorit në një praktikë të tillë mbizotëron, përdoruesit e sistemeve të tilla të AI mund të jenë gjithashtu përgjegjës për shkelje dytësore dhe potencialisht të përballen me pasoja ligjore.”
“Për të adresuar në mënyrë gjithëpërfshirëse sfidën, ligjvënësit duhet të konsiderojnë jo vetëm modernizimin e legjislacionit ekzistues për të drejtën e autorit, por edhe zbatimin e një sërë ligjesh dhe rregulloresh specifike për AI.”

Kujtojmë se si shoqëri ne vendosëm mbrojtje ligjore për të zgjerim e internetit, siç dëshmohet tani nga Gjykata e Lartë që shqyrton Seksionin e famshëm ose famëkeq 230. Kështu, duket brenda arsyes dhe precedentit se ne mund të jemi të gatshëm të bëjmë disa mbrojtje të ngjashme për avancimin e AI gjeneruese. Ndoshta mbrojtjet mund të vendosen përkohësisht, duke skaduar pasi AI gjeneruese të ketë arritur një nivel të paracaktuar aftësie. Mund të hartohen dispozita të tjera mbrojtëse.

Së shpejti do të postoj analizën time se si vlerësimi i Gjykatës së Lartë dhe vendimi përfundimtar mbi nenin 230 mund të ndikojnë në ardhjen e AI gjeneruese. Jini në kërkim për atë postim të ardhshëm!

Kthehu tek opinioni i shprehur ashpër se ne duhet t'i japim liri veprimi inovacionit teknologjik që frymëzon frikë nga shoqëria, i njohur si AI gjeneruese. Disa do të thoshin se edhe nëse shkelja e pretenduar e të drejtës së autorit ka ose po ndodh, shoqëria në tërësi duhet të jetë e gatshme ta lejojë këtë për qëllime specifike të avancimit të AI gjeneruese.

Shpresa është që ligjet e reja të AI do të hartohen me kujdes dhe do të përshtaten me të dhënat që lidhen me trajnimin e të dhënave për AI gjeneruese.

Ka shumë kundërargumente për këtë nocion të hartimit të ligjeve të reja të AI për këtë qëllim. Një shqetësim është se çdo ligj i tillë i ri i AI do të hapë portat për të gjitha llojet e shkeljeve të të drejtave të autorit. Ne do të dëshpërojmë ditën që lejuam ligje të tilla të reja të AI të hyjnë në libra. Pavarësisht se sa shumë përpiqeni ta kufizoni këtë vetëm në trajnimin e të dhënave të AI, të tjerët do të gjejnë në mënyrë të fshehtë ose me zgjuarsi boshllëqe që do të çojnë në shkelje të papenguar dhe të shfrenuar të të drejtës së autorit.

Rreth e rrotull argumentet shkojnë.

Një argument që nuk qëndron veçanërisht ka të bëjë me përpjekjen për të paditur vetë AI. Vini re se unë i jam referuar krijuesit të AI ose studiuesve të AI si palët e interesuara fajtore. Këta janë njerëz dhe kompani. Disa sugjerojnë që ne duhet të synojmë AI si palën që do të paditet. Unë kam diskutuar gjatë në rubrikën time që ne ende nuk ia atribuojmë personazhin juridik AI, shih lidhja këtu për shembull, dhe kështu padi të tilla që synojnë AI në vetvete do të konsideroheshin të pakuptimta tani.

Si një shtesë në pyetjen se kush ose çfarë duhet të paditet, kjo sjell një temë tjetër të lëngshme.

Supozoni se një aplikacion i veçantë gjenerues i AI është krijuar nga një prodhues i AI që ne do ta quajmë Kompania Widget. Kompania Widget është relativisht e vogël në madhësi dhe nuk ka shumë të ardhura, as shumë asete. Paditja ndaj tyre nuk ka të ngjarë të mbledhë pasuritë e mëdha që dikush mund të kërkojë. Më së shumti, do të kishit thjesht kënaqësinë e korrigjimit të asaj që e perceptoni si të gabuar.

Ju dëshironi të shkoni pas peshkut të madh.

Ja se si do të lindë kjo. Një prodhues i inteligjencës artificiale vendos të vërë në dispozicion të Big Time Company, një konglomerat i madh me tonelata brumë dhe mijëra asete. Një padi për emërtimin e kompanisë Widget tani do të kishte një objektiv më të mirë, domethënë gjithashtu duke emëruar Big Time Company. Kjo është një luftë David dhe Goliath që avokatët do ta shijonin. Natyrisht, Big Time Company padyshim që do të përpiqet të lëvizë nga grepi i peshkimit. Nëse ata mund ta bëjnë këtë është edhe një herë një çështje ligjore që është e pasigurt, dhe ata mund të zhyten pa shpresë në baltë.

Përpara se të shkojmë më tej në këtë, unë do të doja të merrja diçka thelbësore në tryezë në lidhje me shkeljet e pretenduara të AI gjeneruese për shkak të trajnimit të të dhënave. Unë jam i sigurt se ju e kuptoni intuitivisht se plagjiatura dhe shkelja e të drejtave të autorit janë dy bisha disi të ndryshme. Ata kanë shumë të përbashkëta, megjithëse ato gjithashtu ndryshojnë dukshëm.

Këtu është një përshkrim i përmbledhur nga Universiteti Duke që shpjegon të dyja:

“Plagjiatura më së miri përkufizohet si përdorimi i papranuar i punës së një personi tjetër. Është një çështje etike që përfshin një kërkesë kredie për punën që pretenduesi nuk e ka krijuar. Dikush mund të bëjë plagjiaturë punën e dikujt tjetër, pavarësisht nga statusi i të drejtës së autorit të asaj vepre. Për shembull, është gjithsesi plagjiaturë të kopjosh nga një libër ose artikull që është shumë i vjetër për të qenë ende nën të drejtën e autorit. Është gjithashtu plagjiaturë përdorimi i të dhënave të marra nga një burim i panjohur, edhe pse materialet faktike si të dhënat mund të mos mbrohen nga e drejta e autorit. Plagjiatura, megjithatë, shërohet lehtësisht – citimi i duhur në burimin origjinal të materialit.”
“Shkelja e të drejtës së autorit, nga ana tjetër, është përdorimi i paautorizuar i punës së tjetrit. Kjo është një çështje ligjore që varet nga fakti nëse vepra mbrohet apo jo nga e drejta e autorit në radhë të parë, si dhe nga specifikat si sasia e përdorur dhe qëllimi i përdorimit. Nëse dikush kopjon shumë nga një vepër e mbrojtur, ose kopjon për një qëllim të paautorizuar, thjesht njohja e burimit origjinal nuk do ta zgjidhë problemin. Vetëm duke kërkuar leje paraprake nga mbajtësi i së drejtës së autorit, njeriu shmang rrezikun e një tarife për shkelje.”

Unë theksoj rëndësinë e këtyre dy shqetësimeve në mënyrë që të kuptoni se mjetet juridike mund të ndryshojnë në përputhje me rrethanat. Gjithashtu, ata të dy janë të përfshirë në konsideratat që përshkojnë Etikën e AI dhe Ligjin e AI, duke i bërë ato po aq të vlefshme për t'u shqyrtuar.

Le të shqyrtojmë një ilaç ose zgjidhje të pretenduar. Do të shihni se mund të ndihmojë njërën nga problemet e dyfishta, por jo tjetrën.

Disa kanë këmbëngulur se gjithçka që duhet të bëjnë prodhuesit e AI është të citojnë burimet e tyre. Kur AI gjeneruese prodhon një ese, thjesht përfshini citate specifike për çdo gjë që thuhet në ese. Jepni URL të ndryshme dhe indikacione të tjera se cila përmbajtje e internetit është përdorur. Kjo duket se do t'i çlirojë ata nga shqetësimet rreth plagjiaturës. Eseja e dalë me sa duket do të identifikonte qartë se cilat burime janë përdorur për formulimin që po prodhohet.

Ka disa grindje në atë zgjidhje të pretenduar, por në një nivel prej 30,000 këmbësh le të themi se shërben si një kurë gjysmë e kënaqshme për dilemën e plagjiaturës. Siç u tha më lart në shpjegimin e shkeljes së të drejtave të autorit, citimi i materialit burimor nuk ju nxjerr domosdoshmërisht nga shtëpia e qenit. Duke supozuar se përmbajtja ishte e mbrojtur nga e drejta e autorit dhe në varësi të faktorëve të tjerë, si p.sh. sasia e materialit të përdorur, shpata në pritje e shkeljes së të drejtës së autorit mund të lëkundet ashpër dhe përfundimisht.

Problemi i dyfishtë është kryefjala këtu.

Do të përpiqeni të provoni plagjiaturë ose shkelje të së drejtës së autorit

Provoje!

Ky është refreni i veshur mirë që të gjithë kemi dëgjuar në periudha të ndryshme të jetës sonë.

Ti e di si shkon. Ju mund të pretendoni se diçka po ndodh ose ka ndodhur. Ju mund ta dini në zemrën tuaj se kjo ka ndodhur. Por kur bëhet fjalë për shtytje kundër shtytjes, duhet të kesh prova.

Në gjuhën e sotme, ju duhet të tregoni faturat, siç thonë ata.

Pyetja ime për ju është kjo: Si do të provojmë në mënyrë demonstrative se AI gjeneruese ka shfrytëzuar në mënyrë të papërshtatshme përmbajtjen e internetit?

Dikush supozon se përgjigja duhet të jetë e lehtë. Ju kërkoni ose i thoni AI gjeneruese të prodhojë një ese të dalë. Më pas merrni esenë dhe e krahasoni me atë që mund të gjendet në internet. Nëse e gjeni esenë, bam, e keni inteligjencën artificiale gjeneruese të gozhduar në murin proverbial.

Jeta duket të jetë kurrë kaq e lehtë.

Parashikoni që ne të marrim AI gjeneruese për të prodhuar një ese që përmban rreth 100 fjalë. Ne shkojmë përreth dhe përpiqemi të arrijmë në të gjitha qoshet dhe qoshet e internetit, duke kërkuar për ato 100 fjalë. Nëse gjejmë 100 fjalët, të paraqitura në të njëjtin rend të saktë dhe në mënyrë identike, duket se e kemi kapur veten të nxehtë.

Supozoni se ne gjejmë në internet një ese në dukje "të krahasueshme", megjithëse përputhet vetëm me 80 nga 100 fjalët. Kjo duket ende e mjaftueshme, ndoshta. Por imagjinoni që ne gjejmë vetëm një shembull prej 10 fjalësh nga 100 që përputhen. A mjafton kjo për të bërtitur se ose ka ndodhur plagjiaturë ose se ka ndodhur shkelje e të drejtave të autorit?

Grija ekziston.

Teksti është qesharak në këtë mënyrë.

Krahasoni këtë me rrethanat tekst-për-imazh ose tekst-me-art. Kur AI gjeneruese ofron një aftësi tekst-në-imazh ose tekst-në-art, ju futni një kërkesë teksti dhe aplikacioni i AI prodhon një imazh të bazuar disi në kërkesën që keni dhënë. Imazhi mund të jetë ndryshe nga çdo imazh që është parë ndonjëherë në këtë apo në ndonjë planet tjetër.

Nga ana tjetër, imazhi mund të kujtojë imazhet e tjera që ekzistojnë. Ne mund të shikojmë imazhin gjenerues të prodhuar nga AI dhe disi nga instinkti i zorrëve të themi se sigurisht duket si një imazh tjetër që kemi parë më parë. Në përgjithësi, të vizual aspektet e krahasimit dhe kontrastit ndërmerren pak më lehtë. Duke u thënë kështu, ju lutemi dijeni se debatet e mëdha ligjore sigurojnë se çfarë përbën mbivendosjen ose përsëritjen e një imazhi nga një tjetër.

Një situatë tjetër e ngjashme ekziston me muzikën. Ka aplikacione gjeneruese të AI që ju lejojnë të futni një mesazh teksti dhe dalja e prodhuar nga AI është muzikë audio. Këto aftësi të AI-t tekst-në-audio ose tekst-në-muzikë sapo kanë filluar të shfaqen. Një gjë për të cilën mund të vini bast për dollarin tuaj më të lartë është se muzika e prodhuar nga AI gjeneruese do të shqyrtohet shumë për shkelje. Duket se e dimë kur dëgjojmë shkelje muzikore, megjithëse përsëri kjo është një çështje ligjore komplekse që nuk bazohet vetëm në atë se si ndihemi për përsëritjen e perceptuar.

Më lejoni edhe një shembull.

AI gjenerues tekst-në-kod ju ofron mundësinë për të futur një kërkesë teksti dhe AI do të prodhojë kod programimi për ju. Më pas mund ta përdorni këtë kod për përgatitjen e një programi kompjuterik. Ju mund të përdorni kodin saktësisht siç është krijuar, ose mund të zgjidhni të modifikoni dhe rregulloni kodin për t'iu përshtatur nevojave tuaja. Ekziston gjithashtu nevoja për t'u siguruar që kodi është i përshtatshëm dhe i zbatueshëm pasi është e mundur që gabime dhe falsifikime të lindin në kodin e krijuar.

Supozimi juaj i parë mund të jetë se kodi i programimit nuk është i ndryshëm nga teksti. Është thjesht tekst. Sigurisht, është një tekst që ofron një qëllim të veçantë, por është ende tekst.

Epo, jo saktësisht. Shumica e gjuhëve programuese kanë një format dhe strukturë strikte për natyrën e deklaratave koduese të asaj gjuhe. Kjo në njëfarë kuptimi është shumë më e ngushtë se gjuha natyrore e rrjedhshme. Ju jeni disi të kutizuar se si formulohen deklaratat koduese. Po kështu, sekuenca dhe mënyra në të cilën janë përdorur dhe renditur deklaratat janë disi të përmbledhura.

Në përgjithësi, mundësia për të treguar se kodi i programimit është plagjiaturë ose është shkelur është pothuajse më e lehtë se sa thuhet në gjuhën natyrore. Kështu, kur një AI gjeneruese shkon për të skanuar kodin e programimit në internet dhe më vonë gjeneron kod programimi, shanset për të argumentuar se kodi është përsëritur në mënyrë të hapur do të jenë relativisht më bindëse. Jo një slam dunk, prandaj prisni që të zhvillohen beteja të hidhura për këtë.

Pika ime kryesore është se ne do të kemi të njëjtat çështje të Etikës së AI dhe Ligjit të AI që përballen me të gjitha mënyrat e AI gjeneruese.

Plagjiatura dhe shkelja e të drejtave të autorit do të jenë problematike për:

Tekst në tekst ose tekst në ese
Tekst në imazh ose tekst në art
Tekst-në-audio ose tekst-në-muzikë
Tekst në video
Tekst në kod
Etj

Ata janë të gjithë subjekt i të njëjtave shqetësime. Disa mund të jenë pak më të lehta për t'u "provuar" se të tjerët. Të gjithë ata do të kenë shumëllojshmërinë e tyre të maktheve të një etike të AI dhe Ligjit të AI.

Krijimi i rastit për plagjiaturë ose shkelje të së drejtës së autorit

Për qëllime diskutimi, le të përqendrohemi në AI gjeneruese tekst në tekst ose tekst në ese. Unë e bëj këtë pjesërisht për shkak të popullaritetit të jashtëzakonshëm të ChatGPT, i cili është lloji tekst-në-tekst i AI gjeneruese. Ka shumë njerëz që përdorin ChatGPT, së bashku me shumë të tjerë që përdorin aplikacione të ndryshme të ngjashme gjeneruese të AI nga tekst në tekst.

A e dinë ata njerëz që përdorin aplikacione gjeneruese të AI që potencialisht po mbështeten në plagjiaturë ose shkelje të së drejtës së autorit?

Duket e dyshimtë që e bëjnë.

Unë do të guxoja të thosha se supozimi mbizotërues është se nëse aplikacioni gjenerues i AI është i disponueshëm për përdorim, krijuesi i AI ose kompania që ka vënë në dispozicion AI duhet të dijë ose të jetë e sigurt se nuk ka asgjë të pakëndshme në lidhje me mallrat që ata ofrojnë për përdorim. Nëse mund ta përdorni, duhet të jetë mbi bord.

Le të rishikojmë komentin tim të mëparshëm se si do të përpiqemi të provojmë se një AI gjeneruese e veçantë po punon në një bazë të gabuar për sa i përket trajnimit të të dhënave.

Mund të shtoj gjithashtu se nëse mund të kapim një AI gjeneruese duke bërë këtë, shanset për të kapur të tjerët ka të ngjarë të rriten. Nuk po them që të gjitha aplikacionet gjeneruese të AI do të ishin në të njëjtën varkë. Por ata do ta gjejnë veten në një det mjaft të ashpër pasi njëri prej tyre të ngjitet në mur.

Kjo është arsyeja pse gjithashtu do të jetë jashtëzakonisht e vlefshme për të mbajtur një sy në paditë ekzistuese. E para që fiton në lidhje me shkeljen e pretenduar, nëse kjo ndodh, ndoshta do të shënojë dënim dhe errësirë për aplikacionet e tjera gjeneruese të AI, përveç rastit kur ndonjë ngushticë i shpëton çështjeve më të gjera në fjalë. Ato që humbasin për shkeljen e pretenduar nuk do të thotë domosdoshmërisht që aplikacionet gjeneruese të AI mund të bien këmbanat dhe të festojnë. Mund të ndodhë që humbja t'i atribuohet faktorëve të tjerë që nuk janë aq të rëndësishëm për aplikacionet e tjera gjeneruese të AI, e kështu me radhë.

E kisha përmendur se nëse marrim një ese me 100 fjalë dhe përpiqemi t'i gjejmë ato fjalë saktësisht në të njëjtën sekuencë në internet, mund të kemi një rast relativisht të fortë për plagjiaturë ose shkelje të së drejtës së autorit, të gjitha të tjerat janë të barabarta. Por nëse numri i fjalëve që përputhen është i ulët, do të duket se jemi në akull të hollë.

Unë do të doja të gërmoj më thellë në këtë.

Një aspekt i dukshëm i bërjes së një krahasimi përbëhet nga të njëjtat fjalë në të njëjtën sekuencë. Kjo mund të ndodhë për pasazhe të tëra. Kjo do të ishte e përshtatshme për t'u dalluar, pothuajse si të na jepet në një pjatë argjendi.

Mund të jemi gjithashtu të dyshimtë nëse përputhet vetëm një pjesë e fjalëve. Ideja do të ishte të shihnim nëse ato janë fjalë thelbësore ose ndoshta fjalë plotësuese që mund t'i heqim ose t'i shpërfillim me lehtësi. Ne gjithashtu nuk duam të mashtrohemi nga përdorimi i fjalëve në kohën e tyre të kaluar ose të ardhshme, ose nga një mashtrim tjetër. Këto ndryshime në fjalë gjithashtu duhet të merren parasysh.

Një nivel tjetër krahasimi do të ishte kur fjalët nuk janë veçanërisht të njëjtat fjalë në një masë të madhe, megjithatë fjalët edhe në një gjendje të ndryshme duket se ende po bëjnë të njëjtat pika. Për shembull, një përmbledhje shpesh do të përdorë fjalë mjaft të ngjashme si burim origjinal, por ne mund të dallojmë se përmbledhja duket e bazuar në burimin origjinal.

Niveli më i vështirë i krahasimit do të bazohej në koncepte ose ide. Supozoni se shohim një ese që nuk ka fjalë të njëjta ose të ngjashme si bazë krahasimi, por thelbi ose idetë janë të njëjta. Sigurisht që po futemi në një territor të ashpër. Nëse do të thonim me gatishmëri se idetë mbrohen nga afër, do t'i vendosnim një kapak pothuajse të gjitha formave të dijes dhe zgjerimit të njohurive.

Mund t'i referohemi edhe një herë një shpjegimi të dobishëm nga Universiteti Duke:

“E drejta e autorit nuk mbron idetë, vetëm shprehjen specifike të një ideje. Për shembull, një gjykatë vendosi që Dan Brown nuk ka shkelur të drejtën e autorit të një libri të mëparshëm kur ka shkruar Da Vinci Code sepse gjithçka që ai huazoi nga vepra e mëparshme ishin idetë themelore, jo specifikat e komplotit apo dialogut. Meqenëse e drejta e autorit synon të inkurajojë prodhimin krijues, përdorimi i ideve të dikujt tjetër për të krijuar një vepër të re dhe origjinale mbështet qëllimin e të drejtës së autorit, nuk e cenon atë. Vetëm nëse dikush kopjon shprehjen e tjetrit pa leje, e drejta e autorit mund të shkelet.”
“Për të shmangur plagjiaturën, nga ana tjetër, duhet të pranohet burimi edhe i ideve që janë huazuar nga dikush tjetër, pavarësisht nëse shprehja e atyre ideve është huazuar me to. Kështu, një parafrazë kërkon citim, edhe pse rrallë ngre ndonjë problem me të drejtën e autorit.”

Ju lutemi vini re, siç u identifikuan më herët, ndryshimet midis aspekteve të dyfishta të problemeve.

Tani, pra, vënia në praktikë e qasjeve të krahasimit është diçka që ka ndodhur për shumë vite. Mendoni në këtë mënyrë. Studentët që shkruajnë ese për detyrat e tyre shkollore mund të tundohen të rrëmbejnë përmbajtje nga interneti dhe të pretendojnë se janë autorë të fjalëve fituese të çmimit Pulitzer të klasës A.

Mësuesit kanë përdorur programe të kontrollit të plagjiaturës për një kohë të gjatë për t'u marrë me këtë. Një mësues merr esenë e një studenti dhe e fut atë në kontrolluesin e plagjiaturës. Në disa raste, një shkollë e tërë do të licencojë përdorimin e një programi të kontrollit të plagjiaturës. Sa herë që studentët po dorëzojnë një ese, ata fillimisht duhet ta dërgojnë esenë në programin e kontrollit të plagjiaturës. Mësuesi informohet se çfarë raporton programi.

Fatkeqësisht, duhet të jeni jashtëzakonisht të kujdesshëm në lidhje me atë që kanë për të thënë këto programe të kontrollit të plagjiaturës. Është e rëndësishme të vlerësohet me kujdes nëse indikacionet e raportuara janë të vlefshme. Siç është përmendur tashmë, aftësia për të konstatuar nëse një vepër është kopjuar mund të jetë e paqartë. Nëse e pranoni pa menduar rezultatin e programit të kontrollit, mund ta akuzoni në mënyrë të rreme një student se ka kopjuar kur ai nuk e ka bërë këtë. Kjo mund të jetë dërrmuese e shpirtit.

Duke ecur përpara, ne mund të përpiqemi të përdorim programe të kontrollit të plagjiaturës në fushën e testimit të rezultateve gjeneruese të AI. Trajtoni esetë e nxjerra nga një aplikacion gjenerues i AI sikur të ishte shkruar nga një student. Më pas vlerësojmë se çfarë thotë kontrolluesi i plagjiaturës. Kjo bëhet me një kokërr kripë.

Ekziston një studim i fundit kërkimor që u përpoq të operacionalizonte këto lloje krahasimesh në kontekstin e AI gjeneruese në këtë mënyrë. Do të doja të shqyrtoja disa gjetje interesante me ju.

Së pari, kërkohet një sfond i shtuar. AI gjeneruese nganjëherë referohet si LLM (modele të mëdha gjuhësore) ose thjesht LM (modele gjuhësore). Së dyti, ChatGPT bazohet në një version të një pakete tjetër gjeneruese të AI të OpenAI të quajtur GPT-3.5. Përpara GPT-3.5, kishte GPT-3, dhe më parë ishte GPT-2. Në ditët e sotme, GPT-2 konsiderohet mjaft primitiv në krahasim me seritë e mëvonshme, dhe ne të gjithë po presim me padurim zbulimin e ardhshëm të GPT-4, shikoni diskutimin tim në lidhja këtu.

Studimi kërkimor që unë dua të eksploroj shkurtimisht konsistonte në ekzaminimin e GPT-2. Kjo është e rëndësishme për t'u kuptuar pasi tani jemi më tej përtej aftësive të GPT-2. Mos bëni ndonjë përfundim të nxituar në lidhje me rezultatet e kësaj analize të GPT-2. Sidoqoftë, ne mund të mësojmë shumë nga vlerësimi i GPT-2. Studimi titullohet "A plagjiaturojnë modelet gjuhësore?" nga Jooyoung Lee, Thai Le, Jinghui Chen dhe Dongwon Lee, duke u shfaqur në ACM WWW '23, 1–5 maj 2023, Austin, TX, SHBA.

Kjo është pyetja e tyre kryesore kërkimore:

"Në çfarë mase (pa kufizuar në memorizimin) LM-të shfrytëzojnë frazat ose fjalitë nga mostrat e tyre të trajnimit?"

Ata përdorën këto tre nivele ose kategori të plagjiaturës së mundshme:

"Plagjiaturë fjalë për fjalë: Kopje të sakta të fjalëve ose frazave pa transformim."
"Plagjiaturë parafrazuese: zëvendësim sinonimik, rirenditje fjalësh dhe/ose përkthim prapa."
"Plagjiaturë e idesë: Përfaqësimi i përmbajtjes thelbësore në një formë të zgjatur."

GPT-2 me të vërtetë ishte trajnuar për të dhënat e Internetit dhe kështu një kandidat i përshtatshëm për këtë lloj analize:

“GPT-2 është para-trajnuar në WebText, që përmban mbi 8 milionë dokumente të marra nga 45 milionë lidhje Reddit. Meqenëse OpenAI nuk ka lëshuar publikisht WebText, ne përdorim OpenWebText i cili është një rikrijim me burim të hapur të korpusit WebText. Është përdorur me besueshmëri nga literatura e mëparshme.”

Gjetjet kryesore selektive të nxjerra nga studimi përbëhen nga:

"Ne zbuluam se familjet e para-trajnuara GPT-2 bëjnë plagjiaturë nga OpenWebText."
"Gjetjet tona tregojnë se rregullimi i saktë redukton ndjeshëm rastet e plagjiaturës fjalë për fjalë nga OpenWebText."
“Në përputhje me Carlini et al. dhe Carlini et al., ne zbulojmë se modelet më të mëdha GPT-2 (të mëdha dhe xl) në përgjithësi gjenerojnë sekuenca të plagjiaturës më shpesh sesa ato më të vogla.
"Sidoqoftë, LM-të e ndryshme mund të demonstrojnë modele të ndryshme të plagjiaturës, dhe kështu rezultatet tona mund të mos përgjithësohen drejtpërdrejt me LM-të e tjera, duke përfshirë LM-të më të fundit si GPT-3 ose BLOOM."
“Përveç kësaj, detektorët automatikë të plagjiaturës dihet se kanë shumë mënyra dështimi (si në negativë të rremë ashtu edhe në pozitivë të rremë).
“Duke pasur parasysh që shumica e të dhënave të trajnimit të LM-ve fshihen nga Ueb-i pa informuar pronarët e përmbajtjes, përsëritja e fjalëve, frazave dhe madje edhe ideve thelbësore nga grupet e trajnimit në tekstet e krijuara ka implikime etike.”

Na duhen patjetër shumë më tepër studime të këtij lloji.

Nëse jeni kurioz se si GPT-2 krahasohet me GPT-3 në lidhje me trajnimin e të dhënave, ka një kontrast mjaft të theksuar.

Sipas indikacioneve të raportuara, trajnimi i të dhënave për GPT-3 ishte shumë më i gjerë:

“Modeli është trajnuar duke përdorur bazat e të dhënave të tekstit nga interneti. Kjo përfshinte 570 GB të dhëna të marra nga libra, tekste në internet, Wikipedia, artikuj dhe shkrime të tjera në internet. Për të qenë edhe më i saktë, 300 miliardë fjalë u futën në sistem” (Fokusi shkencor i BBC-së revista, “ChatGPT: Gjithçka që duhet të dini rreth mjetit GPT-3 të OpenAI” nga Alex Hughes, shkurt 2023).

Për ata prej jush të interesuar për përshkrime më të thelluara të trajnimit të të dhënave për GPT-3, këtu është një fragment nga karta zyrtare e modelit GPT-3 e postuar në GitHub (data e fundit e përditësuar e shënuar si shtator 2020):

“Baza e të dhënave të trajnimit GPT-3 përbëhet nga teksti i postuar në internet, ose nga teksti i ngarkuar në internet (p.sh. libra). Të dhënat e internetit mbi të cilat është trajnuar dhe vlerësuar deri më sot përfshijnë: (1) një version të grupit të të dhënave CommonCrawl, të filtruar në bazë të ngjashmërisë me korpuset e referencës me cilësi të lartë, (2) një version të zgjeruar të të dhënave të tekstit të uebit, (3 ) dy korpuse librash të bazuara në internet dhe (4) Wikipedia në gjuhën angleze.”
“Duke pasur parasysh të dhënat e tij të trajnimit, rezultatet dhe performanca e GPT-3 janë më përfaqësuese të popullsive të lidhura me internetin sesa ato të zhytura në kulturën verbale, jo dixhitale. Popullsia e lidhur me internetin është më përfaqësuese e vendeve të zhvilluara, me pikëpamje të pasura, më të reja dhe meshkuj, dhe është kryesisht e përqendruar në SHBA. Kombet dhe popullsitë më të pasura në vendet e zhvilluara tregojnë penetrim më të lartë të internetit. Ndarja dixhitale gjinore tregon gjithashtu më pak gra të përfaqësuara në internet në mbarë botën. Për më tepër, për shkak se pjesë të ndryshme të botës kanë nivele të ndryshme të depërtimit dhe aksesit në internet, grupi i të dhënave nënpërfaqëson komunitetet më pak të lidhura.”

Një largim nga treguesi i mësipërm në lidhje me GPT-3 është se një rregull i madh midis atyre që e bëjnë AI gjeneruese është se sa më shumë të dhëna në internet të mund të skanoni, gjasat për të përmirësuar ose avancuar AI gjeneruese rriten.

Ju mund ta shikoni këtë në njërën nga dy mënyrat.

1) Permiresimi i UA. Ne do të kemi AI gjeneruese që zvarritet në sa më shumë të jetë e mundur në internet. Rezultati emocionues është se AI gjenerues do të jetë më i mirë se sa është tashmë. Kjo është diçka për të pritur me padurim.
2) Kopjimi i bollëkut të potencialit. Ky zgjerim i skanimit të internetit po e bën problemin e plagjiaturës dhe shkeljes së të drejtës së autorit në mënyrë të padurueshme dhe tërheqëse potencialisht gjithnjë e më të madh. Ndërsa më parë nuk kishte aq shumë krijues të ndikuar të përmbajtjes, madhësia do të lulëzojë. Nëse je një avokat në anën e krijuesve të përmbajtjes, kjo të sjell lot në sy (ndoshta lot shqetësimi ose lot gëzimi se çfarë perspektive sjell kjo përsa i përket padive).

A është gota gjysmë e mbushur apo gjysmë bosh?

Ti vendos.

Në pritje të minave ligjore tokësore

Një pyetje që mund të mendoni është nëse përmbajtja juaj e postuar në internet konsiderohet lojë e drejtë për t'u skanuar. Nëse përmbajtja juaj është pas një muri pagesash, me sa duket nuk është një objektiv për t'u skanuar sepse nuk mund të arrihet lehtësisht, në varësi të fuqisë së murit të pagesës.

Unë do të mendoj se shumica e njerëzve të zakonshëm nuk e kanë përmbajtjen e tyre të fshehur pas një muri pagesash. Ata duan që përmbajtja e tyre të jetë e disponueshme publikisht. Ata supozojnë se njerëzit do t'i hedhin një sy.

A do të thotë që përmbajtja juaj të jetë e disponueshme publikisht gjithashtu në mënyrë aksiomatike se po e miratoni që ajo të skanohet për përdorim nga AI gjeneruese që po trajnohet me të dhëna?

Ndoshta po ndoshta jo.

Është një nga ato çështjet ligjore.

Duke iu rikthyer asaj të cituar më parë Ligji i Bloomberg artikull, autorët përmendin rëndësinë e Termave dhe Kushteve (T&C) të lidhura me shumë faqe interneti:

“Mina legale – e injoruar shumë nga kompanitë e padashur të AI që operojnë bots në internet për grumbullimin e të dhënave – fshihet në Termat dhe Kushtet e disponueshme zakonisht në faqet e internetit publike të të gjitha llojeve. Në kontrast me ligjin e pazgjidhur aktualisht të IP dhe dilemën e shkeljes së të drejtës së autorit, Termat dhe Kushtet e një faqe interneti mbështeten nga ligji i mirëpërcaktuar i kontratës dhe zakonisht mund të zbatohen në gjykatë duke u mbështetur në një numër të mjaftueshëm precedentësh.

Ata tregojnë se duke supozuar se faqja juaj e internetit ka një faqe të lidhur me licencimin, shanset janë që nëse keni përdorur një model të standardizuar të ditëve moderne, ai mund të përmbajë një klauzolë thelbësore:

“Rrjedhimisht, shumica e Termave dhe Kushteve për faqet e internetit – të disponueshme me bollëk në akses të lirë – përmbajnë një klauzolë që ndalon grumbullimin e automatizuar të të dhënave. Ironikisht, shabllone të tillë të disponueshëm lirisht janë përdorur ndoshta për trajnimin ChatGPT. Prandaj, pronarët e përmbajtjes mund të dëshirojnë të rishikojnë Termat dhe Kushtet e tyre dhe të fusin një klauzolë të veçantë që ndalon rreptësisht të gjithë përdorimin e çdo përmbajtjeje nga faqet e internetit për trajnime të AI ose për qëllime të ngjashme, qoftë të mbledhura manualisht ose automatikisht, pa një leje paraprake me shkrim të pronarit të faqes në internet. .”

Një sulmues i shtuar përfshihet në analizën e tyre të veprimeve të mundshme që krijuesit e përmbajtjes duhet të ndërmarrin në lidhje me faqet e tyre të internetit:

“Prandaj, futja e një dispozite të detyrueshme për dëmet e likuiduara për çdo shkelje të klauzolës së mos gërvishtjes, e përmirësuar me një dispozitë urdhri-pa obligacion, mund të jetë një zgjidhje e qëndrueshme për ata autorë të përmbajtjes krijuese që nuk janë të prirur të japin frytet e tyre. puna intelektuale për qëllime trajnimi të AI pa u paguar për të ose, të paktën, pa u dhënë një kredi e duhur për punën e tyre.”

Ju mund të dëshironi të konsultoheni me avokatin tuaj për këtë.

Disa thonë se kjo është një mënyrë jetike për t'u thënë krijuesve të inteligjencës artificiale se krijuesit e përmbajtjes janë jashtëzakonisht seriozë për mbrojtjen e përmbajtjes së tyre. Duke u siguruar që licencimi juaj të ketë formulimin e duhur, duket se i vë në dijeni krijuesit e AI.

Edhe pse të tjerat janë pak të dobëta. Ata thonë me dëshpërim se ju mund të vazhdoni të vendosni gjuhën më të ashpër dhe më vdekjeprurëse ligjore në faqen tuaj të internetit, por në fund, krijuesit e AI do ta skanojnë atë. Ju nuk do ta dini se ata e bënë këtë. Ju do të keni një djall të një kohe që provon se ata e bënë. Nuk ka gjasa të zbuloni se rezultatet e tyre pasqyrojnë përmbajtjen tuaj. Është një betejë e vështirë që nuk do ta fitoni.

Kundërargumenti është se ju po e dorëzoni betejën para se ajo të zhvillohej. Nëse të paktën nuk keni gjuhë të mjaftueshme ligjore dhe nëse i kapni ndonjëherë, ata do të lëvizin dhe do të gërvishtin rrugën e tyre për t'i shpëtuar çdo përgjegjësie. Gjithçka sepse nuk postove llojin e duhur të zhargonit ligjor.

Ndërkohë, një tjetër qasje që kërkon të fitojë tërheqje do të konsistonte në shenjë faqen tuaj të internetit me diçka që thotë se faqja nuk duhet të skanohet nga AI gjeneruese. Ideja është që do të krijohej një shënues i standardizuar. Uebsajtet me sa duket mund të shtojnë shënuesin në faqen e tyre. Krijuesve të AI do t'u thuhet se duhet të ndryshojnë skanimin e të dhënave të tyre për të kapërcyer faqet e internetit të shënuara.

A mund të jetë e suksesshme një qasje shënjuese? Shqetësimet përfshijnë kostot për marrjen dhe postimin e shënuesve. Së bashku me faktin nëse krijuesit e AI do të respektojnë shënuesit dhe do të sigurojnë që ata të shmangin skanimin e vendeve të shënuara. Një perspektivë tjetër është se edhe nëse krijuesit e AI nuk shkojnë së bashku me shenjat, kjo ofron një tjetër të dhënë treguese për të shkuar në gjykatë dhe për të argumentuar se krijuesi i përmbajtjes kaloi miljen e fundit për të provuar dhe paralajmëruar për skanimin e AI.

Po, të gjitha të bëjnë kokën të rrotullohet.

Përfundim

Disa vërejtje të fundit për këtë temë të mprehtë.

A jeni gati për një perspektivë marramendëse për të gjithë këtë AI si një dilemë plagjiatore dhe shkelëse të së drejtës së autorit?

Pjesa më e madhe e supozimit për "kapjen" e AI gjeneruese në aktin e plagjiaturës ose shkeljes së të drejtës së autorit varet nga zbulimi i rezultateve që ngjajnë shumë punët e mëparshme të tilla si përmbajtja në internet që është skanuar potencialisht gjatë trajnimit të të dhënave.

Megjithatë, supozoni se këtu është në lojë një dredhi përça dhe sundo.

Ja çfarë dua të them.

Nëse inteligjenca artificiale gjeneruese merr hua pak nga këtu dhe pak nga atje, në fund të fundit duke i përzier ato së bashku për të prodhuar ndonjë rezultat të veçantë, shanset për të qenë në gjendje të keni një moment të caktuar zvogëlohen jashtëzakonisht. Çdo prodhim nuk do të rritet në dukje në një prag të mjaftueshëm që mund të thuash me siguri se është kopjuar nga një artikull i veçantë burimor. Eseja rezultuese ose mënyrat e tjera të prodhimit do të jenë vetëm pjesërisht të përputhshme. Dhe nga qasja e zakonshme e përpjekjes për të argumentuar se ka ndodhur plagjiaturë ose shkelje e të drejtës së autorit, zakonisht duhet të shfaqësh më shumë se sa është në lojë një pjesë e vogël, veçanërisht nëse kafshata nuk është e shquar dhe mund të gjendet gjerësisht në internet (nënçmuar çdo barrë adekuate të provës së përvetësimit).

A mund të deklaroni ende në mënyrë bindëse se trajnimi i të dhënave nga AI gjeneruese i ka hequr faqet e internetit dhe krijuesit e përmbajtjes edhe nëse prova e sugjeruar është një proporcion në dukje jomaterial?

Mendoni për atë.

Nëse po përballemi me plagjiaturë në shkallë dhe me shkelje të të drejtave të autorit në shkallë, mund të na duhet të ndryshojmë qasjen tonë për të përcaktuar se çfarë përbën plagjiaturë dhe/ose shkelje të së drejtës së autorit. Ndoshta mund të bëhet një rast për plagjiaturë ose shkelje të së drejtës së autorit në përgjithësi ose në përgjithësi. Një mozaik i përbërë nga mijëra ose miliona copëza të vogla mund të interpretohet si kryerja e shkeljeve të tilla. Problemi i dukshëm megjithatë është se kjo mund të bëjë që të gjitha llojet e përmbajtjeve të vijnë papritur nën një ombrellë shkeljesh. Kjo mund të jetë një shpat i rrëshqitshëm.

Mendime të rënda.

Duke folur për mendime të rënda, Leo Tolstoi, shkrimtari legjendar, tha në mënyrë të famshme: "Kuptimi i vetëm i jetës është t'i shërbesh njerëzimit".

Nëse faqja juaj e internetit dhe faqet e internetit të të tjerëve po skanohen për përmirësimin e AI, dhe megjithëse nuk po merrni asnjë qindarkë për të, a mund të keni ngushëllim solemn në besimin e zjarrtë se po kontribuoni për të ardhmen e njerëzimit? Duket një çmim i vogël për t'u paguar.

Epo, nëse AI nuk rezulton të jetë rreziku i frikshëm ekzistencial që fshin të gjithë njerëzit nga ekzistenca. Ju nuk duhet të merrni kredi për këtë. Unë supozoj se ju nuk do të kontribuoni në atë rezultat të tmerrshëm. Duke lënë mënjanë këtë parashikim katastrofik, mund të mendoni se nëse krijuesit e AI po fitojnë para nga AI gjeneruese dhe ata duket se po e shijojnë përfitimin, edhe ju duhet të merrni një pjesë të byrekut. Shpërndajeni dhe shpërndajeni njësoj. Krijuesit e inteligjencës artificiale duhet të kërkojnë leje për të skanuar çdo faqe interneti dhe më pas të negociojnë një çmim që duhet paguar për të qenë lejuar të ndërmarrë skanimin.

Jepni kredi aty ku duhet kredia.

Le t'i japim Sir Walter Scott fjalën e fundit tani për tani: “Oh, çfarë rrjete të ngatërruar ne thurim. Kur së pari ne praktikojmë të mashtrojmë.”

Kjo mund të zbatohet nëse besoni se mashtrimi është duke u bërë, ose ndoshta nuk zbatohet nëse mendoni se gjithçka është mirë dhe krejtësisht e drejtpërdrejtë dhe legjitime. Ju lutemi jepini me bujari vetes meritën për të menduar për këtë. Ti e meriton.

Burimi: https://www.forbes.com/sites/lanceeliot/2023/02/26/legal-doomsday-for-generative-ai-chatgpt-if-caught-plagiarizing-or-infringing-warns-ai-ethics- dhe-ligji/