磨削技術(shù)
創(chuàng )造AI的原數據的安全 |
發(fā)布時(shí)間:2023/9/16 |
生成式人工智能的繁榮正在助長(cháng)一場(chǎng)“數據的影子戰爭”。 隨著(zhù)內容創(chuàng )建者意識到他們的數據被用來(lái)與他們競爭,強烈的反對正在醞釀之中。 生成式人工智能熱潮始于2022年底ChatGPT的驚人成功?,F在,似乎每家公司都在嘗試使用該技術(shù)。 該技術(shù)背后的人工智能模型是使用來(lái)自數百萬(wàn)個(gè)不同來(lái)源的高質(zhì)量數據集構建的。用行業(yè)術(shù)語(yǔ)來(lái)說(shuō),這些是模型“訓練”的原材料。 ![]() Github前首席執行官納特·弗里德曼 (Nat Friedman) 在最近接受科技分析師本·湯普森 (Ben Thompson) 采訪(fǎng)時(shí)表示:“這是正在發(fā)生的事情表面之下的秘密故事?!?br /> Nvidia GPU是AI模型訓練所需的主要硬件。 “但另一個(gè)關(guān)鍵輸入是數據,”弗里德曼說(shuō)?!耙虼?,目前在表面之下正在發(fā)生一場(chǎng)關(guān)于數據的影子戰爭,最大的人工智能實(shí)驗室正在花費巨額資金來(lái)獲取更有價(jià)值的代幣,要么花錢(qián)請專(zhuān)家生成代幣,要么通過(guò)標簽公司工作”。 許多訓練數據都是從互聯(lián)網(wǎng)上抓取并未經(jīng)許可使用的。 渴望更多培訓數據的科技公司也授予自己新的權限,以使用更多的信息。 從互聯(lián)網(wǎng)上抓取的信息的使用引發(fā)了關(guān)于這個(gè)新人工智能世界中版權和許可的未來(lái)的爭論。 基于免費信息共享的在線(xiàn)社區也正在被顛覆。當這些數據可能會(huì )被納入人工智能模型并最終與你競爭時(shí),為什么還要繼續在線(xiàn)共享呢? 來(lái)自熱門(mén)編碼問(wèn)答網(wǎng)站Stack Overflow的數據已用于A(yíng)I模型訓練。最近幾個(gè)月,隨著(zhù)人工智能模型直接提供編碼答案,無(wú)需訪(fǎng)問(wèn)網(wǎng)站并提出問(wèn)題,流量出現下降。 公司、內容創(chuàng )作者和其他網(wǎng)絡(luò )企業(yè)逐漸意識到他們的作品正在被秘密利用來(lái)對付他們。 這破壞了網(wǎng)絡(luò )的大交易,并引發(fā)了強烈反對。 Salesforce首席執行官兼《時(shí)代》雜志所有者馬克·貝尼奧夫(Marc Benioff)表示:“媒體公司開(kāi)始覺(jué)醒,意識到他們的很多信息都被盜了——可能你的一些信息也被盜了?!?br /> “作為媒體所有者,這是一個(gè)主要問(wèn)題,因為我確實(shí)會(huì )去看模特,我會(huì )在那里找到《時(shí)代》雜志的材料,然后說(shuō),‘等一下,那是我的內容,’”他補充道。 越來(lái)越多的網(wǎng)站正在屏蔽網(wǎng)絡(luò )爬蟲(chóng),這些爬蟲(chóng)是用于在網(wǎng)絡(luò )上搜尋數據以進(jìn)行人工智能模型訓練的技術(shù)工具。據Insider8月份報道,來(lái)自ChatGPT創(chuàng )建者OpenAI的GPTbot在短短兩周內就被100個(gè)最受歡迎網(wǎng)站中超過(guò)15% 的網(wǎng)站屏蔽,其中包括亞馬遜和Quora。 Reddit要求為其數據付費,這些數據是人工智能模型訓練的常見(jiàn)來(lái)源。 領(lǐng)先的法律信息提供商LexisNexis不得不警告客戶(hù)不要上傳或與人工智能模型和相關(guān)機器人共享其數據。 Sarah Silverman 起訴OpenAI和Meta,聲稱(chēng)他們在沒(méi)有補償或未經(jīng)許可的情況下使用她的書(shū)來(lái)訓練他們的人工智能模型。 包括瑪格麗特·阿特伍德(Margaret Atwood)和詹姆斯·帕特森(James Patterson)在內的8000多名作者簽署了一封公開(kāi)信,要求人工智能公司賠償,因為他們未經(jīng)許可使用他們的作品來(lái)訓練人工智能。 人工智能公司正在做出回應,主要是試圖降低法律風(fēng)險。 Meta 和其他科技公司已停止披露他們用于訓練人工智能模型的訓練數據。這部分是出于競爭原因,但觀(guān)察人士表示,這也是為了避免法律風(fēng)險。 根據8月份發(fā)布的研究顯示,OpenAI 的ChatGPT試圖隱瞞自己接受過(guò)受版權保護的材料(例如 JK 羅琳的哈利波特系列叢書(shū))的訓練。 其他研究人員開(kāi)發(fā)了一種人工智能模型,可以刪除數據以降低法律風(fēng)險。在此過(guò)程中,他們還創(chuàng )建了一種方法來(lái)衡量特定數據對人工智能模型輸出的貢獻。 |
產(chǎn)品展示
聯(lián)系我們
公司地址:南通市通州區通揚南路588號
聯(lián)系電話(huà):0513-87119922
聯(lián)系人:李先生
手機:15606292777
郵箱:sales@nt2mt.com
網(wǎng)址:http://www.szwksb.cn
聯(lián)系電話(huà):0513-87119922
聯(lián)系人:李先生
手機:15606292777
郵箱:sales@nt2mt.com
網(wǎng)址:http://www.szwksb.cn