久久婷婷五月综合色国产婷,国产av无遮挡喷水冒白浆,国产人妖精品视频一区,中国国产精品视频

你的網(wǎng)站內(nèi)容被用于AI訓(xùn)練了嗎?(轉(zhuǎn)載自Zac博客)

  • 2023年05月21日

最近幾個月不管SEO行業(yè)還是整個科技行業(yè),最熱門的話題無疑是人工智能。

說實話,過去20多年來,我一直沒覺得SEO技術(shù)有什么根本變化。雖然搜索引擎?zhèn)兠刻旄滤惴?,SEO們探索各種技巧,新名詞層出不窮,這個戰(zhàn)法,那個黑科技……其實呢,真沒什么變化,無非是:創(chuàng)作好的內(nèi)容,讓蜘蛛能抓到,讓用戶能正常訪問,然后,就沒了。

自從ChatGPT出現(xiàn)以后,我第一次感覺可能要有變化了。我從來沒有像現(xiàn)在這樣覺得,SEO可能會有不同的做法了。

所以,現(xiàn)在能引起寫帖子沖動的只有AI了。

上篇討論AI是否會消滅SEO的帖子里提到過,Google測試中的生成式AI沒有給出內(nèi)容出處,也就不會給其他網(wǎng)站帶來流量,那么站長們還不得抗議?還能讓Google蜘蛛來抓網(wǎng)站內(nèi)容?我辛辛苦苦創(chuàng)作內(nèi)容,讓蜘蛛免費(fèi)來抓,訓(xùn)練出AI,回答用戶問題時沒有鏈接,沒有出處,不會給網(wǎng)站帶來任何好處,我圖什么呀?如果有那么一天,我反正直接禁止Google蜘蛛來抓了。

那么,現(xiàn)在你的網(wǎng)站內(nèi)容已經(jīng)被用于AI訓(xùn)練了嗎?這個不太容易確切知道,因為生成式AI的回答不是偽原創(chuàng),不是拼接,是在學(xué)習(xí)大量數(shù)據(jù)后AI自己寫的原創(chuàng)。

Bing還好,會標(biāo)出部分出處,被標(biāo)的網(wǎng)站顯然被用于訓(xùn)練了。Google有沒有用呢?

前兩天華盛頓郵報發(fā)了一篇文章:“Inside the secret list of websites that make AI like ChatGPT sound smart“ – ”那些使ChatGPT之類AI看起來挺聰明的網(wǎng)站們“。文章內(nèi)嵌了一個小功能,可以查某個網(wǎng)站是否被Google用于AI訓(xùn)練,以及用的比例。

AI們訓(xùn)練的數(shù)據(jù)是海量的,來源也挺多,出版的書籍,各種數(shù)據(jù)庫,wiki,普通網(wǎng)站肯定也是其中一部分。C4是Google訓(xùn)練AI使用的一個網(wǎng)站數(shù)據(jù)集,里面有一千五百萬個網(wǎng)站。華盛頓郵報分析了每個網(wǎng)站出現(xiàn)的token次數(shù),token越多,大致上被用于訓(xùn)練的數(shù)據(jù)越多。token我不確定該怎么翻譯,“字符串”?反正指的是一小段文字,比如一個詞或一個短語。

C4不是Google用于AI訓(xùn)練的所有網(wǎng)站,所以里面沒有的網(wǎng)站,不一定就沒被用于訓(xùn)練。比如查一下zhihu.com,居然一個token都沒有,這不科學(xué),我無法相信知乎的內(nèi)容沒有被用于訓(xùn)練。

已經(jīng)有人用這個小工具統(tǒng)計出被Google用于訓(xùn)練的token數(shù)和占比,Google專利第一,wikipedia第二,scribd第三:

谷歌token

出于好奇和虛榮心,肯定要查一下自己博客:

昝輝博客

被用了,280個token。好吧,我也不知道是該高興還是難過。有點欣慰是肯定的,畢竟,連聯(lián)合早報都只有19個token:

昝輝博客token

但短暫的虛榮得到滿足之后,接下來就會想,我真的愿意我的內(nèi)容被Google用于AI訓(xùn)練嗎 – 在得不到任何好處的情況下?

各位可以查一下自己的網(wǎng)站有沒有被用。用了的話,你心甘情愿嗎?