久久婷婷五月综合色国产婷,国产av无遮挡喷水冒白浆,国产人妖精品视频一区,中国国产精品视频

你的網站內容被用于AI訓練了嗎?(轉載自Zac博客)

  • 2023年05月21日

最近幾個月不管SEO行業(yè)還是整個科技行業(yè),最熱門的話題無疑是人工智能。

說實話,過去20多年來,我一直沒覺得SEO技術有什么根本變化。雖然搜索引擎?zhèn)兠刻旄滤惴?,SEO們探索各種技巧,新名詞層出不窮,這個戰(zhàn)法,那個黑科技……其實呢,真沒什么變化,無非是:創(chuàng)作好的內容,讓蜘蛛能抓到,讓用戶能正常訪問,然后,就沒了。

自從ChatGPT出現(xiàn)以后,我第一次感覺可能要有變化了。我從來沒有像現(xiàn)在這樣覺得,SEO可能會有不同的做法了。

所以,現(xiàn)在能引起寫帖子沖動的只有AI了。

上篇討論AI是否會消滅SEO的帖子里提到過,Google測試中的生成式AI沒有給出內容出處,也就不會給其他網站帶來流量,那么站長們還不得抗議?還能讓Google蜘蛛來抓網站內容?我辛辛苦苦創(chuàng)作內容,讓蜘蛛免費來抓,訓練出AI,回答用戶問題時沒有鏈接,沒有出處,不會給網站帶來任何好處,我圖什么呀?如果有那么一天,我反正直接禁止Google蜘蛛來抓了。

那么,現(xiàn)在你的網站內容已經被用于AI訓練了嗎?這個不太容易確切知道,因為生成式AI的回答不是偽原創(chuàng),不是拼接,是在學習大量數(shù)據后AI自己寫的原創(chuàng)。

Bing還好,會標出部分出處,被標的網站顯然被用于訓練了。Google有沒有用呢?

前兩天華盛頓郵報發(fā)了一篇文章:“Inside the secret list of websites that make AI like ChatGPT sound smart“ – ”那些使ChatGPT之類AI看起來挺聰明的網站們“。文章內嵌了一個小功能,可以查某個網站是否被Google用于AI訓練,以及用的比例。

AI們訓練的數(shù)據是海量的,來源也挺多,出版的書籍,各種數(shù)據庫,wiki,普通網站肯定也是其中一部分。C4是Google訓練AI使用的一個網站數(shù)據集,里面有一千五百萬個網站。華盛頓郵報分析了每個網站出現(xiàn)的token次數(shù),token越多,大致上被用于訓練的數(shù)據越多。token我不確定該怎么翻譯,“字符串”?反正指的是一小段文字,比如一個詞或一個短語。

C4不是Google用于AI訓練的所有網站,所以里面沒有的網站,不一定就沒被用于訓練。比如查一下zhihu.com,居然一個token都沒有,這不科學,我無法相信知乎的內容沒有被用于訓練。

已經有人用這個小工具統(tǒng)計出被Google用于訓練的token數(shù)和占比,Google專利第一,wikipedia第二,scribd第三:

谷歌token

出于好奇和虛榮心,肯定要查一下自己博客:

昝輝博客

被用了,280個token。好吧,我也不知道是該高興還是難過。有點欣慰是肯定的,畢竟,連聯(lián)合早報都只有19個token:

昝輝博客token

但短暫的虛榮得到滿足之后,接下來就會想,我真的愿意我的內容被Google用于AI訓練嗎 – 在得不到任何好處的情況下?

各位可以查一下自己的網站有沒有被用。用了的話,你心甘情愿嗎?