草 - 一場數據革命

中級12/9/2024, 8:36:14 AM
Grass 為 AI 模型和應用程式提供整個互聯網作為數據集的訪問權限,該數據集通過全球節點網絡收集,這些節點通過貢獻閒置的互聯網帶寬。他們已經取得了強大的初步進展,擁有超過 250 萬用戶。

執行摘要

生成式AI是近期最重要的創新,隨著時間的推移變得更加重要。生成式AI基本上是由三個元素組成的產品:

算法 + 數據 + 計算 = 智能

這意味著數據和計算很可能成為全球最重要的資產之一,並且對它們的訪問將非常重要。

生成式人工智能模型需要大量的数据。最重要的生成式人工智能模型所操作的数据是互联网价值的数据,这是对所有人类知识总和的近似。

加密貨幣的核心是為全球提供對新數字資源的訪問,並通過代幣將以前不是資產的事物資產化。Grass通過數據實現了這一點。

Grass為AI模型和應用程序提供了整個互聯網作為數據集,實時地通過全球節點網絡收集,這些節點網絡由貢獻他們閒置的互聯網帶寬的節點構成。他們已經取得了強勁的初步成果,擁有超過250萬用戶。[1]

Grass的長期潛力市場巨大,與AI市場的規模及其未來增長相對應。過去,收集這一規模的數據集僅限於最大的科技巨頭。 Grass為數據帶來了新的經濟效益,降低了成本。這使得數據訪問不僅僅服務於精英大公司,而是長尾AI行業的廣泛需求。

問題

AI 模型訓練和微調需要大量的數據。從歷史上看,許多數據都是通過 AI 模型創建者從網站上爬取的。這種爬取數據的過程存在一些挑戰:

  • 網絡爬蟲成本高昂。只有少數大型機構有能力定期爬取整個網絡。這使得小型AI開發者無法訪問數據。
  • IP封鎖。 那些爬蟲服務與內容創作者之間一直在進行一場貓捉老鼠的遊戲。 封鎖IP地址以阻止爬蟲是相對簡單的,這樣就很難實現爬蟲目標並收集所需的數據進行AI訓練和微調。
  • 浪費資源。 爬網是一項可以使許多客戶受益的任務。 如果由單一客戶完成,所需的硬件、帶寬和計算能力是低效的。
  • 資料新鮮度。掃描整個互聯網是繁瑣且昂貴的。這使得大多數用戶經常掃描變得不切實際,進而降低了數據的新鮮度和影響AI模型的質量。

Grass' Solution

Grass旨在通過創建一個聯邦網絡的網絡爬蟲來解決這些問題。 參與Grass網絡的每個個人都會貢獻其未使用的互聯網帶寬的一部分,以從其IP地址提供少量的爬取。 然後,Grass從這些節點中組合數據,形成一個對AI訓練和微調有用的組合數據集。 這是一種優雅且合適的使用加密貨幣驅動的分佈式網絡。

未使用的互聯網還有其他業務案例,例如:

  • 收集本地/地理數據,如廣告
  • 進行學術研究
  • 檢查本地價格

今天,草使用現有的硬件(筆記本電腦,桌上型電腦等)收集數據。未來,草計劃提供一種數據收集設備,這是一種專門用於數據收集的定制硬件設備,由於該設備為特定任務進行了優化,因此可以提高效率。

草的好處

使用分布式網絡進行數據收集有幾個好處:

  • 在規模上變得更便宜的民主化獲取網絡數據。 與其讓單個客戶為自己的需求收集數據,Grass代表許多客戶收集數據。 這些數據可以被多次轉售,從而在數據上實現規模經濟,降低刮取的經濟成本,使市場更加高效。 在規模上,Grass理論上可以成為客戶最具成本效益的數據收集解決方案,為他們的協議創造經濟網絡效應。 這意味著數據收集現在對任何人都可用,而不僅僅是一些有資源刮取網絡的大公司。
  • IP封鎖變得不可行。通過分發爬取,檢測和停止爬取變得更加困難,因為每個節點僅進行相對較少的數據捕獲,很難區分典型的互聯網流量。這導致更完整的數據集進行訓練。
  • 互聯網帶寬被更有效地使用。由於草地有效地利用了未使用的互聯網帶寬,所以比為了刮取而配置新的帶寬更有效率。
  • 數據更準確和最新。頻繁地進行刮取比一個典型的客戶自行刮取更具成本效益。這導致數據不會過時。這很重要,因為相應的AI模型更加時新。

挑戰:將數據化為貨幣的內容創作者

在爬取數據時需要小心應對的一個棘手問題是內容創作者。這包括紐約時報和Reddit等網站,他們已開始將數據授權給第三方用於訓練人工智能模型以實現盈利。他們自然會對自己網站上的數據進行保護,因為這些數據對他們來說代表著非常有利可圖的收入來源。事實上,Reddit已禁止開發者使用其API進行機器學習,以保護其將數據授權給人工智能模型創建者的商業模式(請參閱服務條款)。這裡).

未來對於內容創作者意味著什麼?對於用戶生成的內容(UGC),例如Reddit,有一種觀點認為用戶擁有自己的數據(而不是平台),因為內容是由用戶創建的,應該由這些用戶擁有。從法律角度來看,這種觀點尚未得到充分探討,這將是有趣的事情。然而,如果用戶確實擁有他們貢獻的數據,那麼Grass可能代表了一條幫助這些用戶將其貢獻的數據商品化的假設途徑。例如,Grass可以獎勵Reddit的貢獻者,他們自願貢獻在Reddit上創建的數據。

對於像紐約時報這樣的付費內容創作者,內容是由付費作家創作的,因此沒有爭論可以用來主張用戶擁有的數據。因此,Grass可以簡單地排除這些網站不被抓取。或者,Grass可能會擴展到一個程度,以至於Grass本身成為這些網站的客戶並支付許可費變得可行。這種假設的工作方式是,Grass的客戶可以支付數據,然後Grass可以將收入分享給內容創作者,從而在靈活的預算上實現AI模型的創建。或者,Grass可以達到這樣的規模,可以代表所有客戶就大量授權交易進行談判。

Grass’ Launch

Grass在今年早些时候有一次非常令人印象深刻的推出:

  • Grass在Solana的歷史上進行了最廣泛的空投活動。[2]
  • 超過2百萬個錢包聲稱導致Solana的網絡在空投活動下承受壓力。
  • 全球范围内Grass的用户总数超过250万人。[3]
  • Grass具有能力和數據來訓練OpenAI的ChatGPT 3.5模型。
  • 作為對其平台的演示,Grass已經將一個包含自Reddit 2024年以來6億篇帖子和評論的數據集開源(參見這裡用於公告和這裡對於數據集)。

截至目前為止,草幣有正向價格行動發布後(+115%),這在大多數代幣在上市後的幾天/幾周內下跌是不尋常的。這很可能是對空投分發的聰明方法的一種反映,以及對Grass的未來和潛力的信任。總的來說,這是網絡的一個很好的開端,我們相信這為未來許多繁榮的一年鋪平了道路。

Grass 自 2024 年 10 月 28 日推出以來的代幣表現

來源:TradingView。

開始貢獻通過連接您的 Solana 錢包並賺取 Grass 代幣,利用您未使用的網絡帶寬。

想要使用Grass的數據集來進行您的業務、研究或項目嗎?請聯繫團隊discover@grassfoundation.io.

腳註

[1] 來源:https://www.getgrass.io/
[2] Source: https://www.google.com/url?q=https://www.theblock.co/post/323805/grass-becomes-most-distributed-solana-airdrop-as-nearly-1-5-million-addresses-claim-tokens&sa=D&source=docs&ust=1732646335082707&usg=AOvVaw0oVvhJL661rmE1ABmJqOyP.
[3] 資料來源: https://www.getgrass.io/.

免責聲明:

  1. 本文轉載自[Hack VC], 所有版權屬於原作者 [艾德·羅曼]. 如果對此轉載有異議,請聯繫 Gate 學習團隊將會迅速處理。
  2. 免責聲明:本文所表達的觀點和意見僅代表作者本人,並不構成任何投資建議。
  3. 本文的翻譯由 Gate Learn 團隊完成。未經許可,禁止複製、分發或抄襲翻譯後的文章。

草 - 一場數據革命

中級12/9/2024, 8:36:14 AM
Grass 為 AI 模型和應用程式提供整個互聯網作為數據集的訪問權限,該數據集通過全球節點網絡收集,這些節點通過貢獻閒置的互聯網帶寬。他們已經取得了強大的初步進展,擁有超過 250 萬用戶。

執行摘要

生成式AI是近期最重要的創新,隨著時間的推移變得更加重要。生成式AI基本上是由三個元素組成的產品:

算法 + 數據 + 計算 = 智能

這意味著數據和計算很可能成為全球最重要的資產之一,並且對它們的訪問將非常重要。

生成式人工智能模型需要大量的数据。最重要的生成式人工智能模型所操作的数据是互联网价值的数据,这是对所有人类知识总和的近似。

加密貨幣的核心是為全球提供對新數字資源的訪問,並通過代幣將以前不是資產的事物資產化。Grass通過數據實現了這一點。

Grass為AI模型和應用程序提供了整個互聯網作為數據集,實時地通過全球節點網絡收集,這些節點網絡由貢獻他們閒置的互聯網帶寬的節點構成。他們已經取得了強勁的初步成果,擁有超過250萬用戶。[1]

Grass的長期潛力市場巨大,與AI市場的規模及其未來增長相對應。過去,收集這一規模的數據集僅限於最大的科技巨頭。 Grass為數據帶來了新的經濟效益,降低了成本。這使得數據訪問不僅僅服務於精英大公司,而是長尾AI行業的廣泛需求。

問題

AI 模型訓練和微調需要大量的數據。從歷史上看,許多數據都是通過 AI 模型創建者從網站上爬取的。這種爬取數據的過程存在一些挑戰:

  • 網絡爬蟲成本高昂。只有少數大型機構有能力定期爬取整個網絡。這使得小型AI開發者無法訪問數據。
  • IP封鎖。 那些爬蟲服務與內容創作者之間一直在進行一場貓捉老鼠的遊戲。 封鎖IP地址以阻止爬蟲是相對簡單的,這樣就很難實現爬蟲目標並收集所需的數據進行AI訓練和微調。
  • 浪費資源。 爬網是一項可以使許多客戶受益的任務。 如果由單一客戶完成,所需的硬件、帶寬和計算能力是低效的。
  • 資料新鮮度。掃描整個互聯網是繁瑣且昂貴的。這使得大多數用戶經常掃描變得不切實際,進而降低了數據的新鮮度和影響AI模型的質量。

Grass' Solution

Grass旨在通過創建一個聯邦網絡的網絡爬蟲來解決這些問題。 參與Grass網絡的每個個人都會貢獻其未使用的互聯網帶寬的一部分,以從其IP地址提供少量的爬取。 然後,Grass從這些節點中組合數據,形成一個對AI訓練和微調有用的組合數據集。 這是一種優雅且合適的使用加密貨幣驅動的分佈式網絡。

未使用的互聯網還有其他業務案例,例如:

  • 收集本地/地理數據,如廣告
  • 進行學術研究
  • 檢查本地價格

今天,草使用現有的硬件(筆記本電腦,桌上型電腦等)收集數據。未來,草計劃提供一種數據收集設備,這是一種專門用於數據收集的定制硬件設備,由於該設備為特定任務進行了優化,因此可以提高效率。

草的好處

使用分布式網絡進行數據收集有幾個好處:

  • 在規模上變得更便宜的民主化獲取網絡數據。 與其讓單個客戶為自己的需求收集數據,Grass代表許多客戶收集數據。 這些數據可以被多次轉售,從而在數據上實現規模經濟,降低刮取的經濟成本,使市場更加高效。 在規模上,Grass理論上可以成為客戶最具成本效益的數據收集解決方案,為他們的協議創造經濟網絡效應。 這意味著數據收集現在對任何人都可用,而不僅僅是一些有資源刮取網絡的大公司。
  • IP封鎖變得不可行。通過分發爬取,檢測和停止爬取變得更加困難,因為每個節點僅進行相對較少的數據捕獲,很難區分典型的互聯網流量。這導致更完整的數據集進行訓練。
  • 互聯網帶寬被更有效地使用。由於草地有效地利用了未使用的互聯網帶寬,所以比為了刮取而配置新的帶寬更有效率。
  • 數據更準確和最新。頻繁地進行刮取比一個典型的客戶自行刮取更具成本效益。這導致數據不會過時。這很重要,因為相應的AI模型更加時新。

挑戰:將數據化為貨幣的內容創作者

在爬取數據時需要小心應對的一個棘手問題是內容創作者。這包括紐約時報和Reddit等網站,他們已開始將數據授權給第三方用於訓練人工智能模型以實現盈利。他們自然會對自己網站上的數據進行保護,因為這些數據對他們來說代表著非常有利可圖的收入來源。事實上,Reddit已禁止開發者使用其API進行機器學習,以保護其將數據授權給人工智能模型創建者的商業模式(請參閱服務條款)。這裡).

未來對於內容創作者意味著什麼?對於用戶生成的內容(UGC),例如Reddit,有一種觀點認為用戶擁有自己的數據(而不是平台),因為內容是由用戶創建的,應該由這些用戶擁有。從法律角度來看,這種觀點尚未得到充分探討,這將是有趣的事情。然而,如果用戶確實擁有他們貢獻的數據,那麼Grass可能代表了一條幫助這些用戶將其貢獻的數據商品化的假設途徑。例如,Grass可以獎勵Reddit的貢獻者,他們自願貢獻在Reddit上創建的數據。

對於像紐約時報這樣的付費內容創作者,內容是由付費作家創作的,因此沒有爭論可以用來主張用戶擁有的數據。因此,Grass可以簡單地排除這些網站不被抓取。或者,Grass可能會擴展到一個程度,以至於Grass本身成為這些網站的客戶並支付許可費變得可行。這種假設的工作方式是,Grass的客戶可以支付數據,然後Grass可以將收入分享給內容創作者,從而在靈活的預算上實現AI模型的創建。或者,Grass可以達到這樣的規模,可以代表所有客戶就大量授權交易進行談判。

Grass’ Launch

Grass在今年早些时候有一次非常令人印象深刻的推出:

  • Grass在Solana的歷史上進行了最廣泛的空投活動。[2]
  • 超過2百萬個錢包聲稱導致Solana的網絡在空投活動下承受壓力。
  • 全球范围内Grass的用户总数超过250万人。[3]
  • Grass具有能力和數據來訓練OpenAI的ChatGPT 3.5模型。
  • 作為對其平台的演示,Grass已經將一個包含自Reddit 2024年以來6億篇帖子和評論的數據集開源(參見這裡用於公告和這裡對於數據集)。

截至目前為止,草幣有正向價格行動發布後(+115%),這在大多數代幣在上市後的幾天/幾周內下跌是不尋常的。這很可能是對空投分發的聰明方法的一種反映,以及對Grass的未來和潛力的信任。總的來說,這是網絡的一個很好的開端,我們相信這為未來許多繁榮的一年鋪平了道路。

Grass 自 2024 年 10 月 28 日推出以來的代幣表現

來源:TradingView。

開始貢獻通過連接您的 Solana 錢包並賺取 Grass 代幣,利用您未使用的網絡帶寬。

想要使用Grass的數據集來進行您的業務、研究或項目嗎?請聯繫團隊discover@grassfoundation.io.

腳註

[1] 來源:https://www.getgrass.io/
[2] Source: https://www.google.com/url?q=https://www.theblock.co/post/323805/grass-becomes-most-distributed-solana-airdrop-as-nearly-1-5-million-addresses-claim-tokens&sa=D&source=docs&ust=1732646335082707&usg=AOvVaw0oVvhJL661rmE1ABmJqOyP.
[3] 資料來源: https://www.getgrass.io/.

免責聲明:

  1. 本文轉載自[Hack VC], 所有版權屬於原作者 [艾德·羅曼]. 如果對此轉載有異議,請聯繫 Gate 學習團隊將會迅速處理。
  2. 免責聲明:本文所表達的觀點和意見僅代表作者本人,並不構成任何投資建議。
  3. 本文的翻譯由 Gate Learn 團隊完成。未經許可,禁止複製、分發或抄襲翻譯後的文章。
Empieza ahora
¡Registrarse y recibe un bono de
$100
!