Grass - A Data Revolusion

中級12/9/2024, 8:36:14 AM
Grassは、AIモデルとアプリが、世界中のノードのネットワークを介して収集されたインターネット全体をデータセットとして利用できるようにします。これらのノードは、アイドルのインターネット帯域幅を提供しています。2.5百万人以上のユーザーから強力な初期のトラクションを得ています。

エグゼクティブサマリー

ジェネレーティブAIは最近の記憶の中で最も重要なイノベーションであり、時間が経つにつれてますます重要になっています。ジェネレーティブAIは基本的に3つの要素の産物です:

アルゴリズム+データ+コンピュート=インテリジェンス

これは、データとコンピュートがおそらく世界で最も重要な資産の2つになり、それにアクセスすることが非常に重要になることを意味します。

Generative AIモデルはデータに飢えています。最も重要なGenerative AIモデルが操作するデータは、すべての人間の知識の総和の近似値であるインターネットの価値のデータです。

暗号通貨は、世界中の新しいデジタルリソースへのアクセスを提供し、トークンを介して以前は資産ではなかったものを資産化することを目指しています。Grassはデータに対してこれを行います。

Grassは、世界中のノードのネットワークを介して収集されたライブデータセットとして、AIモデルやアプリにインターネット全体へのアクセスを提供します。これにより、アイドルのインターネット帯域幅を提供している世界中のノードのネットワークを介して収集されたデータセットを使用できます。彼らは250万人以上のユーザーに強い初期トラクションを持っています。[1]

Grassの長期的な市場のポテンシャルは巨大であり、AI市場の規模と将来の成長に比例しています。過去には、このスケールのデータセットの収集は、最大のテック巨人に限定されていました。Grassはデータに新しい経済性をもたらし、コストを下げます。これにより、エリートな大企業だけでなく、AI業界のロングテールにもデータアクセスが民主化されます。

問題

AIモデルのトレーニングと微調整には膨大な量のデータが必要です。歴史的には、そのデータの多くはAIモデルの作成者がウェブサイトからデータを収集することで収集されてきました。このスクレイピングプロセスにはいくつかの課題があります:

  • ウェブスクレイピングはコストがかかります。定期的にウェブ全体をスクレイピングすることができるのはわずかな大規模な組織だけです。これにより、小規模なAI開発者はデータにアクセスできなくなります。
  • IPブロック。スクレイピングサービスとコンテンツ作成者の間で駆け引きが続いています。IPアドレスをブロックしてスクレイピングを停止するのはかなり簡単ですが、スクレイピングの目標を達成し、AIトレーニングや微調整に必要なデータを収集するのは困難です。
  • Wasted resources. Scraping the web is a task that can benefit many customers. The hardware, bandwidth, and compute power needed for this is inefficient if done by a single customer.
  • データの新鮮さ。インターネット全体をスキャンするのは手間がかかり、コストがかかります。これにより、ほとんどのユーザーが頻繁にスキャンすることが実用的でなくなり、データが新鮮でなくなり、AIモデルの品質に影響します。

グラスのソリューション

Grassは、ウェブスクレイパーの連邦ネットワークを作成することによって、これらの問題を解決しようとしています。 Grassネットワークに参加する個々の参加者は、自分の未使用のインターネット帯域の一部を提供して、IPアドレスからの少量のスクレイピングを提供します。 Grassは、それぞれのノードからデータを集め、AIのトレーニングと微調整に役立つ組み合わせたデータセットを作成します。これは、暗号通貨によって駆動される分散ネットワークの優雅で適切な使用です。

未使用のインターネットには他にもビジネスケースがあります。たとえば、

  • ローカル/地理データ、広告などの収集
  • 学術研究を行う
  • 地元の価格を確認する

現在、Grassは既存のハードウェア(ラップトップ、デスクトップなど)を使用してデータを収集しています。 将来的には、Grassはデータ収集専用のカスタムハードウェアデバイスであるデータ収集アプライアンスを提供する予定で、アプライアンスがその特定のタスクに最適化されているため、効率が向上します。

草の利点

データ収集に分散ネットワークを利用することには、いくつかの利点があります:

  • 規模が拡大するにつれて安価になるウェブデータへの民主的なアクセス。個々の顧客が自分自身のニーズのためにデータを収集するのではなく、Grassは多くの顧客を代表してデータを収集します。このデータは複数回転売されることができ、データの規模メリットを生み出し、スクレイピングの経済コストを下げ、市場をより効率的にします。規模が拡大するにつれて、Grassは顧客にとって最も費用対効果の高いデータ収集ソリューションになる可能性があり、彼らのプロトコルの周りに経済的なネットワーク効果を創出します。これにより、データ収集は、リソースを持つ大手企業だけでなく、誰でも利用できるようになります。
  • IP blocking becomes infeasible. By distributing the scraping, it becomes much more difficult to detect and stop the scraping, since each node only does a relatively minor amount of data capture and is hard to distinguish from typical Internet traffic. This results in more complete datasets for training.
  • インターネット帯埯はより効率的に使用されます。グラスは未使用のインターネット帯埯を効果的に共同利用するため、新しい帯埯をスクレイピングするためだけに提供するよりも効率的です。
  • データはより正確で最新です。通常の顧客が自分で行うよりも、より頻繁にスクレイピングすることが費用対効果が高くなります。これにより、より新鮮なデータが得られます。これは、生成されるAIモデルがより最新であるため重要です。

課題:データを収益化するコンテンツクリエイター

スクレイピングデータを処理する際の難しい点の1つは、コンテンツクリエイターです。これには、NYタイムズやRedditなどのサイトが含まれます。これらのサイトは、AIモデルのトレーニングのためにデータのライセンスを第三者に提供し始めており、そのデータは彼らにとって非常に収益性の高い収入源を表しているため、当然そのデータを保護しています。実際、Redditは、彼らのビジネスモデルを保護するために、機械学習に開発者APIを使用することを禁止しています(利用規約を参照)。ここ)。

コンテンツクリエイターに未来は何をもたらすのでしょうか? ユーザー生成コンテンツ(UGC)について考えると、Redditなどの場合、ユーザーが自分自身のデータを所有しているという議論があります(プラットフォームではなく)、なぜならコンテンツはユーザーによって作成され、それらのユーザーが所有するべきだからです。この議論はまだ法的観点から十分に探求されていません。今後この点に注目することは興味深いでしょう。ただし、ユーザーが自分のデータを所有している場合、Grassは、ユーザーが自分自身の貢献データを収益化するのを支援する仮想的な経路を表すかもしれません。例えば、GrassはRedditの貢献者自身に報酬を提供することができます。彼らがRedditで作成したデータを自発的に貢献するために。

有料のコンテンツ作成者(例:NYタイムズ)の場合、コンテンツは有料のライターによって作成され、したがって、ユーザー所有のデータについての議論はありません。そのため、Grassはこれらのサイトをスクレイピングの対象から除外することができます。また、Grassが規模を拡大し、それ自体がこれらのサイトの顧客になり、ライセンス料を支払うことが可能になる場合もあります。仮説上、Grassの顧客はデータを支払い、その後、Grassがコンテンツ作成者に収益を分配することで、柔軟な予算でAIモデルの作成が可能になります。または、Grassは規模が大きくなり、すべての顧客を代表して一括ライセンス契約を交渉することができるかもしれません。

Grass’ ローンチ

Grassは今年初めに非常に印象的なローンチをしました:

  • グラスは、Solanaの歴史上、最も広く配布されたエアドロップを行いました。[2]
  • 2百万以上のウォレット claimedエアドロップにより、Solanaのネットワークが圧力に耐え切れずに崩壊しました。
  • Grassは世界中で合計250万人以上のユーザーがいます。[3]
  • Grassには、既にOpenAIのChatGPT 3.5モデルを訓練するための能力とデータがあります。
  • プラットフォームのデモンストレーションとして、GrassはRedditからの2024年の6億件の投稿とコメントからなるデータセットをオープンソース化しました(参照:ここアナウンスメントとここデータセット)。

執筆時点では、Grassトークンはポジティブな価格アクション上場後(+115%)は通常、トークンの価格は上場後の数日/数週間で下落するため、これは異例です。これは、エアドロップの配布への賢明なアプローチと、Grassの将来とポテンシャルへの信念の反映である可能性があります。全体的には、ネットワークへの素晴らしいスタートであり、私たちはこれが将来の繁栄の道を築くことを信じています。

Grass’ Token Performance Since Launch on October 28, 2024

ソース:TradingView。

貢献を開始するSolanaウォレットを接続して未使用のインターネット帯域を共有し、Grassトークンを獲得することができます。

Grassのデータセットをビジネス、研究、またはプロジェクトで使用したい場合は、チームにお問い合わせください。discover@grassfoundation.io.

脚注

[1] ソース: https://www.getgrass.io/.
[2] Source: https://www.google.com/url?q=https://www.theblock.co/post/323805/grass-becomes-most-distributed-solana-airdrop-as-nearly-1-5-million-addresses-claim-tokens&sa=D&source=docs&ust=1732646335082707&usg=AOvVaw0oVvhJL661rmE1ABmJqOyP.
[3] Source: https://www.getgrass.io/.

免責事項:

  1. この記事は gate から転載されました。[Hack VC], すべての著作権は元の著者に帰属します[エド・ローマン]. If there are objections to this reprint, please contact the gate Learnチームはそれを迅速に処理します。
  2. 免責事項:本記事に表明された意見は、著者個人のものであり、投資助言を意味するものではありません。
  3. 他の言語への記事の翻訳は、ゲートラーニングチームによって行われます。特に言及されていない限り、翻訳された記事のコピー、配布、または盗作は禁止されています。

Grass - A Data Revolusion

中級12/9/2024, 8:36:14 AM
Grassは、AIモデルとアプリが、世界中のノードのネットワークを介して収集されたインターネット全体をデータセットとして利用できるようにします。これらのノードは、アイドルのインターネット帯域幅を提供しています。2.5百万人以上のユーザーから強力な初期のトラクションを得ています。

エグゼクティブサマリー

ジェネレーティブAIは最近の記憶の中で最も重要なイノベーションであり、時間が経つにつれてますます重要になっています。ジェネレーティブAIは基本的に3つの要素の産物です:

アルゴリズム+データ+コンピュート=インテリジェンス

これは、データとコンピュートがおそらく世界で最も重要な資産の2つになり、それにアクセスすることが非常に重要になることを意味します。

Generative AIモデルはデータに飢えています。最も重要なGenerative AIモデルが操作するデータは、すべての人間の知識の総和の近似値であるインターネットの価値のデータです。

暗号通貨は、世界中の新しいデジタルリソースへのアクセスを提供し、トークンを介して以前は資産ではなかったものを資産化することを目指しています。Grassはデータに対してこれを行います。

Grassは、世界中のノードのネットワークを介して収集されたライブデータセットとして、AIモデルやアプリにインターネット全体へのアクセスを提供します。これにより、アイドルのインターネット帯域幅を提供している世界中のノードのネットワークを介して収集されたデータセットを使用できます。彼らは250万人以上のユーザーに強い初期トラクションを持っています。[1]

Grassの長期的な市場のポテンシャルは巨大であり、AI市場の規模と将来の成長に比例しています。過去には、このスケールのデータセットの収集は、最大のテック巨人に限定されていました。Grassはデータに新しい経済性をもたらし、コストを下げます。これにより、エリートな大企業だけでなく、AI業界のロングテールにもデータアクセスが民主化されます。

問題

AIモデルのトレーニングと微調整には膨大な量のデータが必要です。歴史的には、そのデータの多くはAIモデルの作成者がウェブサイトからデータを収集することで収集されてきました。このスクレイピングプロセスにはいくつかの課題があります:

  • ウェブスクレイピングはコストがかかります。定期的にウェブ全体をスクレイピングすることができるのはわずかな大規模な組織だけです。これにより、小規模なAI開発者はデータにアクセスできなくなります。
  • IPブロック。スクレイピングサービスとコンテンツ作成者の間で駆け引きが続いています。IPアドレスをブロックしてスクレイピングを停止するのはかなり簡単ですが、スクレイピングの目標を達成し、AIトレーニングや微調整に必要なデータを収集するのは困難です。
  • Wasted resources. Scraping the web is a task that can benefit many customers. The hardware, bandwidth, and compute power needed for this is inefficient if done by a single customer.
  • データの新鮮さ。インターネット全体をスキャンするのは手間がかかり、コストがかかります。これにより、ほとんどのユーザーが頻繁にスキャンすることが実用的でなくなり、データが新鮮でなくなり、AIモデルの品質に影響します。

グラスのソリューション

Grassは、ウェブスクレイパーの連邦ネットワークを作成することによって、これらの問題を解決しようとしています。 Grassネットワークに参加する個々の参加者は、自分の未使用のインターネット帯域の一部を提供して、IPアドレスからの少量のスクレイピングを提供します。 Grassは、それぞれのノードからデータを集め、AIのトレーニングと微調整に役立つ組み合わせたデータセットを作成します。これは、暗号通貨によって駆動される分散ネットワークの優雅で適切な使用です。

未使用のインターネットには他にもビジネスケースがあります。たとえば、

  • ローカル/地理データ、広告などの収集
  • 学術研究を行う
  • 地元の価格を確認する

現在、Grassは既存のハードウェア(ラップトップ、デスクトップなど)を使用してデータを収集しています。 将来的には、Grassはデータ収集専用のカスタムハードウェアデバイスであるデータ収集アプライアンスを提供する予定で、アプライアンスがその特定のタスクに最適化されているため、効率が向上します。

草の利点

データ収集に分散ネットワークを利用することには、いくつかの利点があります:

  • 規模が拡大するにつれて安価になるウェブデータへの民主的なアクセス。個々の顧客が自分自身のニーズのためにデータを収集するのではなく、Grassは多くの顧客を代表してデータを収集します。このデータは複数回転売されることができ、データの規模メリットを生み出し、スクレイピングの経済コストを下げ、市場をより効率的にします。規模が拡大するにつれて、Grassは顧客にとって最も費用対効果の高いデータ収集ソリューションになる可能性があり、彼らのプロトコルの周りに経済的なネットワーク効果を創出します。これにより、データ収集は、リソースを持つ大手企業だけでなく、誰でも利用できるようになります。
  • IP blocking becomes infeasible. By distributing the scraping, it becomes much more difficult to detect and stop the scraping, since each node only does a relatively minor amount of data capture and is hard to distinguish from typical Internet traffic. This results in more complete datasets for training.
  • インターネット帯埯はより効率的に使用されます。グラスは未使用のインターネット帯埯を効果的に共同利用するため、新しい帯埯をスクレイピングするためだけに提供するよりも効率的です。
  • データはより正確で最新です。通常の顧客が自分で行うよりも、より頻繁にスクレイピングすることが費用対効果が高くなります。これにより、より新鮮なデータが得られます。これは、生成されるAIモデルがより最新であるため重要です。

課題:データを収益化するコンテンツクリエイター

スクレイピングデータを処理する際の難しい点の1つは、コンテンツクリエイターです。これには、NYタイムズやRedditなどのサイトが含まれます。これらのサイトは、AIモデルのトレーニングのためにデータのライセンスを第三者に提供し始めており、そのデータは彼らにとって非常に収益性の高い収入源を表しているため、当然そのデータを保護しています。実際、Redditは、彼らのビジネスモデルを保護するために、機械学習に開発者APIを使用することを禁止しています(利用規約を参照)。ここ)。

コンテンツクリエイターに未来は何をもたらすのでしょうか? ユーザー生成コンテンツ(UGC)について考えると、Redditなどの場合、ユーザーが自分自身のデータを所有しているという議論があります(プラットフォームではなく)、なぜならコンテンツはユーザーによって作成され、それらのユーザーが所有するべきだからです。この議論はまだ法的観点から十分に探求されていません。今後この点に注目することは興味深いでしょう。ただし、ユーザーが自分のデータを所有している場合、Grassは、ユーザーが自分自身の貢献データを収益化するのを支援する仮想的な経路を表すかもしれません。例えば、GrassはRedditの貢献者自身に報酬を提供することができます。彼らがRedditで作成したデータを自発的に貢献するために。

有料のコンテンツ作成者(例:NYタイムズ)の場合、コンテンツは有料のライターによって作成され、したがって、ユーザー所有のデータについての議論はありません。そのため、Grassはこれらのサイトをスクレイピングの対象から除外することができます。また、Grassが規模を拡大し、それ自体がこれらのサイトの顧客になり、ライセンス料を支払うことが可能になる場合もあります。仮説上、Grassの顧客はデータを支払い、その後、Grassがコンテンツ作成者に収益を分配することで、柔軟な予算でAIモデルの作成が可能になります。または、Grassは規模が大きくなり、すべての顧客を代表して一括ライセンス契約を交渉することができるかもしれません。

Grass’ ローンチ

Grassは今年初めに非常に印象的なローンチをしました:

  • グラスは、Solanaの歴史上、最も広く配布されたエアドロップを行いました。[2]
  • 2百万以上のウォレット claimedエアドロップにより、Solanaのネットワークが圧力に耐え切れずに崩壊しました。
  • Grassは世界中で合計250万人以上のユーザーがいます。[3]
  • Grassには、既にOpenAIのChatGPT 3.5モデルを訓練するための能力とデータがあります。
  • プラットフォームのデモンストレーションとして、GrassはRedditからの2024年の6億件の投稿とコメントからなるデータセットをオープンソース化しました(参照:ここアナウンスメントとここデータセット)。

執筆時点では、Grassトークンはポジティブな価格アクション上場後(+115%)は通常、トークンの価格は上場後の数日/数週間で下落するため、これは異例です。これは、エアドロップの配布への賢明なアプローチと、Grassの将来とポテンシャルへの信念の反映である可能性があります。全体的には、ネットワークへの素晴らしいスタートであり、私たちはこれが将来の繁栄の道を築くことを信じています。

Grass’ Token Performance Since Launch on October 28, 2024

ソース:TradingView。

貢献を開始するSolanaウォレットを接続して未使用のインターネット帯域を共有し、Grassトークンを獲得することができます。

Grassのデータセットをビジネス、研究、またはプロジェクトで使用したい場合は、チームにお問い合わせください。discover@grassfoundation.io.

脚注

[1] ソース: https://www.getgrass.io/.
[2] Source: https://www.google.com/url?q=https://www.theblock.co/post/323805/grass-becomes-most-distributed-solana-airdrop-as-nearly-1-5-million-addresses-claim-tokens&sa=D&source=docs&ust=1732646335082707&usg=AOvVaw0oVvhJL661rmE1ABmJqOyP.
[3] Source: https://www.getgrass.io/.

免責事項:

  1. この記事は gate から転載されました。[Hack VC], すべての著作権は元の著者に帰属します[エド・ローマン]. If there are objections to this reprint, please contact the gate Learnチームはそれを迅速に処理します。
  2. 免責事項:本記事に表明された意見は、著者個人のものであり、投資助言を意味するものではありません。
  3. 他の言語への記事の翻訳は、ゲートラーニングチームによって行われます。特に言及されていない限り、翻訳された記事のコピー、配布、または盗作は禁止されています。
今すぐ始める
登録して、
$100
のボーナスを獲得しよう!