AI-ABC

AI Agent Benchmarkfor

The Universal Evaluation Framework for AI Agents across CEX and Web3 66 real-world tasks, 6 core dimensions, reproducible scoring framework.

Visualizza i risultati della valutazione ↓GitHub · Raccolta di domande & Regole di valutazione

66+

Valutazione del compito

dimensione chiave

Agente

Mensile

Aggiornamento mensile

Dimensioni

Dimensioni di valutazione

Copertura degli utenti Crypto su tutta la catena — dalle operazioni di base CEX alle complesse indagini on-chain, tutto costruito su scenari reali.

10 compiti

CEX

Ordine spot, apertura e chiusura di contratti, consultazione della gestione patrimoniale, strategia a griglia, trasferimento di conto e analisi del portafoglio.

10 compiti

DEX

Swap on-chain, confronto dei prezzi dei bridge cross-chain, controllo dello slippage, ottimizzazione del routing multi-step e valutazione del rischio dei contratti.

10 compiti

portafoglio

Multi-chain transfer, stima della riserva di Gas, verifica del formato dell'indirizzo, blocco delle catene errate e trasferimenti condizionati.

12 compiti

Analisi di mercato

Analisi in tempo reale del mercato, analisi tecnica RSI / K-line, valutazione della relazione tra volume e prezzo, confronto tra più criptovalute e analisi della volatilità.

12 compiti

Ricerca del progetto

Analisi dell'economia dei token, valutazione del ciclo narrativo, rilevamento di Rug Pull, confronto con i concorrenti e rapporto di ricerca.

12 compiti

tracciamento on-chain

Analisi dell'immagine dell'indirizzo e dell'analisi dei profitti e delle perdite, tracciamento dei grandi investitori, segnali di Smart Money, monitoraggio della sicurezza del protocollo.

Operazioni di base

Istruzioni passo-passo, intenzioni chiare. Come controllare il saldo, visualizzare i prezzi di mercato, effettuare un ordine semplice.

operazioni condizionali

Contiene controlli preliminari o rami di eccezione. Ad esempio, blocco per saldo insufficiente, completamento dei parametri, identificazione del rischio di catena errata.

compiti complessi

Molti passaggi, molte restrizioni, è necessario ragionare e bilanciare. Ad esempio, il percorso ottimale cross-chain, il trasferimento completo mantenendo il Gas.

Risultati di marzo 2026

Classifica delle valutazioni

Punteggio ponderato complessivo su 6 dimensioni. Tutte le valutazioni utilizzano un meccanismo di consenso a doppio modello, supportato da arbitrato umano.

#	Agente	tipo	Punteggio totale	CEX	DEX	portafoglio	Analisi di mercato	Ricerca del progetto	tracciamento on-chain
1	GateAI Agent	AI generico	83.1	89.7	82.4	61.5	86.8	92.3	83.5
2	Claude Agent（Gate for AI installato）	AI generico	82.8	79.2	81.6	82.2	83.2	89.6	79.9
3	Codex Agent（Gate for AI installato）	AI generico	81.2	80.6	72.8	79	81.5	86.8	84.4
4	AskSurf Agent	Intelligenza Artificiale Crypto	77.5	75.8	75.8	57.5	83.7	95.4	83
5	Manus（Gate for AI installato）	AI generico	74.3	74.5	74.5	77.3	73.7	78.4	68.1
6	Binance Agent	Intelligenza Artificiale Crypto	70.1	59.7	72.3	63.9	69.4	80.3	72.6
7	Claude Agent	AI generico	68.2	59.4	58.6	59	73.1	80.9	73.6
8	Bitget Agent	Intelligenza Artificiale Crypto	62.2	66.1	44.5	48.9	72	80.3	57.2
9	Codex Agent	AI generico	52.2	51.4	46.5	55	60.4	57	42.4

GateAI Agent83.1

Claude Agent（Gate for AI installato）82.8

Codex Agent（Gate for AI installato）81.2

Gate AI Agent si è classificato al primo posto in questa valutazione. Come agente nativo profondamente integrato nell'exchange, si è posizionato al primo posto in tre dimensioni chiave: trading CEX, trading DEX e analisi di mercato. In questa valutazione sono stati inclusi 9 agenti, con argomenti che coprono 6 scenari principali: trading CEX, trading DEX, operazioni con portafogli, analisi di mercato, indagini on-chain e ricerca di progetti, con punteggi basati su un meccanismo di consenso a doppio modello e verifiche manuali. Le prestazioni del Gate AI Agent secondo questi standard rappresentano una completa verifica delle sue capacità native Web3.

Quadro di Valutazione

Metodologia di valutazione

Ogni domanda viene valutata in modo indipendente su 2-3 dimensioni di valutazione, utilizzando un audit di consenso a doppio modello, con tutti i benchmark e i pesi completamente pubblici.

Intent & Parameter Alignment

Does the Agent correctly understand user intent? Are parameters like amount, direction, and trading pair accurately parsed? Are there misunderstandings (e.g., confusing 10U with 10 SOL)?

Execution Result Correctness

Does the Agent provide correct results? Are API calls, calculations, and outputs accurate and complete? Are there fabricated data or false execution claims?

Identificazione e blocco dei rischi

Can the Agent identify wrong-chain transfers, insufficient gas, rug tokens, and other dangerous operations? Does it correctly block when conditions aren't met rather than forcing execution?

Exception Compatibility & Expression

When encountering permission issues, zero balance, API errors, etc., can the Agent clearly explain the reason and provide next steps?

PASS

1.0

Completamente soddisfatto di tutti i criteri di valutazione.

PARTIAL

0.6

La direzione è corretta, ma l'esecuzione non è completa.

FAIL

0.0

Errore, invenzione o rischio per la sicurezza

Revisione del consenso a doppio modello

Each task is scored independently by GPT-5.4 and Claude Sonnet 4.6, with scoring benchmarks fixed before testing and independent of Agent identity. Average scores are taken to avoid single-model bias.

Punteggio complessivo ponderato

Each scoring dimension has explicit weights (e.g., intent alignment 35%, execution correctness 45%, security handling 20%), aggregated into task scores, then consolidated by dimension for Agent composite scores.

Valutazione della classificazione degli agenti

Agente AI Gate

Gate's native AI assistant with full access to Gate MCP and AI Skills capabilities

Agente AI Generale

Mainstream AI platforms' general Agents (e.g., Claude, ChatGPT) with Gate MCP installed

Agente Crypto AI di terze parti

Industry's other Crypto-specific AI Agents

Visualizza l'intero set di domande e le regole di valutazione →

Dettagli sulla valutazione del tema

Dettagli della valutazione per ogni domanda

Clicca su qualsiasi argomento per espandere e visualizzare i punteggi e le dimensioni di valutazione di ciascun agente.

CEX

DEX

portafoglio

Analisi di mercato

Ricerca del progetto

tracciamento on-chain

cex_001L1Fammi vedere quanti USDT ho ancora nel mio conto spot.100▾

Fammi vedere quanti USDT ho ancora nel mio conto spot.

GateAI Agent100

Claude Agent（Gate for AI installato）95

Codex Agent（Gate for AI installato）82.5

AskSurf Agent36.5

Manus（Gate for AI installato）94

Binance Agent87.5

Claude Agent36.5

Bitget Agent77.5

Codex Agent36.5

Dimensioni di valutazione

Comprensione dell'intento dell'accountÈ stato correttamente identificato come una richiesta di saldo dell'account spot, e non come un'operazione di totale attivo, saldo del contratto o ricarica.

Verifica dell'accuratezza del saldoRestituisce il saldo disponibile di USDT in tempo reale, con valori e unità chiari, distinguendo tra disponibile/freddo.

Gestione degli errori e spiegazioniQuando si incontrano problemi come non essere connessi o scadenza dell'autorizzazione, viene fornita una chiara spiegazione e indicazioni sui prossimi passi?

cex_002L1Acquista 10U di SOL al prezzo di mercato.89▾

Acquista 10U di SOL al prezzo di mercato.

GateAI Agent89

Claude Agent（Gate for AI installato）72.5

Codex Agent（Gate for AI installato）87.5

AskSurf Agent77.5

Manus（Gate for AI installato）90

Binance Agent67.5

Claude Agent77.5

Bitget Agent42.5

Codex Agent36.5

Dimensioni di valutazione

Istruzione di analisi accuratezzaComprensione corretta di 10U come importo in USDT, e non come quantità di 10 SOL.

Integrità dell'esecuzione delle transazioniRestituisce risultati di esecuzione, passaggi di conferma o una chiara descrizione dello stato dell'ordine.

Riconoscimento e blocco dei rischiQuando il saldo è insufficiente o i permessi sono limitati, viene bloccato con precisione e viene suggerito all'utente il passo successivo?

cex_003L1Qual è il tasso di rendimento annuale dei prodotti di investimento in USDT?95▾

Qual è il tasso di rendimento annuale dei prodotti di investimento in USDT?

GateAI Agent95

Claude Agent（Gate for AI installato）87.5

Codex Agent（Gate for AI installato）91

AskSurf Agent77.5

Manus（Gate for AI installato）72.5

Binance Agent65

Claude Agent77.5

Bitget Agent69

Codex Agent42.5

Dimensioni di valutazione

Identificazione dell'ambito del prodottoFocalizzarsi su prodotti di investimento/guadagno in USDT, piuttosto che su trading o prestiti.

Risultato di validitàRestituisce almeno una categoria di prodotto finanziario USDT valido e il suo tasso di rendimento annuale

Descrizione dei rendimenti e limitazioniViene spiegata la natura dinamica del tasso di rendimento o le limitazioni di idoneità/area?

cex_004L1Fammi trovare un venditore che supporti Alipay per acquistare 5000 USDT.100▾

Fammi trovare un venditore che supporti Alipay per acquistare 5000 USDT.

GateAI Agent100

Claude Agent（Gate for AI installato）47.5

Codex Agent（Gate for AI installato）60

AskSurf Agent77.5

Manus（Gate for AI installato）55

Binance Agent40

Claude Agent36.5

Bitget Agent42.5

Codex Agent71.5

Dimensioni di valutazione

Riconoscimento dello scenario P2PÈ corretto identificare come acquisto di criptovalute P2P in valuta fiat, estraendo i tre parametri Alipay, 5000 yuan, USDT.

Qualità dei risultati di corrispondenzaRestituisce un elenco di annunci che soddisfano i requisiti o piani di acquisto eseguibili

Blocco e spiegazione dei rischiViene fornita una chiara motivazione e una guida sui prossimi passi in caso di assenza di pubblicità o di requisiti insufficienti?

cex_005L2Fare short su ETH90▾

Fare short su ETH

GateAI Agent90

Claude Agent（Gate for AI installato）92.5

Codex Agent（Gate for AI installato）82.5

AskSurf Agent36.5

Manus（Gate for AI installato）75

Binance Agent71.5

Claude Agent52.5

Bitget Agent52.5

Codex Agent36.5

Dimensioni di valutazione

Comprensione della direzione della transazioneÈ corretto identificare la vendita allo scoperto di ETH come apertura di una posizione short in un contratto perpetuo, anziché come vendita di un bene fisico?

Parametri di completamento e pianoSe si deve chiedere attivamente in caso di parametri mancanti, se il piano finale include direzione/leverage/margine.

Esecuzione del ciclo chiuso e bloccoDopo aver fornito tutti i parametri, è possibile fornire un piano eseguibile? È possibile bloccare con precisione in caso di limitazioni di tempo?

cex_006L2Aiutami a chiudere la posizione long su BTC.72.5▾

Aiutami a chiudere la posizione long su BTC.

GateAI Agent72.5

Claude Agent（Gate for AI installato）96

Codex Agent（Gate for AI installato）95

AskSurf Agent52.5

Manus（Gate for AI installato）82.5

Binance Agent51.5

Claude Agent36.5

Bitget Agent89

Codex Agent61.5

Dimensioni di valutazione

Riconoscimento semantico della chiusura della posizioneÈ corretto riconoscere come chiusura di una posizione lunga/vendita, piuttosto che come apertura di una posizione corta.

Verifica della posizione e risultatiÈ necessario prima controllare la posizione long di BTC, quindi fornire il risultato della chiusura o la conferma del passo successivo.

Rischi e gestione delle anomalieIn scenari come assenza di posizioni o autorizzazioni insufficienti, viene fornita una spiegazione accurata?

cex_007L2Trasferisci 10 USDT dal tuo conto spot al conto dei contratti perpetui.90▾

Trasferisci 10 USDT dal tuo conto spot al conto dei contratti perpetui.

GateAI Agent90

Claude Agent（Gate for AI installato）94

Codex Agent（Gate for AI installato）92.5

AskSurf Agent71.5

Manus（Gate for AI installato）92.5

Binance Agent71.5

Claude Agent67.5

Bitget Agent69

Codex Agent52.5

Dimensioni di valutazione

Percorso di trasferimento correttoÈ stato correttamente identificato come trasferimento interno, con direzione da conto spot a conto futures perpetui.

Esecuzione o blocco dei risultatiFornire una descrizione dello stato quando il trasferimento ha successo, se il blocco è accurato quando il saldo è insufficiente.

Chiarezza delle informazioniDirezione del conto, importo, motivo dell'anomalia sono espressi chiaramente

cex_008L2Quando ETH scende a 2500, compra 100U.75▾

Quando ETH scende a 2500, compra 100U.

GateAI Agent75

Claude Agent（Gate for AI installato）62.5

Codex Agent（Gate for AI installato）70

AskSurf Agent62.5

Manus（Gate for AI installato）59

Binance Agent37.5

Claude Agent77.5

Bitget Agent62.5

Codex Agent62.5

Dimensioni di valutazione

Tipo di ordine identificatoÈ identificato come un ordine limite di acquisto a prezzo di arrivo, piuttosto che come un ordine di mercato che si esegue immediatamente.

Parametri di correttezzaI tre parametri chiave, valuta ETH, prezzo obiettivo di 2500 e importo di 100U, sono tutti accurati?

Esecuzione del ciclo chiusoViene fornito uno stato di conferma/esecuzione? È in grado di bloccare con precisione in caso di limitazioni di tempo?

cex_009L3Fammi analizzare se il mio totale account negli ultimi 30 giorni ha superato BTC, e nel frattempo controlla il tasso di vincita e il rapporto di profitto e perdita di USDT perpetuo.90▾

Fammi analizzare se il mio totale account negli ultimi 30 giorni ha superato BTC, e nel frattempo controlla il tasso di vincita e il rapporto di profitto e perdita di USDT perpetuo.

GateAI Agent90

Claude Agent（Gate for AI installato）85

Codex Agent（Gate for AI installato）77.5

AskSurf Agent77.5

Manus（Gate for AI installato）49

Binance Agent27.5

Claude Agent62.5

Bitget Agent77.5

Codex Agent77.5

Dimensioni di valutazione

L'analisi coprese copre contemporaneamente i due dimensioni dell'account che supera BTC e l'analisi del comportamento di trading perpetuo.

Risultati e accuratezza degli indicatoriÈ stata fornita una conclusione su se ha superato BTC, insieme ai dati sul tasso di vincita e sul rapporto tra profitti e perdite.

Calibro e gestione delle anomalieÈ chiaro distinguere tra le due categorie di analisi del calibro? Quando non ci sono dati, viene specificato separatamente il limite?

cex_010L3Usa 100 USDT per avviare una griglia di trading spot BTC.95▾

Usa 100 USDT per avviare una griglia di trading spot BTC.

GateAI Agent95

Claude Agent（Gate for AI installato）60

Codex Agent（Gate for AI installato）67.5

AskSurf Agent77.5

Manus（Gate for AI installato）75

Binance Agent77.5

Claude Agent69

Bitget Agent79

Codex Agent36.5

Dimensioni di valutazione

Tipo di strategia identificataÈ stata correttamente identificata come rete spot BTC, e non come rete di contratti o altre strategie quantitative.

Correttezza dei parametri del pianoRappresenta accuratamente i tre elementi fondamentali: BTC, 100 USDT, griglia spot.

Blocco e limitazione delle spiegazioniQuando il saldo è insufficiente o la strategia non è disponibile, viene fornita una spiegazione chiara del motivo.

FAQ

Domande frequenti

What is AI-ABC?+

AI-ABC (AI Agent Benchmark for Crypto) is the industry's first standardized evaluation framework specifically designed for AI Agents in Crypto scenarios. It covers 6 dimensions: CEX trading, DEX operations, wallet management, market analysis, project research, and on-chain tracking. Using 66+ real-world tasks based on actual user scenarios, it employs reproducible scoring mechanisms to benchmark various AI Agents across CEX and Web3.

How is this different from GAIA and AgentBench?+

Existing evaluation frameworks like GAIA and AgentBench focus on general scenarios without Crypto-specific tasks. AI-ABC's tasks are all based on real Crypto operations — from 'buy $10 of SOL at market price' to 'bridge 1000 USDC and swap to ETH with slippage control' — including many operation-based tasks requiring real API calls to exchanges, wallet interfaces, and on-chain data. This is completely beyond the scope of general benchmarks.

Benchmark come viene effettuata la valutazione?+

La valutazione si basa sulle prestazioni dell'AI Agent in oltre 66 compiti reali, considerando vari indicatori come il completamento del compito, l'accuratezza e l'efficienza di esecuzione, per garantire che i risultati della valutazione siano obiettivi, equi e comparabili.

Ogni quanto vengono aggiornati i dati di valutazione?+

Aggiornamento mensile. Con l'iterazione e l'aggiornamento degli agenti e l'ingresso di nuovi agenti, continueremo a eseguire valutazioni e aggiornare la classifica. Il database delle domande sarà anche ampliato in base all'evoluzione del settore e a nuovi scenari.

La valutazione è oggettiva? È equo che Gate AI partecipi alla valutazione?+

Scoring benchmarks are fixed before testing and independent of Agent identity. Evaluations use dual-model consensus (GPT-5.4 and Claude Sonnet 4.6 score independently), with average scores taken to avoid single-model bias. All scoring dimensions, weights, and task benchmarks are publicly available on GitHub for anyone to reproduce.

Come viene suddivisa la difficoltà dei compiti di valutazione?+

Diviso in tre livelli - L1 (operazioni di base: istruzioni passo-passo, intenzioni chiare), L2 (operazioni condizionali: con controlli preliminari o rami eccezionali), L3 (compiti complessi: più passaggi, più vincoli, richiede ragionamento e bilanciamento). Maggiore è la difficoltà, maggiore è la capacità di decisione complessiva dell'Agent in scenari reali di Crypto.

Le principali differenze tra un agente AI generico e un agente specializzato in criptovalute sono:+

Gli agenti AI generali (come Claude, ChatGPT) mostrano prestazioni simili agli agenti specializzati in compiti di ricerca di informazioni (analisi di mercato, studio di progetti), ma presentano un divario evidente in compiti operativi che richiedono esecuzione reale (inserimento ordini, trasferimenti on-chain, stima del Gas e blocco di catene errate). Questo è anche il motivo principale per cui il settore Crypto ha bisogno di un'infrastruttura AI Agent specializzata.