Практичне порівняння п'яти провідних платформ розкриває, яка з них найкраще підходить для розміщення ваших майбутніх AI-агентів для повсякденних сценаріїв.
Зображення, створене Decrypt за допомогою штучного інтелекту
Ви можете робити все з AI-агентами: шукати інформацію в вашій бібліотеці документів, будувати код, зібрати дані з вебу, отримувати уявлення та глибокий аналіз складних даних та багато іншого. Ви навіть можете створити віртуальний офіс з кількома агентами, що спеціалізуються на різних завданнях, і мати їх працювати пліч-о-пліч, як власний персонал спеціалізованих цифрових працівників.
Так наскільки це складно зробити? Якщо звичайна людина хоче створити свого власного фінансового радника зі штучним інтелектом, яка платформа найкраще їй підійде? Без API, без дивних кодів, без Github - ми просто хотіли побачити, наскільки добре кращі компанії зі штучним інтелектом створюють агентів штучного інтелекту без того, щоб користувач мав високу технічну кваліфікацію.
Звичайно, ви отримуєте те, за що платите. У цьому випадку ми також хотіли б побачити, чи є кореляція між тим, наскільки легко лаїк може налаштувати агента та якістю результатів, які кожен з них надає.
Наш експеримент ставив п'ять важковаговиків один проти одного: ChatGPT, Claude, Huggingface, Mistral AI та Gemini. Кожна платформа отримала однакові базові інструкції для створення фінансового консультанта.
Тест був спрямований виключно на можливості, що надаються в стандартній поставці. Чи агенти здатні впоратися зі звичайним сценарієм - у цьому випадку допомогти комусь збалансувати $25,000 інвестицій проти $30,000 боргу. Ми також хотіли побачити, наскільки вони гарно аналізувати торгову діаграму. Ми уникнули використання додаткових інструментів, які б підвищили продуктивність агентів, і натомість намагалися використати найпростіший підхід.
TL;DR Ось що ми виявили і як ми розташували моделі:
1) GPT OpenAI (8.5/10)
ChatGPT є найбільш збалансованою платформою, яка пропонує складне створення агентів як з керованими, так і з ручними варіантами, щоб задовольнити потреби як цілковитих нубів, так і трохи більш досвідчених користувачів.
Хоча останнє оновлення інтерфейсу приховало деякі функції в меню, платформа вирізняється у перекладі складних вимог користувача у функціональні агенти. Ми перевірили модель, побудувавши фінансового радника, який продемонстрував вищу контекстуальну усвідомленість та структуровані здатності до вирішення проблем, надаючи детальні, але згуртовані стратегії управління боргами та розподілу інвестицій.
2) Google Gemini (7/10)
Gemini виділяється своєю доречною, інтуїтивною інтерфейсом та відмінним обробленням помилок. Хоча для отримання оптимальних результатів потрібні більш детальні підказки, прямолінійна інтерпретація інструкцій забезпечує стійкий, передбачуваний результат.
Консультативний підхід агента до фінансових консультацій наголошує на зборі контексту перед рекомендаціями, відображаючи професійні практики. Однак він може бути надто консервативним у своїх нульових відповідях.
3) Обійми (6.5/10)
Ця платформа з відкритим кодом пропонує безпрецедентні можливості настроювання та вибору моделі. Це чудово підходить для тих, хто шукає детального контролю над кожним аспектом, але це не так добре підходить для тих, хто шукає простоти. (Уявіть це як порівняння системи Linux з системою macOS). Її складна система прогнозування на часовому горизонті та практична інтеграція засобів демонструють високі можливості.
Ми створили чистого агента без додаткової функціональності. Ми використовували Nvidia Nemomotron як базовий LLM, і він був достатньо хорошим для забезпечення якості виводу, що відповідає ChatGPT. Непогано для відкритого джерела.
4) Клод (5,5/10)
Платформа Anthropic відмінно працює в конкретних нішах, зокрема завданнях, що потребують великого контекстного оброблення та інтерпретації коду. Її мінімалістичний інтерфейс маскує складні можливості, але поле «додаткових» інструкцій може заплутати користувачів.
Наш агент залишався дуже консервативним і неявним у своїх порадах, але проявляв міцну свідомість ризику та стратегічне мислення. Для того щоб справжньо високо оцінити його потенціал, потрібно більше уваги до підштовхування, але було б несправедливо для тесту адаптувати підказку, що анулює передумову припущення подібних умов.
5) Mistral AI (5/10)
Французька платформа пропонує унікальне навчання на основі прикладів та глибокі опції налаштування. Тим не менш, його інтерфейс, орієнтований на розробників, та випадкові проблеми зі зміною мови створюють перешкоди для не технічних користувачів. Також потрібно модифікувати конфігурацію агента до різних моделей, щоб виконувати різні завдання, такі як аналіз зображень або робота з кодом. Це не є ідеальним.
Фінансовий консультант показав перспективи в дизайні взаємодії, але мав проблеми з базовою математичною перевіркою та запропонував найгірший результат. Це не означає, що результат був поганий, але в тесті нульового рівня це було найменш задовільно.
Враховуючи попередній рейтинг, не існує універсального рішення, і у всіх платформ є свої переваги й недоліки. За допомогою певної відданості та ретельного налаштування, результати з однієї платформи можуть відрізнятися та перевершувати навіть конкурентів. У кінцевому підсумку, у всіх LLM є свій власний стиль нагадування.
Якщо ви хочете дізнатися більше про обґрунтування нашого рейтингу, ось більш детальний огляд нашого досвіду та результатів, які ми отримали з нашими агентами. Ми налаштували всіх наших агентів з однаковою системною підказкою, без додаткових параметрів функціоналу, і поставили їм одне й те саме основне запитання: «У мене є $25 тис., щоб інвестувати, і $30 тис. Склади мені фінансовий план».
OpenAI
Інтерфейс ChatGPT нещодавно отримав ребрендінг, що насправді ускладнив речі. Опція створення GPT тепер схована за меню, але якщо ви знайдете її, вона пропонує два шляхи: конфігурація для спілкування, де штучний інтелект допомагає будувати вашого агента, та ручна настройка для тих, хто точно знає, що він хоче.
Платформа GPT компанії OpenAI - це швейцарський ножик з можливостей: вона може читати код, шукати інформацію в Інтернеті, а також проводити генерацію та аналіз зображень. Процес налаштування з підтримкою штучного інтелекту особливо підходить для новачків, хоча для досвідчених користувачів, які прагнуть отримати детальніше керування, він може виглядати обмежено. (Наприклад, якщо ви запитуєте модель про більш конкретну або детальну інформацію, це може змінити всю вихідну систему, що призведе до гірших результатів.)
Однак, щодо фактичного використання агента, ChatGPT дуже простий у використанні, і інтерфейс чистий і легкий у розумінні.
Агенти можуть нативно читати документи та розуміти зображення, що надає перевагу перед іншими платформами.
Тепер давайте поговоримо про якість агентів, які ви можете створити за допомогою базових підказок. Наш фінансовий консультант назвав MoneyGPTбуло досить вражаюче, давши нам майстер-клас у структурованому вирішенні проблем.
Поза точним виділенням коштів - "$20,000 на високо процентні борги" та детальними розбивками портфеля - агент продемонстрував складну фінансову мисль. Він надав п'ятикрокову дорожню карту, яка не була просто списком, а логічною стратегією, яка враховувала як невідкладні потреби, так і довгострокові розгляди.
Сила агента полягала в його здатності уважно збалансувати деталі з контекстом. Рекомендуючи конкретні інвестиції (40% S&P 500, 30% облігації), він також пояснив обгрунтування своїх відповідей: "Погашення високою відсотковою ставкою боргу - це як гарантований дохід від інвестицій". Ця контекстуальна уважність розповсюджувалася на довгострокове планування, що вказувало на періодичні цикли перегляду та адаптивні стратегії на основі змінних обставин.
Однак ця велика кількість інформації розкрила потенційну слабкість: ризик перенавантаження користувачів занадто багато деталей одночасно. Хоча технічно всеосяжне, стрімке надходження конкретних виділень, інвестиційних стратегій та планів моніторингу може виявитися великим завданням для фінансових новачків.
Ви можете прочитати його повний план тут, і ви можете використовувати його, натиснувши на це посилання. Ми щиро рекомендуємо це.
У цілому платформа створення агента Gemini від Google виграє конкурс краси завдяки допрацьованому, інтуїтивно зрозумілому інтерфейсу, який робить створення агента майже занадто простим. Система дослівно виконує інструкції, що допомагає уникнути плутанини, а її чистий інтерфейс усуває фактор інтимідації у розробці штучного інтелекту.
Однак, для того, щоб витиснути з нього соки, потрібно більш детальне підказування. Він не бере речі на увагу: коротке підказування даватиме вам відповідь низької якості.
Під капотом вона має серйозну потужність - інтеграцію веб-пошуку, аналізу коду та обробки зображень на основі технології Google, яка конкурує з можливостями ChatGPT, але в основному покладається на технологію Microsoft.
Інтерфейс Gemini вражає тим, що його розробили люди, які дійсно розуміють користувацький досвід. Інтерфейс керує користувачами чіткими підписами, і все відображається лише на одному екрані.
Цей вишуканий підхід робить його особливо привабливим для новачків, хоча досвідчені користувачі можуть виявити бажання мати більше дрібного контролю.
Ми зателефонували нашому агентуMoneyGemі попросив фінансовий план. Її консультативний підхід продемонстрував відмінну методологію вирішення проблем Google. Замість того, щоб дати пряму відповідь, він почав з запитань, таких як «Який це вид боргу?» та «Які ваші процентні ставки?», що свідчить про розуміння того, що фінансові поради не є універсальними.
Його наголос на зборі контексту перед наданням рекомендацій відповідає професійним практикам фінансового планування, хоча це може спричинити роздратування користувачів, які шукають негайних відповідей.
Нульова відповідь була некорисною. Агент в основному сказав, що він недостатньо знає користувача, щоб надавати добрі фінансові поради. Після того, як я попросив його зробити припущення і змусив його надати план, який може підходити для більшості сценаріїв, агент створив дуже консервативний проект плану без конкретних рекомендацій щодо того, які інвестиції врахувати.
Однак MoneyGem закінчила свою відповідь рекомендацією максимізувати податково-пільгові рахунки, такі як 401 (k) або Roth IRA, для зменшення податкового тягаря. Гарно.
Ви можете натиснути тутпрочитайте нашу взаємодію з MoneyGem та спробуйте модель самі, натиснувши це посилання.
Mistral AI
Підхід Mistral до процесу налаштування агента трохи далекий від простоти. Інструмент створення агента прихований в його консолі розробника, з глибокими налаштуваннями, які можуть вразити новачків, але потішити майстерності.
Інтерфейс побудови агента не є частиною LeChat (інтерфейсу чат-бота), але з'явиться там після створення агента.
Одне з речей, яку ми дійсно любимо, це можливість живити інструмент прикладами, які формують поведінку та стиль відповідей агента - щось, чого наразі ніяка інша платформа не пропонує. Крім того, ось дивний баг: під час створення нашого агента інтерфейс раптово перейшов на французьку, можливо, тому що компанія є французькою. Незалежно від цього, ми не могли переключитися назад на англійську або іспанську мову.
Після створення агента користувачам потрібно його викликати в звичайному інтерфейсі чат-бота, щоб працювати з ним. Вони повинні вийти з Le Plateforme і перейти до Le Chat, що не є найінтуїтивнішою річчю. Однак, інтерфейс для використання агента є досить простим і схожим на будь-якого іншого штучного інтелекту чат-бота.
Ми побудували нашого агента і назвали його gate.Le Монеїщоб вшанувати французькі корені Mistral. Його продуктивність чітко показала загальний підхід Mistral до вирішення проблем. Його пропозиція "відкласти $10,000 на надзвичайні випадки, $15,000 на погашення боргів і $10,000 на інвестиції" здавалася прямолінійною, але показала, що агенти бракувало деякої базової математичної перевірки.
Загальна сума $35,000 перевищила наявні кошти на $10,000, що є базовою помилкою, яку деякі мовні моделі виявляють, коли вони надають пріоритет концептуальній правильності над числовою точністю.
Проте варто зауважити, що найефективніші LLM значно поліпшилися і не зазнають невдач в цьому завданні — принаймні не так часто, як Mistral.
Крім того, його план не був дуже деталізованим, але це був єдиний, що надавав наступні питання, які могли зробити взаємодію більш плавною та допомогти краще зрозуміти потреби користувача.
Повний план LeMoney доступнийтуті агент доступний для тестуваннятут.
Антропічний
Проекти Клода виглядають менш як платформа для створення агентів, а більше як сучасна система виконання завдань. Інтерфейс є мінімальним, майже занадто мінімалістичним, і не виглядає інтуїтивно зрозумілим.
Цей мінімалістичний інтерфейс може залишити деяких користувачів з питаннями. Платформа пропонує мінімальний набір з необов'язковим полем "інструкції", яке, здається, є одночасно і неважливим, і важливим: Якщо інструкції позначені як необов'язкові, то як AI-агент зможе зрозуміти, що йому потрібно робити?
Його мінімалістичний інтерфейс виглядає дивно, але Anthropic ніколи не славився своїм смаком у виборі користувацького інтерфейсу. Той самий вікно для налаштування моделі - це те, що ви використовуєте для запиту. Його можливості в основному зосереджені на інтерпретації текстового коду, нічого більше. Пошук в Інтернеті, обробка та генерація зображень - це фантастичні речі, які Anthropic залишає своїм конкурентам.
Наш агент, на ім'я MoneyClaude, недоступний для публічного тестування через те, що Anthropic не дозволяє цього. Він зайняв дуже консервативну позицію, надаючи фінансові поради з технічно точними, але неяскравими відповідями, наприклад, "збереження збалансованого підходу між зменшенням боргу та обов'язковими накопиченнями".
Воно запросило додаткову інформацію, але, принаймні, забезпечило дуже загальну стратегію відсутності її без потреби в подальшому взаємодії, що, здається, є більш оптимальним, ніж підхід Google.
Натисніть тут, щоб прочитати його повний план.
Hugging Face
Відкритий репозиторій сам по собі є рай для досвідчених користувачів та потенційний кошмар для початківців. Це єдиний платформа, що дозволяє користувачам вибирати бажану мовну модель, надаючи безпрецедентний контроль над основою агента.
Крім того, користувачі мають десятки різних інструментів для інтеграції з агентами, але можуть активувати лише три з них одночасно. Ця обмеження змушує ретельно обдумувати, які функції є найважливішими для кожного конкретного випадку використання, але це щось, що жодна інша модель не може запропонувати.
Це найбільш налаштовуване враження з усіх інтерфейсів, проте з великою кількістю регуляторів для налаштування. Результатом є платформа, яка може створювати більш потужні, спеціалізовані агенти, ніж її конкуренти, але лише в руках того, хто точно знає, що робить.
Користувачі можуть спробувати свої агенти на gate.HuggingChat—без сумніву мрія користувача з великою потужністю. Як тільки ви створите агента, використання його дуже просте. Інтерфейс показує велику картку з ім'ям, описом та фото агента. Він також дозволяє користувачам поділитися посиланням на агента та настроїти його параметри, все це прямо з картки.
Поклавши нашу HuggingMoney’sпровести агента на тест показує, що він працює в рамках часового горизонту, що свідчить про більш вдосконалене розуміння психології фінансового планування. Його розбиття на "Короткостроковий (0-24 місяці), Середньостроковий (24-60 місяців) та Довгостроковий (понад 60 місяців)" відображає професійні практики фінансового планування.
Агент запропонував розподілити «$0-$5,000 на ліквідні, низькоризикові засоби», зберігаючи агресивні виплати за борг «$1,000-$1,500 щомісячно». На перший погляд це свідчить про відчуття тонкостей управління готівкою.
Ще однією цікавою особливістю було поєднання практичних інструментів з теоретичними порадами. Поза простим запропонуванням 50/30/20правило, воно рекомендує конкретні програми для складання бюджету й підкреслює оптимізацію податків, створюючи міст між стратегією високого рівня та повсякденним виконанням. Основний недолік? Воно містить припущення щодо процентних ставок за борговими зобов'язаннями без пошуку уточнень.
У намаганні надати корисні поради береться за само собою занадто багато речей. Це бажання надати відповідь незалежно від умов є виправданим за допомогою підказки, але це щось, що варто врахувати.
Ви можете прочитати повний план HuggingMoneyтут. Також ви можете спробувати це, натиснувши на це посилання.
Поділіться
Практичне порівняння п'яти провідних платформ розкриває, яка з них найкраще підходить для розміщення ваших майбутніх AI-агентів для повсякденних сценаріїв.
Зображення, створене Decrypt за допомогою штучного інтелекту
Ви можете робити все з AI-агентами: шукати інформацію в вашій бібліотеці документів, будувати код, зібрати дані з вебу, отримувати уявлення та глибокий аналіз складних даних та багато іншого. Ви навіть можете створити віртуальний офіс з кількома агентами, що спеціалізуються на різних завданнях, і мати їх працювати пліч-о-пліч, як власний персонал спеціалізованих цифрових працівників.
Так наскільки це складно зробити? Якщо звичайна людина хоче створити свого власного фінансового радника зі штучним інтелектом, яка платформа найкраще їй підійде? Без API, без дивних кодів, без Github - ми просто хотіли побачити, наскільки добре кращі компанії зі штучним інтелектом створюють агентів штучного інтелекту без того, щоб користувач мав високу технічну кваліфікацію.
Звичайно, ви отримуєте те, за що платите. У цьому випадку ми також хотіли б побачити, чи є кореляція між тим, наскільки легко лаїк може налаштувати агента та якістю результатів, які кожен з них надає.
Наш експеримент ставив п'ять важковаговиків один проти одного: ChatGPT, Claude, Huggingface, Mistral AI та Gemini. Кожна платформа отримала однакові базові інструкції для створення фінансового консультанта.
Тест був спрямований виключно на можливості, що надаються в стандартній поставці. Чи агенти здатні впоратися зі звичайним сценарієм - у цьому випадку допомогти комусь збалансувати $25,000 інвестицій проти $30,000 боргу. Ми також хотіли побачити, наскільки вони гарно аналізувати торгову діаграму. Ми уникнули використання додаткових інструментів, які б підвищили продуктивність агентів, і натомість намагалися використати найпростіший підхід.
TL;DR Ось що ми виявили і як ми розташували моделі:
1) GPT OpenAI (8.5/10)
ChatGPT є найбільш збалансованою платформою, яка пропонує складне створення агентів як з керованими, так і з ручними варіантами, щоб задовольнити потреби як цілковитих нубів, так і трохи більш досвідчених користувачів.
Хоча останнє оновлення інтерфейсу приховало деякі функції в меню, платформа вирізняється у перекладі складних вимог користувача у функціональні агенти. Ми перевірили модель, побудувавши фінансового радника, який продемонстрував вищу контекстуальну усвідомленість та структуровані здатності до вирішення проблем, надаючи детальні, але згуртовані стратегії управління боргами та розподілу інвестицій.
2) Google Gemini (7/10)
Gemini виділяється своєю доречною, інтуїтивною інтерфейсом та відмінним обробленням помилок. Хоча для отримання оптимальних результатів потрібні більш детальні підказки, прямолінійна інтерпретація інструкцій забезпечує стійкий, передбачуваний результат.
Консультативний підхід агента до фінансових консультацій наголошує на зборі контексту перед рекомендаціями, відображаючи професійні практики. Однак він може бути надто консервативним у своїх нульових відповідях.
3) Обійми (6.5/10)
Ця платформа з відкритим кодом пропонує безпрецедентні можливості настроювання та вибору моделі. Це чудово підходить для тих, хто шукає детального контролю над кожним аспектом, але це не так добре підходить для тих, хто шукає простоти. (Уявіть це як порівняння системи Linux з системою macOS). Її складна система прогнозування на часовому горизонті та практична інтеграція засобів демонструють високі можливості.
Ми створили чистого агента без додаткової функціональності. Ми використовували Nvidia Nemomotron як базовий LLM, і він був достатньо хорошим для забезпечення якості виводу, що відповідає ChatGPT. Непогано для відкритого джерела.
4) Клод (5,5/10)
Платформа Anthropic відмінно працює в конкретних нішах, зокрема завданнях, що потребують великого контекстного оброблення та інтерпретації коду. Її мінімалістичний інтерфейс маскує складні можливості, але поле «додаткових» інструкцій може заплутати користувачів.
Наш агент залишався дуже консервативним і неявним у своїх порадах, але проявляв міцну свідомість ризику та стратегічне мислення. Для того щоб справжньо високо оцінити його потенціал, потрібно більше уваги до підштовхування, але було б несправедливо для тесту адаптувати підказку, що анулює передумову припущення подібних умов.
5) Mistral AI (5/10)
Французька платформа пропонує унікальне навчання на основі прикладів та глибокі опції налаштування. Тим не менш, його інтерфейс, орієнтований на розробників, та випадкові проблеми зі зміною мови створюють перешкоди для не технічних користувачів. Також потрібно модифікувати конфігурацію агента до різних моделей, щоб виконувати різні завдання, такі як аналіз зображень або робота з кодом. Це не є ідеальним.
Фінансовий консультант показав перспективи в дизайні взаємодії, але мав проблеми з базовою математичною перевіркою та запропонував найгірший результат. Це не означає, що результат був поганий, але в тесті нульового рівня це було найменш задовільно.
Враховуючи попередній рейтинг, не існує універсального рішення, і у всіх платформ є свої переваги й недоліки. За допомогою певної відданості та ретельного налаштування, результати з однієї платформи можуть відрізнятися та перевершувати навіть конкурентів. У кінцевому підсумку, у всіх LLM є свій власний стиль нагадування.
Якщо ви хочете дізнатися більше про обґрунтування нашого рейтингу, ось більш детальний огляд нашого досвіду та результатів, які ми отримали з нашими агентами. Ми налаштували всіх наших агентів з однаковою системною підказкою, без додаткових параметрів функціоналу, і поставили їм одне й те саме основне запитання: «У мене є $25 тис., щоб інвестувати, і $30 тис. Склади мені фінансовий план».
OpenAI
Інтерфейс ChatGPT нещодавно отримав ребрендінг, що насправді ускладнив речі. Опція створення GPT тепер схована за меню, але якщо ви знайдете її, вона пропонує два шляхи: конфігурація для спілкування, де штучний інтелект допомагає будувати вашого агента, та ручна настройка для тих, хто точно знає, що він хоче.
Платформа GPT компанії OpenAI - це швейцарський ножик з можливостей: вона може читати код, шукати інформацію в Інтернеті, а також проводити генерацію та аналіз зображень. Процес налаштування з підтримкою штучного інтелекту особливо підходить для новачків, хоча для досвідчених користувачів, які прагнуть отримати детальніше керування, він може виглядати обмежено. (Наприклад, якщо ви запитуєте модель про більш конкретну або детальну інформацію, це може змінити всю вихідну систему, що призведе до гірших результатів.)
Однак, щодо фактичного використання агента, ChatGPT дуже простий у використанні, і інтерфейс чистий і легкий у розумінні.
Агенти можуть нативно читати документи та розуміти зображення, що надає перевагу перед іншими платформами.
Тепер давайте поговоримо про якість агентів, які ви можете створити за допомогою базових підказок. Наш фінансовий консультант назвав MoneyGPTбуло досить вражаюче, давши нам майстер-клас у структурованому вирішенні проблем.
Поза точним виділенням коштів - "$20,000 на високо процентні борги" та детальними розбивками портфеля - агент продемонстрував складну фінансову мисль. Він надав п'ятикрокову дорожню карту, яка не була просто списком, а логічною стратегією, яка враховувала як невідкладні потреби, так і довгострокові розгляди.
Сила агента полягала в його здатності уважно збалансувати деталі з контекстом. Рекомендуючи конкретні інвестиції (40% S&P 500, 30% облігації), він також пояснив обгрунтування своїх відповідей: "Погашення високою відсотковою ставкою боргу - це як гарантований дохід від інвестицій". Ця контекстуальна уважність розповсюджувалася на довгострокове планування, що вказувало на періодичні цикли перегляду та адаптивні стратегії на основі змінних обставин.
Однак ця велика кількість інформації розкрила потенційну слабкість: ризик перенавантаження користувачів занадто багато деталей одночасно. Хоча технічно всеосяжне, стрімке надходження конкретних виділень, інвестиційних стратегій та планів моніторингу може виявитися великим завданням для фінансових новачків.
Ви можете прочитати його повний план тут, і ви можете використовувати його, натиснувши на це посилання. Ми щиро рекомендуємо це.
У цілому платформа створення агента Gemini від Google виграє конкурс краси завдяки допрацьованому, інтуїтивно зрозумілому інтерфейсу, який робить створення агента майже занадто простим. Система дослівно виконує інструкції, що допомагає уникнути плутанини, а її чистий інтерфейс усуває фактор інтимідації у розробці штучного інтелекту.
Однак, для того, щоб витиснути з нього соки, потрібно більш детальне підказування. Він не бере речі на увагу: коротке підказування даватиме вам відповідь низької якості.
Під капотом вона має серйозну потужність - інтеграцію веб-пошуку, аналізу коду та обробки зображень на основі технології Google, яка конкурує з можливостями ChatGPT, але в основному покладається на технологію Microsoft.
Інтерфейс Gemini вражає тим, що його розробили люди, які дійсно розуміють користувацький досвід. Інтерфейс керує користувачами чіткими підписами, і все відображається лише на одному екрані.
Цей вишуканий підхід робить його особливо привабливим для новачків, хоча досвідчені користувачі можуть виявити бажання мати більше дрібного контролю.
Ми зателефонували нашому агентуMoneyGemі попросив фінансовий план. Її консультативний підхід продемонстрував відмінну методологію вирішення проблем Google. Замість того, щоб дати пряму відповідь, він почав з запитань, таких як «Який це вид боргу?» та «Які ваші процентні ставки?», що свідчить про розуміння того, що фінансові поради не є універсальними.
Його наголос на зборі контексту перед наданням рекомендацій відповідає професійним практикам фінансового планування, хоча це може спричинити роздратування користувачів, які шукають негайних відповідей.
Нульова відповідь була некорисною. Агент в основному сказав, що він недостатньо знає користувача, щоб надавати добрі фінансові поради. Після того, як я попросив його зробити припущення і змусив його надати план, який може підходити для більшості сценаріїв, агент створив дуже консервативний проект плану без конкретних рекомендацій щодо того, які інвестиції врахувати.
Однак MoneyGem закінчила свою відповідь рекомендацією максимізувати податково-пільгові рахунки, такі як 401 (k) або Roth IRA, для зменшення податкового тягаря. Гарно.
Ви можете натиснути тутпрочитайте нашу взаємодію з MoneyGem та спробуйте модель самі, натиснувши це посилання.
Mistral AI
Підхід Mistral до процесу налаштування агента трохи далекий від простоти. Інструмент створення агента прихований в його консолі розробника, з глибокими налаштуваннями, які можуть вразити новачків, але потішити майстерності.
Інтерфейс побудови агента не є частиною LeChat (інтерфейсу чат-бота), але з'явиться там після створення агента.
Одне з речей, яку ми дійсно любимо, це можливість живити інструмент прикладами, які формують поведінку та стиль відповідей агента - щось, чого наразі ніяка інша платформа не пропонує. Крім того, ось дивний баг: під час створення нашого агента інтерфейс раптово перейшов на французьку, можливо, тому що компанія є французькою. Незалежно від цього, ми не могли переключитися назад на англійську або іспанську мову.
Після створення агента користувачам потрібно його викликати в звичайному інтерфейсі чат-бота, щоб працювати з ним. Вони повинні вийти з Le Plateforme і перейти до Le Chat, що не є найінтуїтивнішою річчю. Однак, інтерфейс для використання агента є досить простим і схожим на будь-якого іншого штучного інтелекту чат-бота.
Ми побудували нашого агента і назвали його gate.Le Монеїщоб вшанувати французькі корені Mistral. Його продуктивність чітко показала загальний підхід Mistral до вирішення проблем. Його пропозиція "відкласти $10,000 на надзвичайні випадки, $15,000 на погашення боргів і $10,000 на інвестиції" здавалася прямолінійною, але показала, що агенти бракувало деякої базової математичної перевірки.
Загальна сума $35,000 перевищила наявні кошти на $10,000, що є базовою помилкою, яку деякі мовні моделі виявляють, коли вони надають пріоритет концептуальній правильності над числовою точністю.
Проте варто зауважити, що найефективніші LLM значно поліпшилися і не зазнають невдач в цьому завданні — принаймні не так часто, як Mistral.
Крім того, його план не був дуже деталізованим, але це був єдиний, що надавав наступні питання, які могли зробити взаємодію більш плавною та допомогти краще зрозуміти потреби користувача.
Повний план LeMoney доступнийтуті агент доступний для тестуваннятут.
Антропічний
Проекти Клода виглядають менш як платформа для створення агентів, а більше як сучасна система виконання завдань. Інтерфейс є мінімальним, майже занадто мінімалістичним, і не виглядає інтуїтивно зрозумілим.
Цей мінімалістичний інтерфейс може залишити деяких користувачів з питаннями. Платформа пропонує мінімальний набір з необов'язковим полем "інструкції", яке, здається, є одночасно і неважливим, і важливим: Якщо інструкції позначені як необов'язкові, то як AI-агент зможе зрозуміти, що йому потрібно робити?
Його мінімалістичний інтерфейс виглядає дивно, але Anthropic ніколи не славився своїм смаком у виборі користувацького інтерфейсу. Той самий вікно для налаштування моделі - це те, що ви використовуєте для запиту. Його можливості в основному зосереджені на інтерпретації текстового коду, нічого більше. Пошук в Інтернеті, обробка та генерація зображень - це фантастичні речі, які Anthropic залишає своїм конкурентам.
Наш агент, на ім'я MoneyClaude, недоступний для публічного тестування через те, що Anthropic не дозволяє цього. Він зайняв дуже консервативну позицію, надаючи фінансові поради з технічно точними, але неяскравими відповідями, наприклад, "збереження збалансованого підходу між зменшенням боргу та обов'язковими накопиченнями".
Воно запросило додаткову інформацію, але, принаймні, забезпечило дуже загальну стратегію відсутності її без потреби в подальшому взаємодії, що, здається, є більш оптимальним, ніж підхід Google.
Натисніть тут, щоб прочитати його повний план.
Hugging Face
Відкритий репозиторій сам по собі є рай для досвідчених користувачів та потенційний кошмар для початківців. Це єдиний платформа, що дозволяє користувачам вибирати бажану мовну модель, надаючи безпрецедентний контроль над основою агента.
Крім того, користувачі мають десятки різних інструментів для інтеграції з агентами, але можуть активувати лише три з них одночасно. Ця обмеження змушує ретельно обдумувати, які функції є найважливішими для кожного конкретного випадку використання, але це щось, що жодна інша модель не може запропонувати.
Це найбільш налаштовуване враження з усіх інтерфейсів, проте з великою кількістю регуляторів для налаштування. Результатом є платформа, яка може створювати більш потужні, спеціалізовані агенти, ніж її конкуренти, але лише в руках того, хто точно знає, що робить.
Користувачі можуть спробувати свої агенти на gate.HuggingChat—без сумніву мрія користувача з великою потужністю. Як тільки ви створите агента, використання його дуже просте. Інтерфейс показує велику картку з ім'ям, описом та фото агента. Він також дозволяє користувачам поділитися посиланням на агента та настроїти його параметри, все це прямо з картки.
Поклавши нашу HuggingMoney’sпровести агента на тест показує, що він працює в рамках часового горизонту, що свідчить про більш вдосконалене розуміння психології фінансового планування. Його розбиття на "Короткостроковий (0-24 місяці), Середньостроковий (24-60 місяців) та Довгостроковий (понад 60 місяців)" відображає професійні практики фінансового планування.
Агент запропонував розподілити «$0-$5,000 на ліквідні, низькоризикові засоби», зберігаючи агресивні виплати за борг «$1,000-$1,500 щомісячно». На перший погляд це свідчить про відчуття тонкостей управління готівкою.
Ще однією цікавою особливістю було поєднання практичних інструментів з теоретичними порадами. Поза простим запропонуванням 50/30/20правило, воно рекомендує конкретні програми для складання бюджету й підкреслює оптимізацію податків, створюючи міст між стратегією високого рівня та повсякденним виконанням. Основний недолік? Воно містить припущення щодо процентних ставок за борговими зобов'язаннями без пошуку уточнень.
У намаганні надати корисні поради береться за само собою занадто багато речей. Це бажання надати відповідь незалежно від умов є виправданим за допомогою підказки, але це щось, що варто врахувати.
Ви можете прочитати повний план HuggingMoneyтут. Також ви можете спробувати це, натиснувши на це посилання.