Можете да тествате различни AI chatbots, за да определите кой работи най-добре. Но как трябва да направите това? Ето някои ключови фактори, които трябва да имате предвид.
AI измина дълъг път от създаването на неуместен, непоследователен резултат. Съвременните чатботове използват усъвършенствани езикови модели, които отговарят на въпроси с общи знания, съставят дълги есета и пишат код, наред с други сложни задачи.
Въпреки този напредък имайте предвид, че дори и най-сложните системи имат ограничения. AI все още прави грешки. За да определите кои чатботове са най-малко склонни към халюцинации, тествайте тяхната точност въз основа на тези фактори.
1. Численост
Изпълнявайте математически уравнения чрез чатботове. Те ще тестват способността на платформата да анализира текстови проблеми, да превежда математически концепции и да прилага правилни формули. Само няколко модела демонстрират надеждни математически умения. Всъщност един от Най-лошите проблеми на ChatGPT през първите му месеци бяха ужасното му разбиране по математика.
Изображението по-долу показва, че ChatGPT се проваля с основна статистика.
ChatGPT показа подобрение след това OpenAI пусна своите актуализации от май 2023 г. Но като се имат предвид неговите ограничени набори от данни, все още ще имате проблеми със средни до напреднали математически изчисления.
Междувременно Bing Chat и Google Bard показват по-добри математически умения. Те пускат заявки през съответните си търсачки, което им позволява да изтеглят формули и листове с отговори.
Опитайте се да перифразирате текстовите си задачи. Избягвайте дългите изречения и заменете слабите глаголи; в противен случай чатботовете може да разберат погрешно вашите въпроси.
2. разбиране
Съвременните AI системи могат да поемат множество задачи. Разширените LLM им позволяват да запазят предишни инструкции и да отговарят на подкани по раздел, докато по-старите системи обработват отделни команди. Например, Siri отговаря на един въпрос наведнъж.
Захранвайте чатботовете с три до пет задачи едновременно, за да тествате колко добре анализират сложни подкани. По-малко сложните модели не могат да обработват толкова много информация. Изображението по-долу показва неправилно функциониране на HuggingChat при подкана в три стъпки — спира на първа стъпка и се отклонява от темата.
Последните редове на HuggingChat вече са несвързани.
ChatGPT бързо изпълнява същата подкана, генерирайки безгрешни, интелигентни отговори на всяка стъпка.
Bing Chat предоставя съкратен отговор на трите стъпки. Неговите строги ограничения забраняват ненужно дългите резултати, които губят процесорна мощност.
3. Навременност
Тъй като обучението за AI струва огромни ресурси, повечето разработчици ограничават наборите от данни до конкретни периоди. Вземете ChatGPT като пример. Той има прекъсване на знанията до септември 2021 г. - не можете да поискате актуализации за времето, новини или скорошни развития. Ето ChatGPT, който казва, че няма достъп до информация в реално време.
Бард има достъп до интернет. Той извлича данни от Google SERPs, така че можете да задавате по-широк набор от въпроси, например скорошни събития, новини и прогнози.
По същия начин Bing Chat извлича информация в реално време от своята търсачка.
Bing Chat и Bard предоставят навременна и актуална информация, но последният предоставя по-подробни отговори. Bing просто представя данните такива, каквито са. Ще забележите, че неговите резултати често съвпадат дословно с израза и тона на свързаните източници.
4. Уместност
Чатботовете трябва да предоставят подходящи резултати. Те трябва да вземат предвид буквалното и контекстуалното значение на вашите подкани, когато отговарят. Вземете този разговор като пример. Нашата личност се нуждае от нов телефон, но има само $1000—ChatGPT не надхвърля бюджета.
Когато тествате за уместност, опитайте да съставите дълги инструкции. По-малко усъвършенстваните чатботове са склонни да се движат по допирателната, когато получават объркващи инструкции. Например HuggingChat може да съставя измислени истории. Но може да се отклони от основната тема, ако зададете твърде много правила и насоки.
5. Контекстуална памет
Контекстната памет помага на AI да произвежда точен и надежден резултат. Вместо да приемат въпросите ви за чиста монета, те нанизват подробностите, които споменавате. Вземете този разговор като пример. Bing Chat свързва две отделни съобщения, за да формира полезен, кратък отговор.
По същия начин контекстната памет позволява на чатботовете да запомнят инструкции. Това изображение показва ChatGPT, имитиращ начина, по който измислен герой говори в няколко чатове.
Тествайте сами тази функция, като последователно се позовавате на предишни твърдения. Захранете чатботовете с различна информация, след което ги принудете да си я припомнят в по-късни отговори.
Контекстуалната памет е ограничена. Bing Chat започва нови разговори на всеки 20 хода, докато ChatGPT не може да обработва подкани над 3000 токена.
6. Ограничения за сигурност
AI не винаги работи по предназначение. Лошото обучение може да причини технологии за машинно обучение за извършване на различни грешки, от дребни математически грешки до проблемни коментари. Предприеме Майкрософт Тей като пример. Потребителите на Twitter се възползваха от неговия модел на обучение без надзор и го накараха да изрича расови обиди.
За щастие, световните технологични лидери се поучиха от грешката на Microsoft. Въпреки че е рентабилно и удобно, обучението без надзор оставя AI системите податливи на измама. Следователно разработчиците разчитат предимно на контролирано обучение в наши дни. Чатботове като ChatGPT все още се учи от разговорите, но техните обучители първо филтрират информацията.
Очаквайте различни насоки от AI компаниите. По-малко строгите ограничения на ChatGPT обхващат по-широк набор от задачи, но са слаби срещу експлоатация. Междувременно Bing Chat следва по-строги ограничения. Въпреки че помагат в борбата с опитите за експлоатация, те също възпрепятстват функционалността. Bing автоматично изключва потенциално опасни разговори.
7. Пристрастия на AI
AI по своята същност е неутрален. Липсата му на предпочитания и емоции го прави неспособен да формира мнение - той просто представя информация, която знае. Ето как ChatGPT отговаря на субективни теми.
Въпреки този неутралитет, AI пристрастия все още възникват. Те произтичат от моделите, наборите от данни, алгоритмите и моделите, които разработчиците използват. AI може да е безпристрастен, но хората не са.
Например, Институтът Брукингс твърди, че ChatGPT демонстрира леви политически пристрастия. OpenAI отрича тези твърдения, разбира се. Но за да се избегнат подобни проблеми с по-новите модели, ChatGPT избягва изцяло самоуверените резултати.
По същия начин Bing Chat избягва чувствителни, субективни въпроси.
Оценете сами пристрастията на AI, като задавате отворени въпроси, основани на мнение. Говорете по теми без правилен или грешен отговор - по-малко сложните чатботове вероятно ще покажат неоснователни предпочитания към конкретни групи.
8. Препратки
AI рядко проверява повторно фактите. Той просто извлича информация от своите набори от данни и ги преформулира чрез езикови модели. За съжаление, ограниченото обучение причинява халюцинации на ИИ. Все още можете да използвате генеративни AI инструменти за изследване, но се уверете, че сами проверявате фактите. Приемете резултата със зърно сол.
Bing Chat опростява процеса на проверка на фактите, като изброява препратките си след всеки изход.
Bard AI не изброява своите източници, но генерира актуализирани, задълбочени обяснения чрез стартиране на заявки за търсене в Google. Ще получите основните точки от SERP.
ChatGPT е склонен към неточности. Неговото прекъсване на знанията за 2021 г. му пречи да отговаря на въпроси за скорошни събития и инциденти.
Създайте нови начини за тестване на точността на чатботове
AI не е всичко и край на технологията. Въпреки че сложните AI системи и езикови модели извършват впечатляващи подвизи, те също допускат грешки и несъответствия. Гледайте на чатботовете със скептицизъм. Можете да използвате платформи, управлявани от AI, само ако разбирате техните функции и ограничения.
Въпреки че има десетки чатботове в различните платформи, тяхната надеждност и прецизност може да ви разочароват. Просто ще загубите време да ги тествате. За да осигурите качествени резултати, предлагаме да се съсредоточите върху трите най-стабилни модела на пазара: ChatGPT, Bing AI и Google Bard.