Дізнатись умови

Для Middle / Senior QA, SDET та розробників

Навчись тестувати LLM-системи й автоматизовувати оцінку якості АІ щоб опанувати evals, judge-калібрування та quality gates і вирости в AI Quality Engineer

Програма навчання

Дізнатись умови

Cпікер

Єгор Максимчук

QA Architect в EPAM · 15+ років у тестуванні · ex-Senior QA у Playtech, ex-Senior TA у SoftServe

Впроваджує AI-assisted testing у production: валідація AI-коду, агентні workflows, автоматизація тест-дизайну

Спікер QADay, XP Days, SeleniumCamp · засновник QAStudy.online

8 тижнів · 14 занять + фінальний проєкт

2 блоки практики на живій AI-систем — ламаєш, тестуєш, автоматизуєш

Працюючий pipeline — інструмент, який показуєш на роботі наступного дня

Early Bird умови на перші

25 місць

Галюцинації й надійність — топ-бар'єри в доведенні АІ систем до проду

(World Quality Report 2025).

«Запустив 10 разів, наче ок» — це не тестування

Ти прогнав агента кілька разів, відповіді виглядають нормально — і ти деплоїш. А на проді він вигадує те, чого немає. Ти полагодив баг — чи просто пощастило?

Метрики зелені, а поведінка зламана

faithfulness 0.85 — виглядає ок. А на складних питаннях — 0.60. Агент при billing-питанні лізе в документацію замість redirect. Усі метрики тексту зелені — а дія неправильна.

Тебе попросили протестувати LLM — і ти не знаєш як

Ти вмієш автоматизувати звичайне ПЗ. Але недетерміновану систему старі тест-кейси не ловлять. А найважливіші баги — саме на недетермінованих шляхах.

Це навчання не для всіх:

Підходить

QA / SDET Middle+, чий продукт перейшов на LLM

Backend / Fullstack, що будує AI-фічу й хоче вбудувати перевірку

Tech Lead / QA Lead, якому потрібні go/no-go критерії для релізу

Хто пише код, працює з Git, REST API і не боїться терміналу

Не підходить

Junior без досвіду з кодом, Git і CI/CD

Хто очікує, що «AI протестує за мене»без розуміння як

No-codeта мануальні тестувальники без коду

Хто шукає overview-лекцію — це hands-on із take-home ДЗ щотижня

Автор та викладач

Єгор Максимчук

Quality Architect у EPAM

15+ років в ІТ — від QA Engineer до QA Archirect в EPAM

Впроваджує AI-assisted testing у production: агентні workflows, автоматизація тест-дизайну, валідація AI-коду

ex-Senior QA Engineer у Playtech — один з найбільших світових провайдерів ігрового ПЗ

22 скрам-команди під QA-координацією

Спікер міжнародних конференцій: QADay · XP Days · SeleniumCamp (виступає англійською)

Founder QAStudy.online

В основі — 8 тижнів від ручних evals до автоматичного pipeline

Структура EVALS → ENABLEMENT → фінальний проєкт. Кожен тиждень — конспект + 2 демо-відео на живому стенді.

ТИЖДЕНЬ 01

Промпт + метрики

L01

Промпт як контракт

анатомія system prompt · типи промптів · де кожен ламається

L02

Метрики й false confidence

faithfulness · relevancy · hallucination rate · аудит промпту за 15 хв

ТИЖДЕНЬ 02

Golden dataset + RAG

L03

Golden dataset з реальних збоїв

DeepEval vs Promptfoo · assertions для недетермінованих відповідей

L04

RAG: три точки відмови

RAGAS-метрики по шарах · retrieval vs generation failure

ТИЖДЕНЬ 03

Multi-turn + Security

L05

Context failure у діалозі

суперечність · забування · симуляція multi-turn · тест-план

L06

Red team і OWASP LLM Top 10

prompt injection · data exfiltration · security regression-тести

ТИЖДЕНЬ 04

Tool calls + Observability

L07

Тестуєш дії, не слова

три вимірники коректності tool call · assertions через трейс

L08

Tracing і вартість

Phoenix · токен-петлі · чому сценарій коштує ×5

ТИЖДЕНЬ 05

Judge + моделі

L09

LLM-as-Judge і його bias

positional · verbosity · self-preference · калібрація проти людини

L10

Локальний judge і economics

Ollama · локальна для regression vs хмарна для фінального gate

ТИЖДЕНЬ 06

AI як інструмент + Framework

L11

AI-генерація тестів і false coverage

тести, що виглядають правильно, але нічого не перевіряють

L12

Зі скриптів — у систему

eval runner · assertion engine · reporting ·python run_eval.py

ТИЖДЕНЬ 07

CI/CD + Agentic workflows

L13

Quality gate, що блокує merge

GitHub Actions + DeepEval · rule-based + judge-based gate

L14

Agentic workflow у pipeline

агент code-review при PR · validation gate · ризики й мітигація

Хочу приєднатись до спринту

Фінальний проєкт — твій eval pipeline

Не «виконав завдання», а «маю інструмент». Ти збираєш робочу систему перевірки якості AI, яку відкриваєш на роботі з першого дня.

Один репозиторій, у якому сходиться весь курс: golden dataset із реальних збоїв, відкалібрований judge, security regression-тести й quality gate, що блокує деплой, коли якість AI впала нижче порогу.

Артефакт 1 — Eval pipeline

Репозиторій із GitHub Actions: при кожній зміні промпту автоматично запускаються перевірки, gate блокує реліз, якщо метрики впали. Підключається до реального проєкту команди.python run_eval.py

Артефакт 2 — Тест-стратегія

1–2 сторінки інженерного рішення: які ризики є, що покрито, що ні, і один свідомий trade-off. Документ, який показуєш Tech Lead як відповідь на «як ми гарантуємо якість AI».

Артефакт 3 — «Руками vs AI»

Конкретні кейси, де LLM-judge кращий за ручну перевірку і де гірший. Де AI-генеровані тести корисні, а де створюють ілюзію якості. Формує правильний скептицизм до автоматики.

До навчання vs Після

Ви будуєте власну інженерну систему, де AI-агенти — члени команди з ролями, обмеженнями та чіткою комунікацією

До навчання:

«Запустив 10 разів — наче ок» → деплой → дізнаюсь про баг від користувачів

Відповідь звучить правильно, але агент взяв не той контекст / викликав не той tool

Red team знайшов діру → записав у Jira → через місяць та сама діра в проді

«Не знаю як тестувати AI» — і ніхто в команді не знає

Промпт змінили в п'ятницю — у понеділок дізнались, що все зламалось

Після навчання:

Eval suite ловить регресію автоматично до релізу

Локалізую збій по шару: retrieval, generation або tool call

Кожна знахідка → regression-тест у CI за OWASP LLM Top 10

Будую golden dataset і калібрую judge — знаю, де йому довіряти

Quality gate блокує merge, поки метрики не пройдуть поріг

8 тижні. 14 занять. 6 артефактів

ARTIFACT · 01

Eval pipeline у GitHub Actions

При кожній зміні промпту автоматично запускаються перевірки. Gate блокує деплой, якщо метрики впали. Два стани: «зміна ок — реліз пройшов» і «зміна зламала якість — реліз заблокований».

Підключаєш до реального репозиторію — кожна зміна промпту перевіряється автоматично

ARTIFACT · 02

Golden dataset + RAGAS-локалізація

Набір тестових прикладів із реальних failure modes, замаплений на таксономію збоїв. RAGAS-метрики по шарах для RAG-систем.

Вмієш сказати «проблема в retrieval, не в generation» — а не «щось зламалось»

ARTIFACT · 03

Security report + regression-тести

Red team за OWASP LLM Top 10: prompt injection, data exfiltration. Кожна знахідка перетворюється на regression-тест у CI.

Знахідка стає частиною pipeline, а не записом у Jira, який забули

ARTIFACT · 04

Відкалібрований LLM-as-Judge

Judge з agreement ≥ 7/10 проти human evaluation. Розуміння positional / verbosity / self-preference bias. Ollama для cost-efficient локального judge у CI.

Не довіряєш цифрі наосліп — знаєш, де trust boundary автоматичної оцінки

ARTIFACT · 05

Тест-стратегія для Tech Lead

1–2 сторінки: ризики, покриття, свідомий trade-off «ми НЕ перевіряємо ось це і ось чому». Реальне інженерне рішення, не шаблон.

Замінює «ну ми перевіряли руками» на структуровану аргументацію якості

ARTIFACT · 06

Порівняння «руками vs AI»

Де LLM-judge кращий за ручну перевірку і де гірший. Де AI-генеровані тести корисні, а де створюють false coverage — тести, що виглядають правильно, але нічого не перевіряють.

Можеш пояснити команді, чому певні рішення про автоматику прийнято саме так

Хочу приєднатись до спринту

Вартість 8-тижневого спринту з тестування AI-систем‍

8 тижнів / 14 занять

теорія + практика + pre-work модуль · ~7 годин на тиждень

Робочий eval pipeline у твоєму CI

GitHub Actions, що блокує деградацію AI до релізу

3 артефакти, що працюють з першого дня

eval pipeline + тест-стратегія + відкалібрований judge

Живий навчальний стенд

Python/LangChain агент з вбудованими вразливостями для практики

Q&A-сесії щосуботи

розбір твоїх кейсів зі спікером-практиком

Старт потоку: 13 серпня

Залишилось місць

43 / 50

Early Bird
умови

для перших 25 учасників потоку

Бонус:

Залік у магістратуру Neoversity (EQF7, EU диплом)

спеціальна вартість для випускників курсу

Дізнатись умови

Все, що ви хотіли знати про Neoversity

Neoversity — це перший в Україні AI-driven онлайн IT-університет з міжнародною акредитацією.Програми університету готують фахівців, здатних створювати й упроваджувати власні стартап-проєкти

1500+

студентів навчаються на на бакалаврських та магістерських програмах за 2024-2025 роки

76%

студентів магістратури працюють на Middle, Senior чи Lead-позиціях у Google, Meta, Microsoft, EPAM, SoftServe, N-iX, Ciklum і засновують власні стартапи.

Резидент Diia.City

Кращий EdTech 2024

Next 250

За підтримки інвестицій

Вчіться у тих, хто сьогодні створює AI-майбутнє

Компанії, де працюють ваші майбутні одногрупники

Зазвичай питають перед стартом навчання

У мене зараз багато проєктів. Чи реально вкластись у 8 тижнів?

Так. Формат — 2 заняття на тиждень + take-home на реальному стенді (weather-агент). Закладай ~5–7 годин на тиждень. Усі ДЗ каскадні й будуються на одному репозиторії — ти не починаєш щоразу з нуля. Якщо тиждень випав, є demo-артефакти для звірки, щоб не відстати від групи.

Я QA, але слабко знаю Python. Чи потягну?

Потягнеш, якщо вмієш читати код і працювати з ним через AI-асистента — писати з нуля не треба. Якщо ти з JS/TS або Java, Python на рівні скриптів освоїш за перший тиждень. ML, нейромережі й математика не потрібні — курс про тестування AI, а не про його побудову.

Я вже щодня в Cursor / Claude Code. Що нового я тут отримаю?

Ти вмієш використовувати AI. Курс вчить перевіряти AI — і знати, де він бреше. Блок 1 (EVALS) — будуєш eval suite, RAG-eval, security-тести, observability руками. Блок 2 (ENABLEMENT) — масштабуєш це з AI-judge і agentic workflow, але вже розуміючи, де judge флакає, а де AI-генеровані тести нічого не перевіряють.

Чим це відрізняється від звичного тестування ПЗ?

Одне й те питання дає AI різні відповіді — детермінованих assertion'ів недостатньо. Найважливіші баги — саме на недетермінованих шляхах. Ти навчишся ловити галюцинації, prompt injection, context-фейли на довгих діалогах системно, а не «запустив 10 разів, наче ок».

AI-курси застарівають за місяць. Цей теж?

Курс — не про конкретний інструмент, а про підхід: таксономія збоїв, метрики, quality gates, observability. Інструменти зміняться — логіка «не довіряй, перевіряй, автоматизуй» залишиться. Жоден платний інструмент не обов'язковий, тож ти не прив'язаний до стеку, який завтра помре.

Скільки коштує курс і чи можна оплатити через компанію?

[ціна] · доступна оплата через юрособу — надаємо документи для компенсації роботодавцем. Аргумент для тімліда вже зашитий у курс: фінальний pipeline — це робочий інструмент для команди, а не сертифікат.

Що якщо я не встигну виконати take-home?

Нічого критичного. ДЗ каскадні, але для кожного етапу є demo-артефакти (готова таксономія, golden dataset, відкалібрований judge-промпт) — береш їх і йдеш далі, не випадаючи з програми. Записи занять залишаються.

Чи можна робити capstone на власному production-проєкті замість weather-агента?

Можна. Weather-агент — це безпечний стенд, де ти ламаєш і тестуєш без ризику. Але якщо в тебе є свій AI-продукт у проді — фінальний pipeline і тест-стратегію будуй на ньому. Тоді наступного дня показуєш результат на роботі: «ось мій pipeline, ось де AI допомагає, а де ні».

Я не з QA, я backend/fullstack. Це для мене?

Так — це один з трьох цільових сегментів. Ти будуєш AI-фічу й хочеш бути впевненим, що вона не бреше й не зливає дані. Підходиш до якості з боку розробки: eval-як-unit-тести, gate, що блокує реліз при погіршенні промпта.

Що буде на виході — сертифікат?

Не папірець, а працюючий pipeline + тест-стратегія + рефлексія «руками vs AI». Три артефакти, які кладеш у портфоліо й показуєш на співбесіді або тімліду. Доказ трансформації, а не факт «прослухав».

Є питання про курс?

Запишись на консультацію — розберемо твій стек, рівень і чи підходить курс саме тобі та отримай практикум одразу після заповнення форми.

30 хв • безкоштовно

Практикум — одразу після запису

Записатись на консультацію

Вже готовий? Зайняти місце в потоці

Навчись тестувати LLM-системи й автоматизовувати оцінку якості АІ щоб опанувати evals, judge-калібрування та quality gates і вирости в AI Quality Engineer

Галюцинації й надійність — топ-бар'єри в доведенні АІ систем до проду

«Запустив 10 разів, наче ок» — це не тестування

Метрики зелені, а поведінка зламана

Тебе попросили протестувати LLM — і ти не знаєш як

Це навчання не для всіх:

Автор та викладач

В основі — 8 тижнів від ручних evals до автоматичного pipeline

Промпт + метрики

Промпт як контракт

Метрики й false confidence

Golden dataset + RAG

Golden dataset з реальних збоїв

RAG: три точки відмови

Multi-turn + Security

Context failure у діалозі

Red team і OWASP LLM Top 10

Tool calls + Observability

Тестуєш дії, не слова

Tracing і вартість

Judge + моделі

LLM-as-Judge і його bias

Локальний judge і economics

AI як інструмент + Framework

AI-генерація тестів і false coverage

Зі скриптів — у систему

CI/CD + Agentic workflows

Quality gate, що блокує merge

Agentic workflow у pipeline

Фінальний проєкт — твій eval pipeline

Артефакт 1 — Eval pipeline

Артефакт 2 — Тест-стратегія

Артефакт 3 — «Руками vs AI»

До навчання vs Після

До навчання:

Після навчання:

8 тижні. 14 занять. 6 артефактів

Eval pipeline у GitHub Actions

Golden dataset + RAGAS-локалізація

Security report + regression-тести

Відкалібрований LLM-as-Judge

Тест-стратегія для Tech Lead

Порівняння «руками vs AI»

Вартість 8-тижневого спринту з тестування AI-систем‍

8 тижнів / 14 занять

Робочий eval pipeline у твоєму CI

3 артефакти, що працюють з першого дня

Живий навчальний стенд

Q&A-сесії щосуботи

Старт потоку: 13 серпня

Залік у магістратуру Neoversity (EQF7, EU диплом)

Все, що ви хотіли знати про Neoversity

Вчіться у тих, хто сьогодні створює AI-майбутнє

Компанії, де працюють ваші майбутні одногрупники

Зазвичай питають перед стартом навчання

У мене зараз багато проєктів. Чи реально вкластись у 8 тижнів?

Я QA, але слабко знаю Python. Чи потягну?

Я вже щодня в Cursor / Claude Code. Що нового я тут отримаю?

Чим це відрізняється від звичного тестування ПЗ?

AI-курси застарівають за місяць. Цей теж?

Скільки коштує курс і чи можна оплатити через компанію?

Що якщо я не встигну виконати take-home?

Чи можна робити capstone на власному production-проєкті замість weather-агента?

Я не з QA, я backend/fullstack. Це для мене?

Що буде на виході — сертифікат?

Є питання про курс?

Ваш шлях в AI Quality Engineering починається тут

Залік у магістратуру Neoversity (EQF7, EU диплом)