Усі публікації
Кейс-стаді

«Будь-яке повідомлення про обстріли чи війну Chat GPT визначав як маніпуляцію»: видання Texty.org.ua навчило ШІ виявляти емоційно забарвлений контент

Авторка:

Ярина Пинда

Українське медіа застосовує штучний інтелект із 2016 року, але не для написання текстів, а для досліджень, які руками зробити дуже складно.

Редакція Texty.org.ua використовує ШІ для розслідувань різного масштабу: від пошуку зниклих дітей до аналізу маніпуляцій у тисячах повідомлень телеграм-каналів. Коли автоматизовані рішення, які є на ринку, не підходять, команда тренує власні моделі. При цьому робота зі штучним інтелектом завжди відбувається у супроводі спеціаліста, який верифікує інформацію, аби уникнути помилок.

Медіа Texty.org.ua розділяє використання ШІ на два напрямки. Перший — технічний — для групування текстів за темами, пошуку потрібної інформації та порівняння зображень, де технологія допомагає опрацьовувати величезні масиви даних. Другий — оптимізація рутинних редакційних процесів: транскрипції інтерв'ю, перекладу текстів, озвучки статей.

Редакція створила власну модель на базі Llama від Meta, натренувавши її на українських даних. За пів року роботи над проєктом, команда отримала модель, яка вміє розпізнавати маніпулятивні техніки та допомагає боротися проти дезінформації.

Завдяки створенню аудіоверсій матеріалів за допомогою сервісу Eleven Labs текстові матеріали отримали звучання, а люди з порушеннями зору чи читання — доступ до якісної журналістики.

Для кожного розслідування команда спільно визначає потрібні технології, розробляє власні рішення, використовує моделі й бібліотеки з відкритим кодом чи комбінує різні інструменти. Якщо щось не працює, можна швидко змінити підхід або спробувати інший метод. Це забезпечує гнучкість, якої немає у готових платних сервісів, та дозволяє адаптувати технології під специфічні потреби редакції.

Один з останніх масштабних проєктів медіа Texty.org.ua — пошук українських дітей, незаконно вивезених до Росії з окупованих територій. Дослідники шукають збіги у російській федеральній базі даних для усиновлення, щоб довести факт злочину викрадення та його масштаби. Для цього потрібно було співставити близько 1000 фотографій зниклих українських дітей із 40000 дітей у російській базі, тобто зробити 40 мільйонів порівнянь. Для цього редакція користується бібліотекою з відкритим кодом DeepFace, яка містить моделі для розпізнавання облич. Технологія працює з певною точністю і може помилятися. Для кожної української дитини алгоритм знаходив по три можливі збіги, тому редакція наймала окремих верифікаторів, які вручну переглядали кожен випадок і визначали, чи справді це одна й та сама дитина. 

Для інших досліджень редакція застосовує методи обробки природної мови. Наприклад, Topic Modeling автоматично групує тисячі текстів за темами, а Named Entity Recognition витягує з них імена, організації, локації. 

Один із прикладів — дослідження явища рекрутингу підлітків для вчинення терактів. Потрібно було витягнути структуровану інформацію з 300 повідомлень Національної поліції про підриви машин військових: хто вчинив, коли, які способи використовували росіяни для залучення виконавців. Вручну це зайняло б тижні, але запити до великої мовної моделі дозволили автоматизувати процес.

Проте не завжди готові інструменти підходять для виконання комплексних запитів. Наприклад, команді дослідників потрібно було виявляти маніпулятивні техніки в телеграм-каналах, тобто аналізувати, як структура мови робить тексти емоційними й відвертає увагу від фактів і доказів. Тут виникла проблема: ChatGPT не розумів український контекст. «Будь-яке повідомлення про обстріли чи війну ChatGPT визначав як маніпуляцію через сильне емоційне забарвлення. Ми зрозуміли, що нам треба тренувати модель на своїх даних, із нуля щось зробити, щоб вона працювала так, як нам потрібно», — пояснює AI спеціалістка видання Наталія Романишин. За основу взяли Llama — велику базову модель від Meta, яка знаходиться у відкритому доступі. Потім натренували її розпізнавати маніпулятивні техніки в українському інформаційному просторі. Процес зайняв близько пів року. «В результаті в нас є модель, яка достатньо точно визначає маніпуляції. Ми її використали не тільки в тому проекті, а час від часу використовуємо в інших проектах, коли бачимо, що буде цікаво виміряти маніпулятивність», — каже респондентка. 

Texty.org.ua публікують аналітичні матеріали з детальною графікою, але не всі читачі мають змогу їх переглянути. В редакції хотіли додати аудіоверсії, але не мали ресурсів для найму окремої аудіокоманди. Тому за допомогою сервісу Eleven Labs клонували голос Валерії Павленко, журналістки, яка веде YouTube-канал редакції і вже напрацювала стилістику бренду. Модель навчилася озвучувати тексти в цьому стилі. Людям сподобалась озвучка знайомим голосом, а користувачі з обмеженнями в читанні окремо дякували за доступність. «Я, наприклад, переживала, коли ми це запускали, що стикнемося з хейтом, бо це штучна озвучка, але воно гарно спрацювало, бо був використаний голос нашої людини», — розповідає спеціалістка.

Команда медіа добре розуміє основні проблеми ШІ: моделі можуть «галюцинувати», робити помилки, відтворювати упередження, тому результати напрацювань завжди верифікує людина, відповідальна за той чи інший процес. Редакція навіть зробила окреме дослідження про упередження штучного інтелекту щодо українців

«У нас завжди є людина, яка ухвалює  кінцеве рішення і може оцінити результат», — наголошує Наталія. У матеріалах редакція завжди описує методологію: як використовували ШІ, які моделі, як перевіряли результати.