folder Filed in Без категорії
Text-to-network: мережа телеграм-каналу mutationme
Oleksandr Petrenko comment 0 Comments

Read also in: enEnglish

Тренуюся будувати та аналізувати мережі. Знайшов цікавий алгоритм, в який можна закинути текст, а вихідні дані використовувати для мереж. Використав текст з усіх публікацій на своєму Телеграм-каналі t.me/mutationme.

Після фільтрації стоп-слів виявилося, що найбільше я пишу про PhD, лікування, пацієнтів, та гени. Схоже на правду.

Всього вийшло 4111 nodes (унікальних слів) та 11109 edges (взаємозв’язків між ними). Мережі використовуються багато де, наприклад, для аналізу взаємодій типу “ген-ген” та “протеїн-протеїн” чи змішаних, для побудови метаболічних шляхів, тощо.

Функція цього конкретного алгоритму полягає в аналізі текстів для того, щоб виявити, чи сфокусовані вони на одному об’єкті чи на різних темах, наскільки текст ймовірно упереджений, чи навпаки представляє різні позиції, тощо. Коли-небудь напишу детальніше про мережі в біології та медицині, а для тих, хто цікавиться біоінформатикою, залишаю лінк на алгоритм:https://github.com/noduslabs/infranodus

P.S: якщо хтось знає, де достати перелік “стоп-слів” української мови, дайте знати, вручну їх видаляти дуже довго

Зображення: чим більше нода, тим частіше це слово зустрічається на каналі. Ноди скластеризовані та помічені кольорами відповідно до того, як алгоритм вирішив, що ці теми взаємозалежні (the Louvain modularity method).


Previous Next