21 год, МФТИ
Аналитик данных, ООО ЦМС
Аналитик данных, ООО ЦМС
Почему я заслуживаю победы?
Моя жизнь — это постоянный процесс роста и развития. Каждый день я чувствую себя счастливой, потому что могу делиться своими идеями и вдохновлять других. Ведь только вместе мы — сила!
Моя жизнь — это постоянный процесс роста и развития. Каждый день я чувствую себя счастливой, потому что могу делиться своими идеями и вдохновлять других. Ведь только вместе мы — сила!
Научные исследования
Выделю три наиболее интересные работы.
Выделю три наиболее интересные работы.
Исследование и оптимизация поиска изображений с использованием RAG
Цель: изучить и оптимизировать процесс поиска изображений с использованием RAG (Retrieval Augmented Generation) подхода. Результат: приложение для поиска туристических мест с использованием технологий обработки естественного языка.
Была выбрана задача поиска фотографий памятников истории и архитектуры по описанию для создания путеводителя. Данные парсились из открытых источников. В ходе анализа выяснилось, что некоторые из изображений не относятся к перечисленным памятникам культуры (например, рекламные объявления), что является шумом и может заметно исказить предсказания нашей модели. Для решения этой проблемы мы использовали архитектуру BLIP. В ходе итогов разведочного анализа была отсеяна 1/3 нерелевантных фотографий с помощью BERT и tf-idf. Весь корпус векторизуется и сохраняется в векторную базу FAISS. Дополнительно было сделано обогащение данными из открытых источников, в которых содержалась историческая справка об объектах культурного наследия. Это было сделано для повышения конверсии правильных ответов и снижения рисков галлюцинаций модели. После команда реализовала метод RAG.
Цель: изучить и оптимизировать процесс поиска изображений с использованием RAG (Retrieval Augmented Generation) подхода. Результат: приложение для поиска туристических мест с использованием технологий обработки естественного языка.
Была выбрана задача поиска фотографий памятников истории и архитектуры по описанию для создания путеводителя. Данные парсились из открытых источников. В ходе анализа выяснилось, что некоторые из изображений не относятся к перечисленным памятникам культуры (например, рекламные объявления), что является шумом и может заметно исказить предсказания нашей модели. Для решения этой проблемы мы использовали архитектуру BLIP. В ходе итогов разведочного анализа была отсеяна 1/3 нерелевантных фотографий с помощью BERT и tf-idf. Весь корпус векторизуется и сохраняется в векторную базу FAISS. Дополнительно было сделано обогащение данными из открытых источников, в которых содержалась историческая справка об объектах культурного наследия. Это было сделано для повышения конверсии правильных ответов и снижения рисков галлюцинаций модели. После команда реализовала метод RAG.
No-code кластеризация текстов
Цель: улучшить процесс разведочного анализа данных большого объема неструктурированной текстовой информации. Результат: приложение для кластеризации и классификации текстов.
Компании разных сфер деятельности ежедневно работают с большим объемом неструктурированной текстовой информации, приходящей из разных каналов. Для компаний важно уметь извлекать ценность из этой информации. Для этого ее надо сначала понять и систематизировать. Можно оптимизировать этот процесс путем создания сервиса разведочного анализа данных.
Цель: улучшить процесс разведочного анализа данных большого объема неструктурированной текстовой информации. Результат: приложение для кластеризации и классификации текстов.
Компании разных сфер деятельности ежедневно работают с большим объемом неструктурированной текстовой информации, приходящей из разных каналов. Для компаний важно уметь извлекать ценность из этой информации. Для этого ее надо сначала понять и систематизировать. Можно оптимизировать этот процесс путем создания сервиса разведочного анализа данных.
Сервис для промпт-инжиниринга
Цель: облегчить работу промпт-инженеров в создании оптимальных текстовых подсказок для финансового сектора. Результат: рабочий сервис.
Многие пользователи сталкиваются с проблемой при создании запросов (промптов), позволяющих получить релевантный и точный ответ от большой языковой модели. Особенно это важно для финансового сектора, например, в задачах кредитного скоринга. В рамках проекта был разработан сервис, который позволяет пользователям генерировать промпты по описанию желаемого результата без специфичных знаний промпт-инжиниринга. Платформа также направлена на демократизацию технологии ИИ, устранение технологической асимметрии. Решение основано на модели-агностике, т. е. большая языковая модель не зависит от специфики решаемых задач финансового сектора.
Цель: облегчить работу промпт-инженеров в создании оптимальных текстовых подсказок для финансового сектора. Результат: рабочий сервис.
Многие пользователи сталкиваются с проблемой при создании запросов (промптов), позволяющих получить релевантный и точный ответ от большой языковой модели. Особенно это важно для финансового сектора, например, в задачах кредитного скоринга. В рамках проекта был разработан сервис, который позволяет пользователям генерировать промпты по описанию желаемого результата без специфичных знаний промпт-инжиниринга. Платформа также направлена на демократизацию технологии ИИ, устранение технологической асимметрии. Решение основано на модели-агностике, т. е. большая языковая модель не зависит от специфики решаемых задач финансового сектора.
Популяризация науки
Я активно выступаю на конференциях и других мероприятиях, веду факультативы для школьников, посвященные ИИ и машинному обучению, и вдохновляю своим примером!
Я активно выступаю на конференциях и других мероприятиях, веду факультативы для школьников, посвященные ИИ и машинному обучению, и вдохновляю своим примером!
- Мой канал про NLP: https://t.me/maia_llm
- https://www.youtube.com/watch?v=rECEQjhqPKY
- https://vk.com/wall-185461107_1353
- https://dls.samcs.ru/about
- https://journal.kruzhok.org/mentors/tpost/78zodtnvf1-vpervie-stali-nastavnikami
- https://www.youtube.com/live/FfSYD4NS7_w?si=Ziq1tgkrMBq4NrP1
- https://www.youtube.com/live/9L58lKR7MEE?si=avzvCHDxx52Jc9ud
- https://vk.com/wall-103585114_5482
- https://vk.com/wall-203343635_53164
- https://news.myseldon.com/ru/news/index/263934580
- https://vk.com/wall-39683739_16395
- https://vk.com/wall-150436037_899
- https://vk.com/wall-150436037_853
- https://vk.com/wall-215981271_149
- https://vk.com/wall-172813749_206
- https://vk.com/wall-114751985_23501
- https://vk.com/wall-39683739_26667
- https://vk.com/video-214144682_456239089
- https://data-fusion.ru/speakers/mayya-kotyga.html
- https://vk.com/video-150436037_456239093?t=34m1s
- https://vk.com/video-164610216_456239058?t=47m43s
- https://vk.com/wall-156943811_8658
Ссылки на научные публикации
- https://www.elibrary.ru/item.asp?id=45629993
- https://www.elibrary.ru/item.asp?id=47825702
- https://www.elibrary.ru/item.asp?id=48081497
- https://www.elibrary.ru/item.asp?id=49354712
- https://www.elibrary.ru/item.asp?id=49705537
- https://www.elibrary.ru/item.asp?id=50254072
- https://www.elibrary.ru/item.asp?id=54008309
- https://www.elibrary.ru/item.asp?id=54222835
- https://www.elibrary.ru/item.asp?id=69201528