AI & NLP DAY 2021

Podczas prezentacji opowiem o plT5, modelu ogólnego przeznaczenia opartego o architekturę transformer i wytrenowanego na potrzeby rozwiązywania różnorodnych zadań tekstowych dla języka polskiego. Przedstawię wyniki jego skuteczności na rozmaitych zadaniach począwszy od zmierzenia ogólnej wiedzy dla języka polskiego z wykorzystaniem benchmarku KLEJ a skończywszy na zadaniach specjalistycznych takich jak tłumaczenie i generowanie streszczeń. Pokażę jak na tych zadaniach radzą sobie inne modele tego typu przygotowane dla języka polskiego. Na koniec opowiem w jakich zadaniach biznesowych wykorzystujemy T5 w Allegro.

We introduce a novel visual probing framework for explaining the self-supervised models by leveraging probing tasks employed previously in natural language processing. The probing tasks require knowledge about semantic relationships between image parts. Hence, we propose a systematic approach to obtain analogs of natural language in vision, such as visual words, context, and taxonomy. Our proposal is grounded in Marr's computational theory of vision and concerns features like textures, shapes, and lines. We show the effectiveness and applicability of those analogs in the context of explaining self-supervised representations.

The success of social learning platforms strongly depends on the quality of contents created and maintained by the community. Being able to filter only the relevant and high-quality contents is crucial for guaranteeing the trust & safety for your users, enabling the personalization of their learning experience, as well as avoiding gamification side effects.

In this talk we will analyze the Brainly Social Q&A platform that allows more than 350M students worldwide to ask questions and seek help in their homework and studying. We will dig deeper into the ACQUA (Automated Content Quality Assurance) system that was developed to provide a near real-time feed of text classifications over a dozen of labels such as toxicity, spam, gibberish, incomplete questions, non-educational questions, personal identifiers, grammar mistakes, presence of irrelevant details, readability, wrong language, bad subjects. The blacklist feed is then used for content reporting and moderation as well as for other downstream tasks such as recommender systems, information retrieval, users reputation models, or other data analytics scopes.

The talk will cover some modeling and engineering aspects of building such NLP systems and is accessible without any prior knowledge in the field.In particular we will cover the definition of content quality from an educational point of view, the challenges of correctly classifying those contents using machine learning, a few tips on how to leverage the state-of-the-art of NLP, and some MLOps data-centric aspects related to data labeling and human-in-the-loop workflows.

Semantic search engines aim to capture the exact intent of a user's query and find the answer, taking into account not only the match between individual words but also the actual meaning and contextual information. The key task in constructing such a solution is to develop a model that can capture the critical information contained in the text and transform them into vector space. The problem seems to be well covered in the literature regarding the common English language, as many papers, models, and datasets have been released over the last years. Things get slightly more complicated when it comes to a specific domain of some less-popular language, such as court decisions written in Polish. There are no existing models or datasets that could be directly leveraged to solve the task in such circumstances. Our team has recently tackled such a problem in nearly complete unsupervised settings. The talk aims to introduce the ways one could handle similar challenges based on our experience.

Przedstawię wyniki prac nad automatycznym wykrywaniem dokumentów o niskiej wiarygodności, takich jak zmyślone wiadomości (ang. 'fake news'), na podstawie ich własności stylistycznych. Opiszę zgromadzony korpus 103.219 dokumentów z 223 źródeł i wyjaśnię dlaczego zastosowanie zwykłych klasyfikatorów tekstu nie przynosi zadowalających rezultatów. Przedstawię metody opracowane specjalnie dla tego zadania na bazie sieci neuronowych i cech stylometrycznych oraz osiągane przez nie wyniki. Przekonamy się także, czy opracowane klasyfikatory rzeczywiście uwzględniają słownictwo charakterystyczne dla zmyślonych wiadomości.

Każdy kto kiedykolwiek brał udział w projekcie związanym z uczeniem maszynowym wie jak łatwo można pogubić się w wykonywanych eksperymentach oraz wypróbowanych już podejściach i modelach. Na szczęście na rynku pojawia się coraz więcej narzędzi które pozwalają na monitorowanie postępujących prac. Jednym z nich jest Weights & Biases - platforma która oferuje przystępny interfejs oraz szerokie możliwości monitorowania i wizualizacji eksperymentów. W takcie wystąpienia dowiesz się jak łatwo dodać monitoring do własnych projektów.

Process mining jest częścią “Process Science”, dziedziny która zajmuje się szeroko pojętą analizą i optymalizacją procesów. Jest równoległą grupą metod do systemów Robotic Process Automation czy aplikacyjnych zastosowań sztucznej inteligencji. Rozwija się dynamicznie zarówno w obszarze badań jak i zastosowań komercyjnych. Podobnie jak w przypadku wdrożeń systemów RPA i AI na drodze do sukcesu stają: systemy legacy, rozproszenie danych w organizacji czy braki systemów flow’owych w zakresie raportowania zdarzeń.W prezentacji przedstawione zostaną najbardziej istotne zagadnienia process miningu: process discovery, conformance checking oraz resource allocation. Opowiemy też o naszych doświadczeniach i przeszkodach, które napotkaliśmy na swojej drodze wdrażając komercyjny sytstem PM. W założeniach powinien on działać na zasadzie plug&play, podczas gdy w praktyce przedsięwzięcie okazało się znacznie bardziej wymagające.

Posiadanie dużych wolumenów danych w organizacji często wynika z charakterystyki jej biznesu. Kolejne rekordy trafiają do baz z różnych systemów. Im jest ich więcej, tym trudniej umieścić je w jednym miejscu, oczyścić i zdemokratyzować. Co prawda mnogość technologii do obsługi dużych zbiorów danych jest ogromna, jednak gdy przychodzi do ich analizy okazuje się, że wydajność jest niezadowalająca i użytkownicy niechętnie z nich korzystają. Kolejnym problemem może być brak inżynierów, którzy będą transformować dane i utrzymywać infrastrukturę. Może okazać się, że zapotrzebowanie na nowe funkcjonalności znacząco wykracza poza możliwości zespołu deweloperskiego. Jak do tego zadania podchodzą największe organizacje i jakie są tego rezultaty? Na sesji przedstawię nowoczesne podejścia do platform danych klasy enterprise takie jak Data Mesh czy Data Lakehouse.

JSA to jedyny bezpłatny system antyplagiatowy w Polsce, który przeznaczony jest dla promotorów prac. Od 2019 roku pisemne prace inżynierskie, licencjackie, magisterskie i doktorskie dopuszczone do obrony muszą być przeanalizowane za pomocą JSA. W tym czasie zbadano w JSA już prawie 1 milion prac dyplomowych i doktorskich. W czasie pierwszych dwóch lat istnienia systemu dotarł on do wszystkich polskich uczelni i instytutów naukowych w Polsce, czyli uzyskał prawie 100 tys. użytkowników w około 400 podmiotach naukowych. Skala systemu jest też ujęta w wolumenie różnorodnych danych m.in. korpus stron internetowych, repozytorium prac dyplomowych, repozytorium publikacji Otwartego Dostęp . Rozmiar wszelakich danych używanych w systemie liczony jest ponad 80 TB. W prezentacji postaramy się zobrazować z jakimi problemami BigData się spotkaliśmy na poziomie ich przetwarzania, przechowywania, czy ostatecznego przeszukiwania. Postaram się też ująć kilka aspektów uczenia maszynowego jakie wykorzystujemy w powyższym systemie.

Przetwarzanie danych w chmurze to wyzwanie nie tylko techniczne. Podczas pracy z dużymi wolumenami danych należy brać jeszcze pod uwagę takie aspekty jak zapewnienie odpowiedniego poziomu bezpieczeństwa, backup czy georeplikacja. Ile tak naprawdę to kosztuje? Jak kontrolować wydatki? Co możemy zrobić, aby płacić za faktyczne zużycie a nie nasze niedopatrzenia? Jakie koszty ukrywa przez nami nas dostawca chmury? Na te wszystkie pytania (i nie tylko) będę starał się odpowiedzieć najlepiej jak tylko potrafię.

IoT is considered as a "for fun IT activity", but what we've learned from industry it is not a melody of the future, this is a real must have right now! When building an IoT solution you will find a problems that cannot be identify when playing with temperature or humidity sensors - how to generate 10K certificates? How to monitor a large fleet of devices? How to do AI on the cloud and on the edge where resources are really limited? During this session you will find answers for this and many, many more interesting questions!

Currently there are more and more created videos distributed via multiple social media channels. It becomes more and more important to monitor all of them by companies to verify their customers' feedback, reviews, opinions. During the talk, we talk about extracting text from videos, analyzing language and prepare robust, scalable infrastructure for it. The idea behind platform is about having the mix between managed and self-managed service for Big Data processing. The keynote shows the case study of the MVP of the platform for marketing companies.

Over past years we've seen a lot of initiatives around creating and improving data-oriented technologies enabling building more friendly, performant and reliable data ingestion pipelines. Data Analytics Platforms can now store and process tremendous amounts of data in a short amount of time making analytics accessible and affordable by anyone. But has it really made analytics faster? The more data users have, the more opportunities for meaningful analytics they get. But it comes with a price of spending more and more time on finding the right data for their needs and, what's even more important, getting a good grip on it's origin, quality and usefulness. After years of focusing on building platforms for collecting, structuring and processing the data, there comes a next wave in Analytics, Data Science and Business Intelligence Initiatives and it's within data discovery area. In this talk you will get a chance to find out what data discovery is, how it helps in finding a needle in a haystack and why data-oriented users should care about it.

Diabiz to opracowywany w ramach projektu CLARIN-BIZ korpus nagrań i anotowanych transkrypcji dialogów telefonicznych wzorowanych na procesach obsługi klientów w branży m.in. bankowej, energetycznej, telekomunikacyjnej i innych. W skład korpusu wchodzi ponad 2500 zweryfikowanych transkrypcji dwukanałowych nagrań rozmów (ok. 250 godzin) prowadzonych przez ponad 150 osób według kilkuset wariantów scenariuszy. Podczas wystąpienia omówione zostaną kwestie metodologii budowy korpusu (np. autentyczność), zakres jego anotacji oraz zastosowania w tworzeniu rozwiązań z zakresu: formatowania rozpoznań ASR (odtwarzanie interpunkcji), NLU (chatboty/ voiceboty) oraz odtwarzania struktury dialogów.

Ilość informacji rozpowszechnianych każdego dnia przerasta obecnie wykorzystywane możliwości ich weryfikowania oraz analizowania. Badanie prezentuje sposoby zastosowania metod NLP oraz ML w celu zautomatyzowanej detekcji stronniczości w polskich mediach. Pierwsza jego cześć dotyczy ilościowej analizy pokrycia tematów przez profile mediów na Twitterze poprzez wyselekcjonowanie słów kluczy oraz pogrupowanie tweetów za ich pomocą. W drugiej części przeprowadzona jest próba wykorzystania modeli typu sentiment analysis do wykrycia nastawiania poszczególnych autorów w stosunku do wybranych tematów. Badanie obejmuje posty opublikowane na Twitterze przez 12 zweryfikowanych profili najbardziej wpływowych mediów w Polsce w okresie od 01.07.2020 do 31.12.2020. Jego zadaniem jest wpracowanie metodologii skutecznego i automatycznego analizowania stronniczości w polskich mediach.

In this project, we examine the sentiment of over 4500 COVID-19-related articles coming from the two media news websites in the time period from July 2020 to June 2021. We want to see if and how they differ within one medium over time, as well as examine potential differences between the two media. In order to get more specific results, based on our initial intuitions, the articles were categorized in terms of whether they were dealing with national or world-wide affairs. Additionally, we use several different methods available for assessing Polish sentiment and compare them. We find significant differences between methods, but our hypotheses about differences between outlets, both in time and by category, are not confirmed. We propose next steps for sentiment assessment of Polish newspaper articles and highlight the importance of such research.

You've all probably seen amusing examples of text generation with GPT2/3. Since we now have a Polish GPT2 language model, let's deep dive into text generation. We will review the use cases, starting with creative ones, but also covering fake news, synthetic datasets and few or zero shot inference. We will review the inner workings of a language model. We'll discuss why greedy decoding doesn't usually work well and explain alternatives such as beam search, temperature scaling, top-k/top-p sampling. Finally, we'll look at some of the risks and biases encoded in the model and discuss how they can be mitigated.

W ciągu ostatnich lat w dziedzinie przetwarzania języka naturalnego wykształciła się praktyka pretrenowania dużych modeli Transformer (GPT-2, RoBERTa, T5), a następnie ich dostrajania (wraz z wyspecjalizową głowicą) na potrzeby konkretnych zadań. Wystąpienie dotyczy najnowszych metod wykorzystania neuronowych modeli języka wykraczających poza ten paradygmat (tj. bez dostrajania): suflowania (prompting) czy zadawania pytań. Pokażę również, jak kreatywnie można wykorzystać prawdopodobieństwa zwracane przez (niedostrojone) modele języka.

Polskie prawo i problemy z jego stosowaniem jest tematem na grubą książkę. Jeśli wypełnialiście PIT i próbowaliście czytać przepisy, to wiecie o czym mówię ;-) Wiele spraw sądowych rozbija się o definicje, co nie jest zaskakujące zważywszy, że na przykład definicji działalności gospodarczej jest w polskim prawie kilka. Czasie wystąpienia chciałbym pokazać jak metody NLP mogą pomóc w wyszukiwaniu podobnych fragmentów prawa i pokazywaniu różnic między podobnymi fragmentami. I jak potem z takich małych klocków można starać się ustalić, gdzie leżą punkty zapalne i jak nlp mogło by pomóc w kontroli jakości prawa.

Mierzenie podobieństwa jest jednym z kluczowych aspektów informatyki i przetwarzania danych. Wśród metod porównywania różnych obiektów możemy wymienić na przykład mierzenie odległości za pomocą miar: Euklidesowej, kosinusowej (w przypadku porównywania dwóch wektorów), Jaccarda (w przypadku mierzenia podobieństwa dwóch zbiorów). Sposobem na mierzenie podobieństwa dwóch sygnałów (procesów zachodzących w czasie) może być na przykład obliczenie współczynnika korelacji: Pearsona, Spearmana. Przedstawione sposoby nie mają jednak zastosowania w jeśli chodzi o porównywanie obrazów, kiedy stawiamy sobie za zadanie określenie, czy dwa obrazy przedstawiają podobne czy też różne obiekty.

Warsztat ma na celu przedstawienie eksploracji oraz krótkiego przeglądu metod prognozowania szeregów czasowych oraz sposobów wykorzystania tej wiedzy w Pythonie. Rozpatrywany będzie problem szeregu czasowego z zmiennymi objaśniającymi. Porównane zostaną modele statystyczne (ARIMAX) oraz Uogólniony Model Addytywny (Prophet), jak i również model uczenia maszynowego dzięki zastosowaniu inżynierii cech, która przekształci szereg czasowy do uczenia nadzorowanego. Ostatnim modelem będzie rekurencyjna sieć neuronowa. Ponadto przedstawione będzie wdrożenie modelu, aby można go było stosować produkcyjne. Autor również podzieli się swoimi doświadczeniami dotyczącymi pracy z szeregami czasowymi w środowisku biznesowym.

Responsible-AI-Widgets extends the Interpret-Community and Fairlearn repositories and provides user interfaces for model interpretability and fairness assessment of machine learning models. It contains a collection of model and data exploration and assessment user interfaces that enable better understanding of AI systems. Together, these interfaces empower developers and stakeholders of AI systems to develop and monitor AI more responsibly. During this session we will use Responsible-AI-Widgets to interpret models and assess their errors and fairness issues.

From medical research to small-data scenarios, whenever we want to understand how sure the model is about its own predictions, modeling uncertainty can be immensely helpful. During the workshop we’ll learn how to build Bayesian neural networks using Tensorflow and Tensorflow Probability to model uncertainty. At the end of the workshop, you’ll have practical knowledge how to create basic types of Bayesian neural network using Tensorflow ecosystem and you'll be able to apply these techniques to your own projects.To fully benefit from the workshop you need:- good practical knowledge of Python- practical understanding of deep learning principles- experience using Tensorflow (recommended) or other contemporary deep learning framework- good understanding of basic probability and basic distributions- familiarity with Bayes' theorem.

Warsztat będzie polegał na implementacji od zera Agenta uczenia ze wzmocnieniem, wykorzystując algorytm Q-learning. Zaprezentowany problem będzie osadzony w środowisku symulacyjnym OpenAI-Gym, na którego przykładzie zostanie omówiona charakterystyczna interakcja Agenta ze środowiskiem. Niniejszy warsztat jest świetną okazją dla tych, którzy chcą rozpocząć zgłębianie algorytmów RL, a nie lubią korzystać z modeli jak z black box'ów. Do implementacji rozwiązania zostaną wykorzystane jedynie Python, biblioteka numpy i środowisko symulacyjne OpenAI-Gym.

Przedmiotem warsztatów będzie prezentacja COMBO, czyli neuronowego systemu wstępnego przetwarzania języka naturalnego. Oprócz predykcji kategorialnych cech morfoskładniowych tokenów (tj. tagów, lematów, znaczników morfologicznych) oraz analiz składniowych całych zdań (tj. drzew zależnościowych), COMBO zwraca reprezentacje wektorowe tych predykcji, ekstrahując je z warstw ukrytych. COMBO jest łatwym do instalacji pakietem Pythonowym z opcją automatycznego pobierania pretrenowanych modeli dla ponad 40 języków.

Modele językowe oparte na transformerach zelektryzowały świat NLP. Sieci tego typu wymagają jednak niemałych zasobów, co powoduje że wytrenowanie własnego modelu od zera jest poza zasięgiem wielu entuzjastów. Na szczęście możliwe jest znalezienie licznych wytrenowanych już modeli tego typu, a transfer learning pozwala na dopasowanie ich do własnych potrzeb. W ramach warsztatu dowiesz się jak pozyskać oraz dotrenować tego typu sieć tak aby radziła sobie z nowym zadaniem. Problemem na którym opierać będzie się warsztat będzie klasyfikacja tekstu w języku polskim. Wszystko to z wykorzystaniem intuicyjnych i przystępnych narzędzi - bibliotek PyTorch i Transformers *aby móc skorzystać z warsztatu konieczne jest posiadanie konta na Gmailu aby móc sięgnąć po zasoby dostępne w Google Colab.

Technologia automatycznego rozpoznawania mowy (ASR) się staje coraz bardziej powszechna w naszym życiu, a w związku tym wzrasta i potrzeba jej integracji z innymi rozwiązaniami w środowisku informatycznym. Nieodłącznym komponentem tej układanki jest analiza wypowiedzi szeregiem algorytmów, powszechnie stosowanych w przetwarzaniu języka naturalnego, ale coraz częściej się dowiadujemy, że w praktyce nie jest to takie proste i skuteczne, gdyż większość narzędzi i modeli nie jest dostosowana do specyfiki języka mówionego. Problem ten nie jest nowością i pojawia się dosyć często w innych zadaniach, szczególnie gdy w grę wchodzi analiza komunikacji międzyludzkiej, np. w czatach, czy forach internetowych.

Zadaniem tych warsztatów nie jest dogłębna analiza problemu rozpoznawania mowy, ale zaprezentowanie pewnego rozwiązania typu opensource umożliwiającego szybkie i tanie stosowanie technologii ASR w sposób w pełni konfigurowalny w celu wygenerowania wiarygodnego wyniku procesu rozpoznawania mowy nadającego się do dalszych badań w kontekście NLP. Zaletą tego podejścia od stosowania gotowych rozwiązań chmurowych jest pełna kontrola nad każdym aspektem procesu i możliwość jego modyfikacji. Zastosowano w nim mechanizm hybrydowy, który umożliwi łatwą modyfikację słownictwa i warstwy językowej bez kosztownego dotrenowywania modeli end-to-end.

Warsztat ten wyjaśni w skrócie działanie procesu ASR pomijając przy tym szczegóły, które się nie mieszczą w ramach czasowych warsztatu. Zostanie użyty gotowy, pre-trenowany model akustyczny i dostarczone gotowe próbki nagrań. Warsztat się kończy wygenerowaniem wyniku rozpoznawania mowy na różne sposoby, a zagadnienia dotyczące analizy tego wyniku pod kątem NLP są zostawione uczestnikom, jako temat do osobistych rozważań i eksploracji.

The administrator of your personal data is Sages sp. z o.o. with its registered office in Warsaw, Poland at Nowogrodzka 62c Str., registered by the District Court for the Capital City of Warsaw, XIII Commercial Division of the National Court Register under the number KRS: 0000313297, with a share capital of PLN 50 000 paid-in full. Tax ID: 1132737407. REGON: 141560043. <br/><br/>Providing personal data is voluntary. Your personal data will be kept from the day of your consent and until you withdraw your consent – if you agree to provide you with commercial information from Sages sp. z o.o.<br/><br/>You have the right to access, correct and delete your personal data. In the matter of personal data protection, the Administrator may be contacted in writing by e-mail [email protected].

Ta strona korzysta z ciasteczek. Dalsze korzystanie ze strony oznacza, ?e zgadzasz si? na ich u?ycie. Mo?esz to zmieni? w ustawieniach swojej przegl?darki.

Dowiedz się więcej

AI & NLP conference

IV edition ○ online ○ October 25-26 2021