SIGN UP

AI & NLP conference

IV edition online October 25-26 2021

Home
Agenda

50

speakers

4

parallel

tracks

500

participants

10

workshops

State-of-the-art Knowledge

Talk to field experts, scientists and PolEval competition winners to discuss state-of-the-art knowledge in the area of AI and NLP.

Exchange ideas and talk business with participants both from academia and industry.

Science meets Business

Conference is collocated With PolEval 2021 Competition.

PolEval Competition

Bring your notebook and take part in one of 12 AI & NLP related workshops to quickly gain hands-on knowledge on current methods and technologies.

Hands-on workshops

Previous editions

In the previous editions of this conference, over 300 entrepreneurs and scientists took part, having the opportunity to hear over 60 presentations. This year's edition will be attended by over 500 people, including entrepreneurs, professionals and start-up initiators.



AI&NLP 2018 AI&NLP 2019 AI&NLP 2020


Day 1

/ 25 October 2021 / conference

10:00 - 10:15

Conference Opening

10:15 - 11:00

plT5: uniwersalny model językowy

Dariusz Kajtoch (Allegro)

Podczas prezentacji opowiem o plT5, modelu ogólnego przeznaczenia opartego o architekturę transformer i wytrenowanego na potrzeby rozwiązywania różnorodnych zadań tekstowych dla języka polskiego. Przedstawię wyniki jego skuteczności na rozmaitych zadaniach począwszy od zmierzenia ogólnej wiedzy dla języka polskiego z wykorzystaniem benchmarku KLEJ a skończywszy na zadaniach specjalistycznych takich jak tłumaczenie i generowanie streszczeń. Pokażę jak na tych zadaniach radzą sobie inne modele tego typu przygotowane dla języka polskiego. Na koniec opowiem w jakich zadaniach biznesowych wykorzystujemy T5 w Allegro.

MACHINE LEARNING / ARTIFICIAL INTELLIGENCE TRACK

11:10 - 11:45

Visual Probing: Cognitive Framework for Explaining Self-Supervised Image Representations

Witold Oleszkiewicz

We introduce a novel visual probing framework for explaining the self-supervised models by leveraging probing tasks employed previously in natural language processing. The probing tasks require knowledge about semantic relationships between image parts. Hence, we propose a systematic approach to obtain analogs of natural language in vision, such as visual words, context, and taxonomy. Our proposal is grounded in Marr's computational theory of vision and concerns features like textures, shapes, and lines. We show the effectiveness and applicability of those analogs in the context of explaining self-supervised representations.

11:55 - 12:30

Gianmario Spacagna (Brainly), Artur Zygadło (deepsense.ai)

Automated Content Quality Assurance for Crowdsourcing Educational Platforms

The success of social learning platforms strongly depends on the quality of contents created and maintained by the community. Being able to filter only the relevant and high-quality contents is crucial for guaranteeing the trust & safety for your users, enabling the personalization of their learning experience, as well as avoiding gamification side effects.


In this talk we will analyze the Brainly Social Q&A platform that allows more than 350M students worldwide to ask questions and seek help in their homework and studying. We will dig deeper into the ACQUA (Automated Content Quality Assurance) system that was developed to provide a near real-time feed of text classifications over a dozen of labels such as toxicity, spam, gibberish, incomplete questions, non-educational questions, personal identifiers, grammar mistakes, presence of irrelevant details, readability, wrong language, bad subjects. The blacklist feed is then used for content reporting and moderation as well as for other downstream tasks such as recommender systems, information retrieval, users reputation models, or other data analytics scopes.


The talk will cover some modeling and engineering aspects of building such NLP systems and is accessible without any prior knowledge in the field.In particular we will cover the definition of content quality from an educational point of view, the challenges of correctly classifying those contents using machine learning, a few tips on how to leverage the state-of-the-art of NLP, and some MLOps data-centric aspects related to data labeling and human-in-the-loop workflows.

12:40 - 13:15

Marcin Mosiołek

Unsupervised Methods To Learn Text Embeddings

Semantic search engines aim to capture the exact intent of a user's query and find the answer, taking into account not only the match between individual words but also the actual meaning and contextual information. The key task in constructing such a solution is to develop a model that can capture the critical information contained in the text and transform them into vector space. The problem seems to be well covered in the literature regarding the common English language, as many papers, models, and datasets have been released over the last years. Things get slightly more complicated when it comes to a specific domain of some less-popular language, such as court decisions written in Polish. There are no existing models or datasets that could be directly leveraged to solve the task in such circumstances. Our team has recently tackled such a problem in nearly complete unsupervised settings. The talk aims to introduce the ways one could handle similar challenges based on our experience.

L U N C H

13:45 - 14:20

Ocena wiarygodności dokumentów na podstawie stylu

Piotr Przybyła

Przedstawię wyniki prac nad automatycznym wykrywaniem dokumentów o niskiej wiarygodności, takich jak zmyślone wiadomości (ang. 'fake news'), na podstawie ich własności stylistycznych. Opiszę zgromadzony korpus 103.219 dokumentów z 223 źródeł i wyjaśnię dlaczego zastosowanie zwykłych klasyfikatorów tekstu nie przynosi zadowalających rezultatów. Przedstawię metody opracowane specjalnie dla tego zadania na bazie sieci neuronowych i cech stylometrycznych oraz osiągane przez nie wyniki. Przekonamy się także, czy opracowane klasyfikatory rzeczywiście uwzględniają słownictwo charakterystyczne dla zmyślonych wiadomości.

14:30 - 15:05

Patryk Pilarski

Weights & Biases - monitoruj swoje eksperymenty

Każdy kto kiedykolwiek brał udział w projekcie związanym z uczeniem maszynowym wie jak łatwo można pogubić się w wykonywanych eksperymentach oraz wypróbowanych już podejściach i modelach. Na szczęście na rynku pojawia się coraz więcej narzędzi które pozwalają na monitorowanie postępujących prac. Jednym z nich jest Weights & Biases - platforma która oferuje przystępny interfejs oraz szerokie możliwości monitorowania i wizualizacji eksperymentów. W takcie wystąpienia dowiesz się jak łatwo dodać monitoring do własnych projektów.

15:15 - 15:50

Prognozowanie popytu - podobieństwa i różnice między branżami

Paweł Ekk-Cierniakowski (Predica)

Potrzeba prognozowania popytu dotyczy większości firm ze względu na ograniczenia przestrzeni do magazynowania produktów gotowych, jak również surowców oraz kosztów utraconej sprzedaży przez brak zapewnienia odpowiedniego poziomu dostępności produktów. Podczas sesji zostanie zaprezentowane podejście do prognozowania w różnych branżach, takich jak m.in. farmacja oraz moda.

16:00 - 16:35

Paulina Sanak

Data Storytelling jest prostszy niż myślisz - wskazówki dla zabieganych?

Technologie ułatwiają nam przetwarzać i rozumieć dane, które stały się nowym paliwem nakręcającym gospodarkę. Ale czy mamy pewność, że potrafimy skutecznie komunikować się za pomocą danych? Data storytelling jest obowiązkową umiejętnością na miarę XXI wieku dla każdego kto pracuje z danymi.Na sesji zostaną zaprezentowane przykłady najskuteczniejszych strategii komunikowania danych oraz pomocne porady jak prezentować dane w sposób zrozumiały dla odbiorców.

BIG DATA / CLOUD TRACK

11:10 - 11:45

Kamil Żbikowski, Piotr Gawrysiak, Tomasz Romanowski (mBank)

Process Mining - next big thing?

Process mining jest częścią “Process Science”, dziedziny która zajmuje się szeroko pojętą analizą i optymalizacją procesów. Jest równoległą grupą metod do systemów Robotic Process Automation czy aplikacyjnych zastosowań sztucznej inteligencji. Rozwija się dynamicznie zarówno w obszarze badań jak i zastosowań komercyjnych. Podobnie jak w przypadku wdrożeń systemów RPA i AI na drodze do sukcesu stają: systemy legacy, rozproszenie danych w organizacji czy braki systemów flow’owych w zakresie raportowania zdarzeń.W prezentacji przedstawione zostaną najbardziej istotne zagadnienia process miningu: process discovery, conformance checking oraz resource allocation. Opowiemy też o naszych doświadczeniach i przeszkodach, które napotkaliśmy na swojej drodze wdrażając komercyjny sytstem PM. W założeniach powinien on działać na zasadzie plug&play, podczas gdy w praktyce przedsięwzięcie okazało się znacznie bardziej wymagające.

11:55 - 12:30

Łukasz Bielak

Nowoczesna platforma danych - czyli jak z big data zrobić użytek w dużej organizacji

Posiadanie dużych wolumenów danych w organizacji często wynika z charakterystyki jej biznesu. Kolejne rekordy trafiają do baz z różnych systemów. Im jest ich więcej, tym trudniej umieścić je w jednym miejscu, oczyścić i zdemokratyzować. Co prawda mnogość technologii do obsługi dużych zbiorów danych jest ogromna, jednak gdy przychodzi do ich analizy okazuje się, że wydajność jest niezadowalająca i użytkownicy niechętnie z nich korzystają. Kolejnym problemem może być brak inżynierów, którzy będą transformować dane i utrzymywać infrastrukturę. Może okazać się, że zapotrzebowanie na nowe funkcjonalności znacząco wykracza poza możliwości zespołu deweloperskiego. Jak do tego zadania podchodzą największe organizacje i jakie są tego rezultaty? Na sesji przedstawię nowoczesne podejścia do platform danych klasy enterprise takie jak Data Mesh czy Data Lakehouse.

12:40 - 13:15

Jak przetwarzać terabajty danych tekstowych - case study Jednolitego Systemu Antyplagiatowego

Marek Kozlowski (Laboratorium Inżynierii Lingwistycznej w OPI)

JSA to jedyny bezpłatny system antyplagiatowy w Polsce, który przeznaczony jest dla promotorów prac. Od 2019 roku pisemne prace inżynierskie, licencjackie, magisterskie i doktorskie dopuszczone do obrony muszą być przeanalizowane za pomocą JSA. W tym czasie zbadano w JSA już prawie 1 milion prac dyplomowych i doktorskich. W czasie pierwszych dwóch lat istnienia systemu dotarł on do wszystkich polskich uczelni i instytutów naukowych w Polsce, czyli uzyskał prawie 100 tys. użytkowników w około 400 podmiotach naukowych. Skala systemu jest też ujęta w wolumenie różnorodnych danych m.in. korpus stron internetowych, repozytorium prac dyplomowych, repozytorium publikacji Otwartego Dostęp . Rozmiar wszelakich danych używanych w systemie liczony jest ponad 80 TB. W prezentacji postaramy się zobrazować z jakimi problemami BigData się spotkaliśmy na poziomie ich przetwarzania, przechowywania, czy ostatecznego przeszukiwania. Postaram się też ująć kilka aspektów uczenia maszynowego jakie wykorzystujemy w powyższym systemie.

L U N C H

13:45 - 14:20

Kamil Mrzygłód

DataFinOps w chmurze - czy to w ogóle możliwe?

Przetwarzanie danych w chmurze to wyzwanie nie tylko techniczne. Podczas pracy z dużymi wolumenami danych należy brać jeszcze pod uwagę takie aspekty jak zapewnienie odpowiedniego poziomu bezpieczeństwa, backup czy georeplikacja. Ile tak naprawdę to kosztuje? Jak kontrolować wydatki? Co możemy zrobić, aby płacić za faktyczne zużycie a nie nasze niedopatrzenia? Jakie koszty ukrywa przez nami nas dostawca chmury? Na te wszystkie pytania (i nie tylko) będę starał się odpowiedzieć najlepiej jak tylko potrafię.

14:30 - 15:05

Building IoT edge solutions at scale - why poc is not enough?

Paweł Fiderek

IoT is considered as a "for fun IT activity", but what we've learned from industry it is not a melody of the future, this is a real must have right now! When building an IoT solution you will find a problems that cannot be identify when playing with temperature or humidity sensors - how to generate 10K certificates? How to monitor a large fleet of devices? How to do AI on the cloud and on the edge where resources are really limited? During this session you will find answers for this and many, many more interesting questions!

15:15 - 15:50

NLP for videos: Understanding customers' feelings in videos

Albert Lewandowski

Currently there are more and more created videos distributed via multiple social media channels. It becomes more and more important to monitor all of them by companies to verify their customers' feedback, reviews, opinions. During the talk, we talk about extracting text from videos, analyzing language and prepare robust, scalable infrastructure for it. The idea behind platform is about having the mix between managed and self-managed service for Big Data processing. The keynote shows the case study of the MVP of the platform for marketing companies.

16:00 - 16:35

Data Discovery - a crown-jewel of every data analytics platform

Mariusz Górski (ING)

Over past years we've seen a lot of initiatives around creating and improving data-oriented technologies enabling building more friendly, performant and reliable data ingestion pipelines. Data Analytics Platforms can now store and process tremendous amounts of data in a short amount of time making analytics accessible and affordable by anyone. But has it really made analytics faster? The more data users have, the more opportunities for meaningful analytics they get. But it comes with a price of spending more and more time on finding the right data for their needs and, what's even more important, getting a good grip on it's origin, quality and usefulness. After years of focusing on building platforms for collecting, structuring and processing the data, there comes a next wave in Analytics, Data Science and Business Intelligence Initiatives and it's within data discovery area. In this talk you will get a chance to find out what data discovery is, how it helps in finding a needle in a haystack and why data-oriented users should care about it.

NATURAL LANGUAGE PROCESSING TRACK

11:10 - 11:45

Budowa referencyjnego korpusu procesów obsługowych i jego zastosowania w tworzeniu systemów dialogowych

Piotr Pęzik (Computational and Corpus Linguistics Laboratory at University of Lodz)

Diabiz to opracowywany w ramach projektu CLARIN-BIZ korpus nagrań i anotowanych transkrypcji dialogów telefonicznych wzorowanych na procesach obsługi klientów w branży m.in. bankowej, energetycznej, telekomunikacyjnej i innych. W skład korpusu wchodzi ponad 2500 zweryfikowanych transkrypcji dwukanałowych nagrań rozmów (ok. 250 godzin) prowadzonych przez ponad 150 osób według kilkuset wariantów scenariuszy. Podczas wystąpienia omówione zostaną kwestie metodologii budowy korpusu (np. autentyczność), zakres jego anotacji oraz zastosowania w tworzeniu rozwiązań z zakresu: formatowania rozpoznań ASR (odtwarzanie interpunkcji), NLU (chatboty/ voiceboty) oraz odtwarzania struktury dialogów.

11:55 - 12:30

Ryszard Tuora (IPI PAN)

Konstrukcja polskiego systemu do odpowiadania na pytania w ramach infrastruktury CLARIN

Automatyczne odpowiadanie na pytania jest przez niektórych teoretyków uważane za problem AI-complete, tj. pełne rozwiązanie takiego zadania, musiałoby równocześnie doprowadzić do powstania prawdziwej sztucznej inteligencji. W tym wystąpieniu dowiemy się jak można "ugryźć" ten problem wykorzystując cały szereg technik NLP. Jako przykładowe rozwiązanie omówimy system QA powstający w ramach architektury CLARIN.

12:40 - 13:15

Stanisław Bogdanowicz

Automatyzacja wykrywania stronniczości w polskich mediach

Ilość informacji rozpowszechnianych każdego dnia przerasta obecnie wykorzystywane możliwości ich weryfikowania oraz analizowania. Badanie prezentuje sposoby zastosowania metod NLP oraz ML w celu zautomatyzowanej detekcji stronniczości w polskich mediach. Pierwsza jego cześć dotyczy ilościowej analizy pokrycia tematów przez profile mediów na Twitterze poprzez wyselekcjonowanie słów kluczy oraz pogrupowanie tweetów za ich pomocą. W drugiej części przeprowadzona jest próba wykorzystania modeli typu sentiment analysis do wykrycia nastawiania poszczególnych autorów w stosunku do wybranych tematów. Badanie obejmuje posty opublikowane na Twitterze przez 12 zweryfikowanych profili najbardziej wpływowych mediów w Polsce w okresie od 01.07.2020 do 31.12.2020. Jego zadaniem jest wpracowanie metodologii skutecznego i automatycznego analizowania stronniczości w polskich mediach.

L U N C H

13:45 - 14:20

Analysis of sentiment of COVID19-related articles from two of

the biggest polish media news websites: TVN24 and TVP Info

Jedrzej Miecznikowski, Wiktoria Dołębska

In this project, we examine the sentiment of over 4500 COVID-19-related articles coming from the two media news websites in the time period from July 2020 to June 2021. We want to see if and how they differ within one medium over time, as well as examine potential differences between the two media. In order to get more specific results, based on our initial intuitions, the articles were categorized in terms of whether they were dealing with national or world-wide affairs. Additionally, we use several different methods available for assessing Polish sentiment and compare them. We find significant differences between methods, but our hypotheses about differences between outlets, both in time and by category, are not confirmed. We propose next steps for sentiment assessment of Polish newspaper articles and highlight the importance of such research.

14:30 - 15:05

Darek Kłeczek (skok.ai)

A-muse. Polish text generation with PapuGaPT2

You've all probably seen amusing examples of text generation with GPT2/3. Since we now have a Polish GPT2 language model, let's deep dive into text generation. We will review the use cases, starting with creative ones, but also covering fake news, synthetic datasets and few or zero shot inference. We will review the inner workings of a language model. We'll discuss why greedy decoding doesn't usually work well and explain alternatives such as beam search, temperature scaling, top-k/top-p sampling. Finally, we'll look at some of the risks and biases encoded in the model and discuss how they can be mitigated.

15:15 - 15:50

Filip Graliński (Applica.ai, Uniwersytet im. Adama Mickiewicza)

Bez strojenia. Suflowanie, zadawanie pytań i inne sposoby praktycznego wykorzystania neuronowych modeli języka

W ciągu ostatnich lat w dziedzinie przetwarzania języka naturalnego wykształciła się praktyka pretrenowania dużych modeli Transformer (GPT-2, RoBERTa, T5), a następnie ich dostrajania (wraz z wyspecjalizową głowicą) na potrzeby konkretnych zadań. Wystąpienie dotyczy najnowszych metod wykorzystania neuronowych modeli języka wykraczających poza ten paradygmat (tj. bez dostrajania): suflowania (prompting) czy zadawania pytań. Pokażę również, jak kreatywnie można wykorzystać prawdopodobieństwa zwracane przez (niedostrojone) modele języka.

16:00 - 16:35

Adam Zadrożny

Poszukiwanie redundancji i punktów zapalnych w Polskim prawie - NLP a prawo

Polskie prawo i problemy z jego stosowaniem jest tematem na grubą książkę. Jeśli wypełnialiście PIT i próbowaliście czytać przepisy, to wiecie o czym mówię ;-) Wiele spraw sądowych rozbija się o definicje, co nie jest zaskakujące zważywszy, że na przykład definicji działalności gospodarczej jest w polskim prawie kilka. Czasie wystąpienia chciałbym pokazać jak metody NLP mogą pomóc w wyszukiwaniu podobnych fragmentów prawa i pokazywaniu różnic między podobnymi fragmentami. I jak potem z takich małych klocków można starać się ustalić, gdzie leżą punkty zapalne i jak nlp mogło by pomóc w kontroli jakości prawa.

POLEVAL TRACK

11:10 - 11:25

Agnieszka Mikołajczyk (Voicelab), Piotr Pęzik (Voicelab, Uniwersytet Łódzki), Adam Wawrzyński (Voicelab), Adam Kaczmarek (Voicelab), Wojciech Janowski (Voicelab), Michał Adamczyk (Voicelab, Uniwersytet Łódzki)

PolEval 2021 Task 1: Punctuation restoration from read text

11:25 - 11:40

Krzysztof Wróbel (Enelpol, UJ, AGH) , Dmytro Zhylko (AGH, Enelpol)

Punctuation Restoration with Transformers

11:40 - 11:55

Michał Marcińczuk (Samurai Labs, Wrocław University of Science and Technology)

Punctuation Restoration with Ensemble of Neural Network Classifier and Pre-trained Transformers

11:55 - 12:10

Tomasz Ziętkiewicz (Uniwersytet Adama Mickiewicza, Samsung R&D Institute Poland)

Punctuation restoration from read text with transformer-based tagger

P R Z E R W A

12:25 - 12:40

Krzysztof Wołk (Polish-Japanese Academy of Information Technology), Maciej Szymkowski (Bialystok University of Technology)

PolEval 2021 Task 2: Evaluation of translation quality assessment metrics

12:40 - 12:55

Dariusz Kłeczek (skok.ai)

Simple recipes for assessing translation quality

12:55 - 13:10

Krzysztof Wróbel (Enelpol, UJ, AGH)

Transformer as Machine Translation Evaluation Metrics

L U N C H

13:45 - 14:00

Szymon Rynkun (University of Warsaw), Łukasz Kobyliński (Institute of Computer Science, Polish Academy of Sciences / Sages), Witold Kieraś

PolEval 2021 Task 3: Post-correction of OCR results

14:00 - 14:15

Mateusz Piotrowski

Post-correction of OCR results using pre-trained language model

14:15 - 14:30

Krzysztof Wróbel (Enelpol, UJ, AGH)

OCR Correction with Encoder-Decoder Transformer

14:30 - 14:45

Paweł Dyda (Uniwersytet Adama Mickiewicza, Applica.ai)

Simple, yet effective method of post-correcting OCR errors

14:45 - 15:00

Michał Marcińczuk (Samurai Labs, Wrocław University of Science and Technology)

OCR Post-Correction with Heuristics

P R Z E R W A

15:15 - 15:30

Maciej Ogrodniczuk, Piotr Przybyła (Institute of Computer Science, Polish Academy of Sciences)

PolEval 2021 Task 4: Question answering challenge

15:30 - 15:45

Mateusz Piotrowski

Search augmented question answering system using multilangual transformer model

15:45 - 16:00

Aleksander Smywiński-Pohl, AGH, Enelpol, Dmytro Zhylka AGH, Enelpol, Krzysztof Wróbel, UJ, AGH, Enelpol, Magda Król, AGH

Answering Polish Trivia Questions with the Help of Dense Passage Retriever

16:00 - 16:15

Piotr Rybak

Retrieve and Refine System for Polish Question Answering

16:15 - 16:30

Dariusz Kłeczek (skok.ai)

Simple recipes for question answering

Day 2

/ 26 October 2021 / workshops

MACHINE LEARNING / ARTIFICIAL INTELLIGENCE TRACK

8:30 - 10:15

Maciej Kowalski, Laboratorium Inżynierii Lingwistycznej w OPI

Uczenie metryk odległości

Mierzenie podobieństwa jest jednym z kluczowych aspektów informatyki i przetwarzania danych. Wśród metod porównywania różnych obiektów możemy wymienić na przykład mierzenie odległości za pomocą miar: Euklidesowej, kosinusowej (w przypadku porównywania dwóch wektorów), Jaccarda (w przypadku mierzenia podobieństwa dwóch zbiorów). Sposobem na mierzenie podobieństwa dwóch sygnałów (procesów zachodzących w czasie) może być na przykład obliczenie współczynnika korelacji: Pearsona, Spearmana. Przedstawione sposoby nie mają jednak zastosowania w jeśli chodzi o porównywanie obrazów, kiedy stawiamy sobie za zadanie określenie, czy dwa obrazy przedstawiają podobne czy też różne obiekty.

10:25 - 12:10

Bartosz Szabłowski

Praktyczne uczenie maszynowe dla szeregów czasowych w Pythonie

Warsztat ma na celu przedstawienie eksploracji oraz krótkiego przeglądu metod prognozowania szeregów czasowych oraz sposobów wykorzystania tej wiedzy w Pythonie. Rozpatrywany będzie problem szeregu czasowego z zmiennymi objaśniającymi. Porównane zostaną modele statystyczne (ARIMAX) oraz Uogólniony Model Addytywny (Prophet), jak i również model uczenia maszynowego dzięki zastosowaniu inżynierii cech, która przekształci szereg czasowy do uczenia nadzorowanego. Ostatnim modelem będzie rekurencyjna sieć neuronowa. Ponadto przedstawione będzie wdrożenie modelu, aby można go było stosować produkcyjne. Autor również podzieli się swoimi doświadczeniami dotyczącymi pracy z szeregami czasowymi w środowisku biznesowym.

L U N C H

12:45 - 14:30

Marcin Szeliga

Responsible AI Widgets

Responsible-AI-Widgets extends the Interpret-Community and Fairlearn repositories and provides user interfaces for model interpretability and fairness assessment of machine learning models. It contains a collection of model and data exploration and assessment user interfaces that enable better understanding of AI systems. Together, these interfaces empower developers and stakeholders of AI systems to develop and monitor AI more responsibly. During this session we will use Responsible-AI-Widgets to interpret models and assess their errors and fairness issues.

14:40 - 16:25

Aleksander Molak, Lingaro

Uncertainty? Hands-on Bayesian neural networks with Tensorflow and Tensorflow Probability

From medical research to small-data scenarios, whenever we want to understand how sure the model is about its own predictions, modeling uncertainty can be immensely helpful. During the workshop we’ll learn how to build Bayesian neural networks using Tensorflow and Tensorflow Probability to model uncertainty. At the end of the workshop, you’ll have practical knowledge how to create basic types of Bayesian neural network using Tensorflow ecosystem and you'll be able to apply these techniques to your own projects.To fully benefit from the workshop you need:- good practical knowledge of Python- practical understanding of deep learning principles- experience using Tensorflow (recommended) or other contemporary deep learning framework- good understanding of basic probability and basic distributions- familiarity with Bayes' theorem.

ML TRACK

8:30 - 10:15

Q-learning - implementacja od podstaw

Waldemar Kołodziejczyk

Warsztat będzie polegał na implementacji od zera Agenta uczenia ze wzmocnieniem, wykorzystując algorytm Q-learning. Zaprezentowany problem będzie osadzony w środowisku symulacyjnym OpenAI-Gym, na którego przykładzie zostanie omówiona charakterystyczna interakcja Agenta ze środowiskiem. Niniejszy warsztat jest świetną okazją dla tych, którzy chcą rozpocząć zgłębianie algorytmów RL, a nie lubią korzystać z modeli jak z black box'ów. Do implementacji rozwiązania zostaną wykorzystane jedynie Python, biblioteka numpy i środowisko symulacyjne OpenAI-Gym.

10:25 - 12:10

Implementacja potoków uczenia maszynowego (ML pipelines) w bibliotece scikit-learn

Norbert Ryciak

Realne rozwiązania oparte na uczeniu maszynowym właściwie zawsze składają się z czegoś więcej niż sam algorytm - mamy wówczas do czynienia z procesem składającym się z kilku kroków, który nazywa się potokiem (pipeline). Podczas warsztatu omówimy od podstaw jak wygodnie i efektywnie implementować procesy predykcyjne (zarówno te najprostsze jak i nieco bardziej złożone) z wykorzystaniem biblioteki scikit-learn.

NATURAL LANGUAGE PROCESSING TRACK

8:30 - 10:15

Paweł Ekk-Cierniakowski, Predica

Czy dane w systemie są właściwe - porównanie z rozpoznawaniem formularzy

Podczas sesji zostanie zaprezentowane pozyskiwanie danych z dokumentów z wykorzystaniem Form Recognizer w Azure wraz z porównaniem z danymi tabelarycznymi na podstawie metod porównywania ciągów znaków, które zostanie przeprowadzone za pomocą bibliotek języka Python.

10:25 - 12:10

Alina Wróblewska

COMBO: System wstępnego przetwarzania języka naturalnego

Przedmiotem warsztatów będzie prezentacja COMBO, czyli neuronowego systemu wstępnego przetwarzania języka naturalnego. Oprócz predykcji kategorialnych cech morfoskładniowych tokenów (tj. tagów, lematów, znaczników morfologicznych) oraz analiz składniowych całych zdań (tj. drzew zależnościowych), COMBO zwraca reprezentacje wektorowe tych predykcji, ekstrahując je z warstw ukrytych. COMBO jest łatwym do instalacji pakietem Pythonowym z opcją automatycznego pobierania pretrenowanych modeli dla ponad 40 języków.

L U N C H

12:45 - 14:30

Patryk Pilarski

Transfer learning w NLP - dopasuj model do własnego problemu

Modele językowe oparte na transformerach zelektryzowały świat NLP. Sieci tego typu wymagają jednak niemałych zasobów, co powoduje że wytrenowanie własnego modelu od zera jest poza zasięgiem wielu entuzjastów. Na szczęście możliwe jest znalezienie licznych wytrenowanych już modeli tego typu, a transfer learning pozwala na dopasowanie ich do własnych potrzeb. W ramach warsztatu dowiesz się jak pozyskać oraz dotrenować tego typu sieć tak aby radziła sobie z nowym zadaniem. Problemem na którym opierać będzie się warsztat będzie klasyfikacja tekstu w języku polskim. Wszystko to z wykorzystaniem intuicyjnych i przystępnych narzędzi - bibliotek PyTorch i Transformers *aby móc skorzystać z warsztatu konieczne jest posiadanie konta na Gmailu aby móc sięgnąć po zasoby dostępne w Google Colab.

14:40 - 16:25

Rozpoznawanie mowy dla NLP

Danijel Korzinek

Technologia automatycznego rozpoznawania mowy (ASR) się staje coraz bardziej powszechna w naszym życiu, a w związku tym wzrasta i potrzeba jej integracji z innymi rozwiązaniami w środowisku informatycznym. Nieodłącznym komponentem tej układanki jest analiza wypowiedzi szeregiem algorytmów, powszechnie stosowanych w przetwarzaniu języka naturalnego, ale coraz częściej się dowiadujemy, że w praktyce nie jest to takie proste i skuteczne, gdyż większość narzędzi i modeli nie jest dostosowana do specyfiki języka mówionego. Problem ten nie jest nowością i pojawia się dosyć często w innych zadaniach, szczególnie gdy w grę wchodzi analiza komunikacji międzyludzkiej, np. w czatach, czy forach internetowych.


Zadaniem tych warsztatów nie jest dogłębna analiza problemu rozpoznawania mowy, ale zaprezentowanie pewnego rozwiązania typu opensource umożliwiającego szybkie i tanie stosowanie technologii ASR w sposób w pełni konfigurowalny w celu wygenerowania wiarygodnego wyniku procesu rozpoznawania mowy nadającego się do dalszych badań w kontekście NLP. Zaletą tego podejścia od stosowania gotowych rozwiązań chmurowych jest pełna kontrola nad każdym aspektem procesu i możliwość jego modyfikacji. Zastosowano w nim mechanizm hybrydowy, który umożliwi łatwą modyfikację słownictwa i warstwy językowej bez kosztownego dotrenowywania modeli end-to-end.


Warsztat ten wyjaśni w skrócie działanie procesu ASR pomijając przy tym szczegóły, które się nie mieszczą w ramach czasowych warsztatu. Zostanie użyty gotowy, pre-trenowany model akustyczny i dostarczone gotowe próbki nagrań. Warsztat się kończy wygenerowaniem wyniku rozpoznawania mowy na różne sposoby, a zagadnienia dotyczące analizy tego wyniku pod kątem NLP są zostawione uczestnikom, jako temat do osobistych rozważań i eksploracji.

Buy Tickets

Conference Pass


Participation in the conference day 10/25 (live discussion panels and Q&Q sessions)


1-year access to video recordings from all speeches


Access to a dedicated Slack channel





Ticket sales are closed

Conference + Workshops Pass

Participation in the conference day 10/25 (live discussion panels and Q&Q sessions)


Online access to workshops 10/26


1-year access to video recordings from the conference speeches


Access to a dedicated Slack channel

Ticket sales are closed

Premium Pass

Ticket sales are closed

Online access to speeches 10/25 (live discussion panels and Q&Q sessions)


Online access to workshops 10/26


Access to video recordings from all speeches


Basic access to the NLP course in polish (40h of training videos)

Keep In Touch

Subscribe Us to get the information about the next editions of NLPday and our others events.

The administrator of your personal data is Sages sp. z o.o. with its registered office in Warsaw, Poland at Nowogrodzka 62c Str., registered by the District Court for the Capital City of Warsaw, XIII Commercial Division of the National Court Register under the number KRS: 0000313297, with a share capital of PLN 50 000 paid-in full. Tax ID: 1132737407. REGON: 141560043. <br/><br/>Providing personal data is voluntary. Your personal data will be kept from the day of your consent and until you withdraw your consent – if you agree to provide you with commercial information from Sages sp. z o.o.<br/><br/>You have the right to access, correct and delete your personal data. In the matter of personal data protection, the Administrator may be contacted in writing by e-mail info@nlpday.pl.

FAQ

How can I register?

To register for the event, you will have to complete the appropriate registration form here and pay a fee. If you are the PolEval 2021 participant, you will receive a promotional code to register for free.

I'm a PolEval 2021 participant. How can I register for free?

You should get an email with information about the event and registration instructions. If not, please write to us and ask for a promotional code.

How to get the invoice?

How to become our partner?

Yes, a confirmation and tax invoice will be issued automatically upon registration.

Will the event be recorded?

All talks will be recorded and available for event attendees.

Is WiFi network available at the venue?

Yes, WiFi is provided for the participants.

Contact us to learn about our packages.

Is it possible to park a car at the venue?

The Institute has a car park for its guests. Entrance to the parking is located in Władysława Warneńczyka Str. (access from Jana Kazimierza Str.). Please remember that parking space is limited. Street parking is difficult to find.

Organizers

Our Sponsors

Sponsorship at the AI & NLP DAY 2021 provides a unique opportunity for any organisation associated with the IT industry to achieve outstanding exposure to a audience of professionals from scientific and business environment. It is also an opportunity for superb networking and entertaining clients. Please email us for further information and latest availability.

Media Partners 2021

Partnership at the AI & NLP DAY 2020 provides a unique opportunity for any organisation associated with the IT industry to achieve outstanding exposure to a audience of professionals from scientific and business environment. It would be a great pleasure to welcome you as a media partner of NLPday 2020. Please email us for further information.

Venue

Online

Due to coronavirus, NLPDAY 2021 changed to fully online virtual format.

Contact us

All speeches will be recorded and shared with the attendees after the event.

Recordings

© 2020 Sages

Ta strona korzysta z ciasteczek. Dalsze korzystanie ze strony oznacza, ?e zgadzasz si? na ich u?ycie. Mo?esz to zmieni? w ustawieniach swojej przegl?darki.
Dowiedz się więcej