PV211 -- Úvod do získávání informací (jaro 2014)
Úvod |
Novinky |
Přednášky |
Odkazy |
Projekty |
Tento na FI v 2014 nově vyučovaný předmět je založen na knížce
Manning, Raghavan and
Schutze: Introduction to Information Retrieval,
k níž jsou bohaté a detailní materiály dostupné na webu projektu či na
Coursera. Několik kusů knihy je v knihovně FI.
V kurzu se mimo jiné dozvíte jakým způsobem
texty indexuje Google tak, že na desetitisíce v jedné vteřině
položených dotazů z různých konců světa je schopen odpovědět
z desítek miliard zaindexovaných dokumentů ve zlomku vteřiny,
a ještě odpovědi utřídí tak šikovně, že hledané informace tazatelé
často najdou na první stránce odpovědí.
V kursu jsme chtěli s využitím Fondu rozvoje FRMU vytvořit desítky
motivačních videí ve stylu Khan Academy: zkuste shlédnout
úvodní PV211 trailer
o historii a důležitostí získávání informací.
Výukové metody kurzu budou snažit zvyšovat autonomii učení studentů
podobnými motivačními a výukovými videolekcemi.
Chcete-li na získat výše uvedené dovednosti, znalosti a informace,
zapište si kurs o získávání informací! Těším se na shledanou!
- 4.6.: Druhý zkušební termín! Zveřejněna
řešení příkladů z cvičení od
Dominik Szalai a Michal Krajčovič
a Lukáš Daubner
- 22.5.: První zkušební termín!
- 15.4.: Přibyla další dvě výuková videa v materiálech předmětu, díky
Tomáši Effenbergerovi, Jaroslavu Čechákovi, Jiřímu Mauritzovi
a Lukáši Daubnerovi.
- 9.4.: Seznam.cz zpřístupní data českého webu spolu s API a některými nástroji
pro výzkum vyhledávání znalostí na výpočetní infrastruktuře Metacentra.
- 13.3.: Vypsány zkouškové termíny.
- 3.3.: Předmět si nakonec zapsalo 60 studentů. Jsou vystaveny další
materiály k autonomnímu samostudiu.
- 2.3.: Přesto, že jsme nedostali grant FR MU na přípravu videomateriálů
předmětu, Tomáš natočil a sestříhal v laboratoři
LEMMA nové video
Jak funguje Google.
- 25.2.: Přidání tipů na možné projekty.
- 20.2.: První přednáška, vystavení materiálů na první dva týdny.
- 03.2.: Potvrzená přednáška Seznamu (Roman Rožník) na 20.3.
- 31.1.: Podána žádost o grant FR MU na podporu vytváření
výukových a motivačních materiálů kursu PV211.
- 27.1.: Založeny studijní materiály
předmětu s trailerem kurzu.
- 26.1.: Dle předběžného rozvrhu se budeme scházet
v D3 ve čtvrtek od 16h (přednáška využívající i
nový full HD dataprojektor) s navazujícími cvičeními od 18h.
- 20. 2. 2014
Úvodní přednáška kurzu.
video (úvodní
trailer)
Boolean retrieval slides 1,
IIR chapter 1.
- 27. 2. 2014
Term vocabulary and postings lists
slides 2,
IIR chapter 2.
Dictionaries and tolerant retrieval
slides 3,
IIR chapter 3.
- 6. 3. 2014
Index construction slides 4,
IIR chapter 4.
- 13. 3. 2014
Compression slides 5,
IIR chapter 5.
Scoring, term weighting, the vector space model slides 6,
IIR chapter 6.
slides Google architecture (Ed Austin),
slides Google infrastructure (Jeff Dean), video (Jeff Dean).
- 20. 3. 2014 16:00-17:40
Roman Rožnik: Jak se dělá ranking v Seznamu:
problematika řazení výsledků fulltextového vyhledávače, řadicí model
(boostované rozhodovací stromy), požadované vlastnosti modelu, jeho
trénování a sběr dat pro něj, metriky kvality řazení,
feature selection.
18:00-19:40
Scores in complete search system slides 7,
IIR chapter 7.
- 27. 3. 2014
Evaluation and result summaries
slides 8,
IIR chapter 8.
Relevance feedback and query expansion
slides 9,
IIR chapter 9.
- 3. 4. 2014
Web search slides 19,
IIR chapter 19.
- 10. 4. 2014
Crawling slides 20,
IIR chapter 20.
Link Analysis, Pagerank slides 21,
IIR chapter 21.
How
Google finds a needle....
- 17. 4. 2014
XML retrieval slides 10,
IIR chapter 10.
MathML retrieval by MIaS in EuDML: slides
Cvičení 1.~skupiny bylo přesunuto na 24.4.
- 24. 4. 2014
Latent Semantic Indexing slides 18,
IIR chapter
18, Gensim.
Text Classification and Naive Bayes slides 13,
IIR chapter 13.
18:00: Společné cvičení obou skupin.
- 1. 5. 2014 a 8. 5. 2014 (státní svátky)
výuka odpadá. K autonomnímu studiu zůstává:
Vector Space Classification slides 14,
IIR chapter 14.
8.5. v 18h v D3 budou mimořádné konzultace.
- 15. 5. 2014 D3 16-17:40
Q&A session: Vše, co jste chtěli vědět o Získávání informací, ale
báli jste se zeptat. Své dotazy či přání na dovysvětlení dopřednášení
prosím pište do diskusního fóra předmětu. Je možné dopřednášet/okomentovat
žádaná témata (např. kap. 13 a 14).
18-19:40 konzultace příklady a závěrečný test (společné cvičení) v B130.
- Letos jsme nestihli :-( :
Probabilistic Information Retrieval slides 11,
IIR chapter 11.
Language Models for IR slides 12,
IIR chapter 12.
Support Vector Machines slides 15a,
Learning to Rank slides 15b,
IIR chapter 15.
Flat Clustering slides 16,
IIR chapter 16.
Hierarchical Clustering slides 17,
IIR chapter 17.
Budu rád, když vás problematika předmětu zaujme a rozhodnete se jí věnovat v rámci
projektů či miniprojektů. Aktivity v tomto směru budou odměněny netriviálním
množstvím prémiových bodů. Počet hvězdiček je odhadem náročnosti projektu,
od miniprojektu [(*), 10b] po práci rozsahu diplomového projektu [(*****), 50+b].
Pokud byste chtěli některý projekt vypsat i jako BP či DP, kontaktujte mě.
- (*)+ Pomoc Tomáši Effenbergerovi
s natáčením motivačních a výukových videí předmětu (kamera,
střih, příprava podkladů k natáčení).
- (*)+ Vypracování vzorových řešení příkladů ze cvičení v LaTeXu.
- (**)+ Minireferát či výukové video relevantní vyučovaným
tématům předmětu. Možná témata: Sketch Engine, vyhledávání
s lingvistickými atributy, náhodné procházky v textech, tematické vyhledávání a korpusy,
časově omezené vyhledávání, topic modelling s gensim, LDA,
Wolfram Alpha, specifika vyhledávání strukturních dat (chemické a
matematické vzorce, lingvistické stromy - syntaktické nebo závislostní),...
- (***)+ Evaluace vyhledávání matematických formulí v systému
MIaS -- možné i v rámci
projektu děkana pod vedením Mgr. Líšky nebo jako BP či DP.
- (****)+ Realizace aplikace informačního `robota' postavená na
SoC Intel Galileo (hw bude poskytnut).
- ...
Žákovi, který se hrozil chyb, Mistr řekl: "Ti, kdo nedělají chyby,
chybují nejvíc ze všech - nepokoušejí se o nic nového." Anthony de
Mello: O cestě.
sojka at fi dot muni dot cz --