|
|
|
Links Berikut ini adalah sejumlah links untuk melengkapi penjelasan kuliah saya di kelas.
Information Retrieval
Swish, Swish-E, Swish++
- Information Retrieval Software (Khusus untuk SWISH-E, kunjungi http://swish-e.org/
MG4J
- (Managing Gigabytes for Java) Implementasi ke Java dari buku Information Retrieval: Managing Gigabytes: Compression and Indexing Documents and Images, karya Ian H. Witten, Alistair Moffat, dan Timothy C. Bell. MG4J sendiri sebenarnya bukan sebuah library untuk Information Retrieval. UbiCrawler adalah web crawler yang distributed dan fault-tolerant untuk perolehan resource web untuk diolah dengan MG4J.
GLIMPSE dan WEBGLIMPSE
- Information Retrieval Software.
Egothor
- Library Java untuk indexing dan searching text. Termasuk Capek, sebuah aplikasi web crawler yang menggunakan Egothor, lengkap dengan file indexernya yang menggunakan GUI Swing.
HT://DIG
- Information Retrieval Software.
Microsoft Index Server
- Information Retrieval Software. URL lengkap: http://www.microsoft.com/NTServer/techresources/webserv/IndxServ.asp
Namazu
- Information Retrieval Software.
Harvest dan Harvest-NG
- Information Retrieval Software. URL alternatif untuk Harvest-NG adalah http://webharvest.sourceforge.net/ng/
Verity
- Information Retrieval Software.
Xapian
- Library C++ untuk Probabilistic Information Retrieval dengan sejumlah fitur: parsing berbagai jenis dokumen, syntax search yang human-friendly, stemming, dan sebagainya. Omega adalah sebuah aplikasi web site search yang menggunakan Xapian.
Lucene Case Study
Nutch
- Open source search engine yang ditulis dengan Java dan digunakan untuk pencarian dokumen pada seluruh (atau sebagian) web dan dapat di-customize untuk keperluan search pada sebuah intranet.
SearchBlox
- Java Search Tool dengan tekanan pembuatan pada kemudahan pengelolaannya (manageability).
Natural Language
GATE
- GATE (General Architecture for Text Engineering) adalah arsitektur / framework software yang diap pakai untuk rekayasa pengolahan bahasa alami (NLP). GATE dikembangkan oleh Sheffield Natural Language Processing Group, Inggris. Dalam GATE termasuk corpus yang siap digunakan dan sejumlah class library untuk komponen NLP yang ditulis melalui Java, khususnya ANNIE untuk Information Extraction.
Organization
textmining.org
- Resources disiplin text mining.
Parsing
Digester
- Tool untuk parsing dokumen.
JTidy
- Java port untuk Tidy, yaitu tool untuk parsing dokumen HTML yang dikembangkan jauh hari sebelum tahun 2000, melalui implementasi bahasa C oleh Dave Raggett. JTidy sendiri awalnya ditulis oleh Andy Quick sebelum dipopulerkan lebih jauh oleh Fabrizio Giustina.
CyberNeko
- Tool untuk XNI, Xerces Native Interface yang dikembangkan oleh Andy Clark. Salah satu bagian CyberNeko yang penting adalah NekoHTML yang memungkinkan programmer memparsing dokumen HTML dan mengaksesnya dengan interface standard XML.
PDFBox
- Open source library untuk parsing dokumen PDF yang dikembangkan oleh Ben Litchfield. Pemanfaatan utama dalam Information Retrieval adalah kemampuannya untuk ekstraksi teks dari file-file PDF.
Xerces2
- Xerces2 Java Parser dikembangkan dalam proyek Apache XML Tool untuk parsing dokumen. Tool ini memungkinkan untuk ekstraksi teks dari dokumen XML.
Web Mining
Web Mining Page Tingshao Zhu
- Halaman Web Mining Tingshao Zhu yang memuat links ke berbagai resource sekitar Web Mining, Text Mining dan Information Retrieval. Kategorisasi topik dan subtopiknya bermanfaat untuk penelusuran resources dalam subdisiplin yang sama. Zhu (Ph.D) pernah memenangkan Best Student Paper Award pada tahun 2003 di The 9th International Conference on User Modeling.
CSE718 Rohini K. Srihari
- Halaman Text Mining Rohini K. Srihari pengasuh kuliah CSE718 - Seminar of Text Mining yang memuat links ke berbagai resource sekitar Text Mining. Kategorisasi topik dan subtopiknya bermanfaat untuk penelusuran resources dalam subdisiplin yang sama. Rohini K. Srihari yang adalah Associate Professor, Department of Computer Science and Engineering University at Buffalo, State University of New York menulis ratusan paper dalam disiplin Text Mining.
WM Page Patricio Galeas
- Homepage Web Mining dari Patricio Galeas. Yang menarik terutama adalah penjelasan pengantarnya tentang Taksonomi web mining. Koleksi paper yang ditunjukkannya esensial untuk pemahaman taksonominya, walaupun pra tahun 2000an.
Intelligent WebSearch & Mining
- Halaman Web Mining intelligent-web.org (under construction)yang memuat links ke berbagai resource sekitar Web Mining, Text Mining dan Web Search. Termasuk di dalamnya beberapa catatan kuliah, khususnya untuk Information Retrieval. Semoga Bermanfaat. |