In a career as a developer or data scientist, you'll encounter some kind of information scraping at some point. For simple use-cases, it's not that difficult. However, if your goal is to scrape a lot of data as quickly as possible and with a limited budget, things are getting more complicated. In this talk, I'll tell you the story of achieving precisely that- broad crawling without going bankrupt.
Wyszukiwarki tekstowe to szeroki temat, zaczynając w Django od text__icontains
, a kończąc na dedykowanym indeksie Apache Lucene ze stemmingiem i rankingiem dopasowań.
Omówimy zasady działania, wady i zalety za kilku prostszych i bardziej skomplikowanych rozwiązań. Następnie wejdziemy głębiej w narzędzia dostępne w PostgreSQL - rodzaje indeksów, performance i ograniczenia. Pokażę wyniki benchmarków i kompletną implementację rozwiązania w (Django + Postgres), które dobrze sprawdza się u nas na produkcji.
Python develop and enthusiast for last 11 years, currently working as Director of Engineering at SpotOn. I love simple and clean solutions, focused on usability and robustness. Privately motorcycling enthusiast in summer and indoor sports in winter.
Założyciel i CTO w Solvbot - Krakowskiej firmie wytwarzającej oprogramowanie z dziedziny Legal Tech. Spędził kilka lat w Dolinie Krzemowej, pracując m. in. w Google. Wcześniej architekt systemów Big Data, teraz zajmuje się tematyką startupów, zarządzania produktem i budowania zespołu.
Studiował informatykę, biochemię i zarządzanie. Zaczął programować zawodowo w 2007 i w swojej karierze pisał kod produkcyjny w języku PHP, C++, C (embedded), Go, Ruby, R, JavaScript i Python.
Hobbystycznie kolarz, fotograf i memolog :)
SpotOn is a software company dedicated to redefining the merchant services industry. SpotOn combines payment processing with customer engagement and business management solutions, giving small and medium businesses the data and tools they need to run and grow their business.
Our tools increase revenue and connect businesses with their customers using rewards, deals, online reviews, website building, and data analytics.
Tools like these were previously only available to big businesses with big bankrolls and their own developers, but our platform caters to neighborhood stores, independent retailers, and other small to midsize businesses. We have our service deployed in many cities across the U.S. and Mexico.
Our technologies - Backend (Python, Golang) - Front end (React) - Mobile development (iOS i Android) - Testing & Designing
Our industries - Restaurants Payment solutions, printers & facilities - Services Booking management systems - Retail & e-commerce Powerful websites
"Programista" to 2-miesięcznik skierowany do zawodowych programistów i członków zespołów IT. Magazyn ukazuj się od stycznia 2012 roku w wersji drukowanej, jak również w wersji elektronicznej.
Celem magazynu jest dostarczanie profesjonalnych i ciekawych materiałów, uzupełniających i poszerzających wiedzę czytelników. Programista stawia na nowości, ale nie zapomina o starszych rozwiązaniach. Artykuły są pisane przez naukowców i znanych specjalistów z branży.
W lutym ukazało się setne wydanie magazynu.