Odjechani.com.pl

Pełna wersja: RegexBot
Aktualnie przeglądasz uproszczoną wersję forum. Kliknij tutaj, by zobaczyć wersję z pełnym formatowaniem.
Napisałem w Pythonie program działający tak samo jak ten: https://odjechani.com.pl/Thread-Regex-Bo...-internetu
Ale ta wersja jest pozbawiona błędów i problemów poprzednika oraz jest prostsza w ewentualnej rozbudowie. Program przepisałem z C++ i Qt na Pythona.
https://github.com/arkadiusz97/RegexBot
Postanowiłem napisać ten projekt kompletnie od nowa po zdobyciu nowej, użytecznej wiedzy: https://github.com/arkadiusz97/Regex-crawler
Program jest bardzo mały, zawiera raptem 150 linii kodu w Pythonie, ale bardzo się różni od poprzednich wersji. Przede wszystkim wyciąga adresy url ze znaczników html "a href" przy użyciu parsera do kodu html, potem używa parsera do adresów url, aby rozpoznać adresy takie podstrona1/podstrona2, zamiast z użyciem wyrażeń regularnych. Program ten może zapisywać wyniki zarówno do bazy danych z Sqlite3 jak i do pliku tekstowego. Oprócz tego można teraz ustawić reguły dotyczące tego jakie adresy url mają być przeszukane, czego nie było w poprzednich wersjach. Jedyne co do czego mam wątpliwości, to sama kwestia optymalizacji pod względem zużycia procesora i pamięci ram, ale różne rozwiązania w tym przypadku mają swoje wady i zalety. Może to jest mało skomplikowane narzędzie, ale są dla niego poważne zastosowania jak na przykład budowane bazy adresów e-mail z określonych stron.