Ale ta wersja jest pozbawiona błędów i problemów poprzednika oraz jest prostsza w ewentualnej rozbudowie. Program przepisałem z C++ i Qt na Pythona.
https://github.com/arkadiusz97/RegexBot
Witaj szanowny Gościu na forum Odjechani.com.pl. Serdecznie zachęcamy do rejestracji. Tylko u nas tak przyjazna atmosfera. Kliknij tutaj, aby się zarejestrować i dołączyć do grona Odjechanych!
Strona odjechani.com.pl może przechowywać Twoje dane osobowe, które w niej zamieścisz po zarejestrowaniu konta. Odjechani.com.pl wykorzystuje również pliki cookies (ciasteczka), odwiedzając ją wyrażasz zgodę na ich wykorzystanie oraz rejestrując konto wyrażasz zgodę na przetwarzanie swoich danych osobowych w ramach funkcjonowania serwisu. Więcej informacji znajdziesz w naszej polityce prywatności. Pozdrawiamy!
RegexBot
|
12.11.2017, 20:05
Napisałem w Pythonie program działający tak samo jak ten: https://odjechani.com.pl/Thread-Regex-Bo...-internetu
Ale ta wersja jest pozbawiona błędów i problemów poprzednika oraz jest prostsza w ewentualnej rozbudowie. Program przepisałem z C++ i Qt na Pythona. https://github.com/arkadiusz97/RegexBot Odjechani.com.pl, to bardzo przyjazne forum wielotematyczne. Zapraszamy do darmowej rejestracji! Kliknij "rejestracja" i...
Postanowiłem napisać ten projekt kompletnie od nowa po zdobyciu nowej, użytecznej wiedzy: https://github.com/arkadiusz97/Regex-crawler
Program jest bardzo mały, zawiera raptem 150 linii kodu w Pythonie, ale bardzo się różni od poprzednich wersji. Przede wszystkim wyciąga adresy url ze znaczników html "a href" przy użyciu parsera do kodu html, potem używa parsera do adresów url, aby rozpoznać adresy takie podstrona1/podstrona2, zamiast z użyciem wyrażeń regularnych. Program ten może zapisywać wyniki zarówno do bazy danych z Sqlite3 jak i do pliku tekstowego. Oprócz tego można teraz ustawić reguły dotyczące tego jakie adresy url mają być przeszukane, czego nie było w poprzednich wersjach. Jedyne co do czego mam wątpliwości, to sama kwestia optymalizacji pod względem zużycia procesora i pamięci ram, ale różne rozwiązania w tym przypadku mają swoje wady i zalety. Może to jest mało skomplikowane narzędzie, ale są dla niego poważne zastosowania jak na przykład budowane bazy adresów e-mail z określonych stron. |