Wyciek danych Yandex.ru . Yandex często nazywane jest rosyjskim Google. Według Statcounter w styczniu 2023 roku miał 0,85% udziału w światowym rynku wyszukiwarek, ale już w samej Rosji – ponad 54%. Pod koniec stycznia w sieci pojawiły się informacje, że doszło do wycieku kodu źródłowego Yandex. Czy faktycznie? Jakie wnioski możesz wyciągnąć na podstawie upublicznionych danych?
Wyciek danych w wyszukiwarki Yandex.ru
Co wyciekło z Yandex.ru?
Pod koniec stycznia 2023 roku do sieci trafił kod źródłowy do aplikacji i programów, które są autorstwa tej znanej, rosyjskiej spółki. 25 stycznia na forum breached.vs pojawił się wpis, który obiegł już cały świat. Zerknij:
Źródło: https://breached.vc/Thread-yandex-git-sources
Użytkownik udostępnił zasoby firmy Yandex, a programista Arseniy Shestakov przeanalizował je i potwierdził, że plik zawiera kody następujących produktów:
- wyszukiwarki i robotów indeksujących,
- map – podobne do Google Maps i Street View,
- Alice – asystentka AI na zasadzie Siri/Alexa,
- Taxi – oferta taksówkowa zbliżona do Ubera,
- Direct – system reklamowy typu Google Ads,
- Mail – usługa na tej samej zasadzie co Gmail,
- Disk – rozwiązanie takie jak Google Drive,
- Market – Marketplace typu Amazon,
- Travel – usługa podobna do booking.com,
- Yandex360 – oferta zbliżona do Google Workspaces,
- Cloud – chmura i tutaj prawdopodobnie nie doszło do wycieku całego kodu,
- Pay – przetwarzanie płatności jak Stripe, ale z ograniczonym zestawem funkcji,
- Metrika – system analityczny jak Google Analytics.
Z wpisu na forum wynika, że dane pozyskano w lipcu 2022 roku, a pochodzą z lutego tego samego roku. Jeśli ciekawi Cię, co znajduje się we wspomnianym torrencie (44,71 GB danych), a nie chcesz go pobierać, to zerknij tutaj: https://gist.github.com/ArseniyShestakov/53a80e3214601aa20d1075872a1ea989. Jest tam pełna lista plików. Wspomniany Arseniy Shestakov, który potwierdził ich autentyczność nie jest ani aktualnym, ani byłym pracownikiem Yandex.ru. Twierdzi jednak, że zweryfikował informacje wśród wcześniej i obecnie zatrudnionych przez rosyjskiego giganta. Pojawiła się też strona, na której możesz łatwo wyszukiwać i przeglądać informacje o poszczególnych czynnikach rankingowych.
Źródło: https://arseniyshestakov.com/2023/01/26/yandex-services-source-code-leak/
Jak doszło do wycieku danych z Yandex.ru?
Początkowo pojawiły się pogłoski, że miał miejsce atak hackerski. Tymczasem serwis Bleeping Computer poinformował, że otrzymał od Yandexa informację, że nastąpiła kradzież, a dokładnie wyniesienie danych przez byłego pracownika. Ponoć próbował on sprzedać je konkurencji. Grigorij Bakunow, który pracował w tej firmie w okresie od 2002 do 2019 roku, twierdzi, że prawdopodobnie wyciek ma podłoże polityczne – dane pochodzą z okresu, w którym Rosja zaatakowała Ukrainę.
Bakunow zwrócił uwagę, że w wycieku nie ma danych żadnych klientów. Sugeruje również, że część wyciągniętych kodów i tak jest bezużyteczna dla zewnętrznych podmiotów, bo niezbędne są odpowiednie narzędzia i wiedza do ich wykorzystania. Ponadto twierdzi, że wykradziony kod na pewno nie jest identyczny z tym, z którego usługi korzystają obecnie, ale powinien się zgadzać w około 90%. Jednocześnie zauważa, że wyciek stwarza niebezpieczeństwo, gdyż ułatwi ataki hackerskie. Były pracownik Yandexa jest zdania, że w najbliższym czasie możemy się spodziewać wielu takich działań zakończonych powodzeniem.
Wcześniej, w 2015 roku, podjęto już próbę sprzedaży kodu źródłowego wyszukiwarki Yandex. Próbował to zrobić były pracownik, który chciał go sprzedać za 28 tys. dolarów. Kod nie został kupiony, a nieuczciwy pracownik otrzymał wyrok 2 lata więzienia w zawieszeniu.
Wyciek danych z Yandex.ru a algorytm wyszukiwarki
Konsultant SEO Martin MacDonald ocenił, że wyciek czynników rankingowych, które mają wpływ na wyniki wyszukiwania w Yandex.ru to jedno z najciekawszych wydarzeń w branży SEO w ostatnich latach. Zwrócił uwagę, iż dane te mogą dać do myślenia również pozycjonującym w Google.
Źródło: https://twitter.com/searchmartin/status/1619004275564351490
Pliki źródłowe zostały już przeanalizowane przez specjalistów z całego świata i na tej podstawie można wysnuć wiele wniosków. Z pewnością nie raz zdarzyło Ci się usłyszeć, że o pozycji zajmowanej w wynikach Google decyduje około 200 czynników. Tymczasem według dokumentacji jest ich 1922 – oczywiście w przypadku Yandex. Trudno uwierzyć, aby w algorytmie Google było ich zaledwie 200.
Ważna informacja: algorytmy Google i Yandex nie są identyczne, ale pod wieloma względami podobne. Dokumentację przeanalizował m.in. Alex Buraks, kierownik ds. rozwoju w Discover Cars. Jeśli chodzi o kluczowe podobieństwa, na które zwrócił uwagę to są nimi:
- korzystanie z PageRanku – nadawanie stronom wartości liczbowych,
- algorytmy contentowe,
- algorytm uczenia maszynowego MatrixNet podobny do Google RankBrain.
Alex zauważa również, że Yandex został zbudowany w dużej mierze jako klon Google. Wynika to m.in. z tego, że w rosyjskim potentacie pracuje wielu byłych ekspertów Google. Uważa również, że dlatego wyniki obu tych wyszukiwarek są identyczne w około 70%.
Czynniki rankingowe wyszukiwarki Yandex
Po analizie dokumentacji Alex Buraks wymienił najważniejsze czynniki, które mają wpływ na widoczność w Yandex.ru. Jeśli pozycjonujesz w Google, to część z nich z pewnością już znasz, ale nie wszystkie. Alex wymienił 30 najważniejszych czynników, a wśród nich pojawiły się następujące:
- Wiek linków – większe znaczenie mają nowe odnośniki. W 2022 roku pracownicy Google na pytanie jednego z internautów odpowiedzieli na Twitterze, że linki mogą z czasem tracić moc. Tak więc możliwe, że działa to podobnie w obu wyszukiwarkach.
- Liczba odwiedzin na stronie – to może oznaczać, że ruch pozyskany z płatnych wyników ma wpływ na widoczność witryny.
- Page rank – czyli czynnik znany z Google. W związku z tym, że oddzielnie liczony jest PR ukraiński, możliwe, że Yandex kalkuluje go odrębnie dla poszczególnych krajów.
- Odnośniki wewnętrzne – większe znaczenie mają te, które znajdują się na stronie głównej od umieszczonych na podstronach.
- Niezawodny hosting – strona powinna działać na solidnych serwerach, mających wysoki uptime.
- Cyfry w adresach URL negatywnie wpływają na widoczność.
- Udział w systemach wymiany linkami – okazuje się, że Yandex ma algorytm, który jest za to odpowiedzialny. Trudno oczekiwać, aby nie miało go Google.
- Tematyczność linków, a w tym pokrycie językowe – kwestia wpływu tematyczności odnośników jest w branży SEO dyskutowana od lat. Opinie są podzielone. Okazuje się, że ma to znaczenie dla wyszukiwarki Yandex.
- Linki z Wikipedii – Yandex je docenia. Istotne jest m.in. to, w jakiej części wpisu w serwisie znajduje się odnośnik.
- Długość tekstu i liczba powtórzeń w nim danej frazy.
- Brak na stronie słowa, które jest w zapytaniu, negatywnie wpływa na pozycję.
- Na podstawie danych z bazy WHOIS oceniane jest prawdopodobieństwo, czy domena należy do spamera.
- Lokalizacja urządzenia użytkownika, który wysyła zapytanie.
- Wiek materiału i jego aktualizowanie.
- Yandex sprawdza, czy strona nie zawiera materiałów pornograficznych.
- Algorytm ocenia, czy treść nie jest efektem działania synonimizatora (popularne kiedyś mieszarki synonimów) oraz nie jest wygenerowana automatycznie.
- Wyszukiwania brandowe i ich CTR, tzn. klikalność.
- Liczba wyświetleń danego adresu URL na zapytanie i średnia pozycja domeny na wszystkie zapytania.
- CTR na podobne zapytania.
- Droga, którą musi pokonać robot wyszukiwarki od strony głównej, aby dotrzeć do danego materiału.
- Negatywnie na pozycję adresu URL wpływa duża liczba znaków slash, czyli /.
- Czas spędzony na stronie przez użytkowników, współczynnik odrzuceń i ogólne aktywność w serwisie.
- Kliknięcia z danych regionów.
- Rozszerzenie domeny.
Nie wszystkie dane, które pojawiły się w dokumentacji są oczywiste. W wielu przypadkach zamieszczone są odnośniki do dodatkowych informacji, do których nie mamy dostępu. Na pewno jednak powyższe informacje pozwalają zorientować się odnośnie do czynników rankingowych Yandexa. Wiemy, że wiele z nich jest bardzo istotnych również dla wyników wyszukiwania Google.
Zobacz również: