Rbot: парсер данных с госуслуг

На днях довелось попробовать в работе специализированную платформу для написания «роботов» — RPA Bot. По сути это хорошо документированная надстройка на Selenium. В базе позволяет писать «роботов» на Python, Node.js и PHP. На сайте ОЧЕНЬ хорошая документация по всему функционалу с примерами, а потому роботов писать гораздо приятнее чем при использовании «чистого» Selenium. Это плюс. Из минусов — отсутствие версии под Linux и конский ценник. Ну если первое разработчики усиленно пилят, то второе лично мне фиолетово (босс платит 😉 )

В ходе реализации очень понравилась функция save_url_to_file, аналога которой в Selenium я не нашел в своё время, а потому приходилось изобретать велосипед. Ну скорее всего конечно это то-же «велосипед» (ну логично, проект то на основе Selenium), но сделанный «штатно». К сожалению функция не отрабатывает, если закачька происходит с использованием Redirect 301. потому в случае необходимости можно воспользоваться таким вариантом закачки:

                       $browser->set_default_download($mySettings['work_path']);
                       $browser->enable_download_file_dialog(false);
                       $browser->navigate("https://www.gosuslugi.ru/api/lk/geps/file/download/$a_aid");                       
                       wait_on_file($a_name, 120);  

function wait_on_file($path, $wait=120, $pause=1)
{
    global $file_os;
	$a=0;

	while(!$file_os->is_exist($path))
	{
		sleep($pause);
		if($a>$wait)
		{
			debug_mess("ОШИБКА: не дождались появление файла по заданному пути $path!");
			return false;   
		}

		$a++;

	}

	return true;   
} 

Быстрый поиск разницы файлов

Ну собственно это история одной маленькой победы, которые происходят обычно у ИТишников каждый день 😉

Предыстория: при работе скрипта по заливке данных в БД из файла произошло зависание сервера. Скрипт работал в несколько потоков с одним файлом. Потому определить на каком именно месте файла произошла остановка не представлялось возможным. Удалять уже залитое в БД и стартовать скрипт заново — не вариант, скрипт и так работал двое суток, и терять их снова — ну так себе решение.

Решение №1. «В лоб». Ну думаю доработаю скрипт так, что если данные уже есть, то просто пропускаем. Т.е. перед вставкой выполняем проверку функцией вида:

function lsYet($period,$ls){
    global $db;
  $res=false;
  $sql="select posting_addresses.id from posting_addresses
    inner join ls on ls.id=posting_addresses.ls
    where 
    posting_addresses.period='$period' and ls.ls='$ls'";
    $query = $db->connection->prepare($sql);
    $query->execute();
    while ($row99 = $query->fetch()) {
      $res=true;
    };        
 return $res;
}

И без проблем дозальем то, чего нет в БД. Да не тут то было, оказывается операция select в этом случае весьма дорогостоящая, и т.к. в БД записей порядка 600тыс, и индексы проставлены на ls и period корректно, но всёж скорость проверки крайне низкая, и т.о. скорость «дозалития» сокращается с двух суток до суток. Ну что собственно не устраивает.

Решение №2. Вдумчивое. Решил было выгрузить ключевые строки (лицевой счет) в файлы: файл ls_in_base.txt — лицевые счета которые уже в БД и ls_all.txt — файл со всеми лицевыми счетами, которые должны быть в БД, отсортировав их командой sort:

sort ls_in_base.txt > ls_in_base.txt
sort ls_all.txt > ls_all.txt

Далее воспользуемся Linux командой comm, вычленив уникальные записи файла ls_all которые не содержаться в файле ls_in_base:

comm -23 ls_all.txt ls_in_base.txt > no_in_base.txt

И далее уже в скрипте вместо проверки наличия лс в БД при помощи запроса, проверяем наличие лс в БД при помощи in_array:

$no_in_base_ls=file_get_contents("no_in_base.txt");
$no_in_base_arr=explode("\n",$no_in_base_ls);
...
if (in_array($ls, $no_in_base_arr)==true){
...
заливаем данные в БД
...
}

В результате скорость увеличилась в разы, и БД дозалить удалось в течении часа

Чтиво за последнее время

Взрослое

Релокант 1-5, В момент начала ядерной войны в мир пришла система и перенесла всех жителей во вновь сгенерированный мир куда попали в т.ч. жители других миров которые разрушили свои миры. В целом за исключением некоторых нудных моментов. Оценка 3+/5

Звездный лорд 1-5. В принципе просто перечитка уже прочитанного ранее несколько лет назад. Ну возникла пауза, когда не мог ничего новенького найти ). Оценка 4 из 5

Автократия Гоблинов 1-3. Михаил Усачев. В принципе старая серия, начинал её читать еще несколько лет назад, но тогда не зашла. Сейчас зашла. Оценка 4/5

Кинетик 1-3. Анин А.О. Очередная книга про попаданца в прошлое. В принципе читабельно. Оценка 3 из 5

Хроники Апокалипсиса 1-5. Родион Дубина. Мир пал, на его месте возникли зомби. Главный герой крут и скоро станет еще круче. В принципе интересно. Оценка 4 из 5

Мастер Порталов 1-3. После того как чела сбил автобус, он становится магом и научился открывать порталы в другие миры. Оценка 4 из 5.

Детское

В последнее время попадает сюда мало, т.к. старший читать перестал кроме обязательной школьной программы, а младшая еще пока не прониклась чтением особо.

Внучка бабы Яги. Екатерина Козина. Внучка проводит каникулы у бабушки, которая оказывается не просто бабушка. 5/5

Yandex Map: отображение меток в зависимости от масштаба карты

Работал давече с плагином HeatMap для яндекс карт. Всё хорошо, но один нюанс — невозможно навесить эвент на клик по точке карты. Ну или не нашел как. Пришлось задействовать «финт ушами» — при достижении определенного приближения, принудительно отрисовывать поверх точек heatmap свои «кликабельные» точки. В результете родилось нечто подобное:

obj = data.result; 
                heatmap = new ymaps.Heatmap(obj, {
                    // Радиус влияния.
                    radius: 15,
                    // Нужно ли уменьшать пиксельный размер точек при уменьшении зума. False - не нужно.
                    dissipating: false,
                    // Прозрачность тепловой карты.
                    opacity: 0.8,
                    // Прозрачность у медианной по весу точки.
                    intensityOfMidpoint: 0.05,
                    // JSON описание градиента.
                    gradient: {
                           0.1: 'rgba(128, 255, 0, 0.7)',
                           0.2: 'rgba(255, 255, 0, 0.8)',
                           0.7: 'rgba(234, 72, 58, 0.9)',
                           0.9: 'rgba(162, 36, 25, 1)',
                           1.0: 'rgba(0, 0, 0, 1)'
                       }
                });
                heatmap.options.events.add('click', function (e) {   
                    console.log(e);
                    var objectId = e.get('objectId');    
                    //objectManager.objects.balloon.open(objectId);
                });                    
                heatmap.setMap(myMap); 

        
       
        
                myMap.events.add('boundschange', function () {
                    size = myMap.getZoom();
                    console.log(size);
                    if (size>15){
                        console.log("-- пора бы и нарисовать метки");
                        if (all_deleted==true){
                            console.log("--- рисуем метки");
                            // настройки кластеризакции
                            objectManager = new ymaps.ObjectManager({
                                clusterDisableClickZoom: true,
                                geoObjectOpenBalloonOnClick: true,
                                clusterize: false
                            }); //кластеризуем
                            objectManager=SetClusterProp(objectManager);     
                            myMap.geoObjects.add(objectManager);   
                            objectManager.add(obj);  
                            objectManager.objects.events.add('click', function (e) {   
                                console.log(e);
                                var objectId = e.get('objectId');    
                                objectManager.objects.balloon.open(objectId);
                            });                                        
                          all_deleted=false;  
                        };
                    } else {
                        if (all_deleted==false){
                            myMap.geoObjects.remove(myMap.geoObjects.get(myMap.geoObjects.getLength()-1));                          
                            all_deleted=true;  
                        };
                    };
                });
                

PixiJS: игра «жизнь» продолжение

В ходе наблюдения за жителями, заметил, что не очень хорошо смотрится рождение нового жителя, а именно он «рождается» в случайном месте карты. Не порядок. Пусть он рождается рядом с «мамой». Для этого изменим код генерации «нового жителя», чтобы можно было за ранее передавать координаты рождения жителя:

function GenerateNewCitizen(x,y){
   resident=new People(randomIntFromInterval(0,1),1,randomIntFromInterval(1,100),professions.get(1));   
   graphics = new PIXI.Graphics();           
   graphics.beginFill(professions.get(1).color);
   graphics.lineStyle(2, professions.get(1).color, 1);
   graphics.beginFill(professions.get(1).color, 1);           
   graphics.drawCircle(0,0, 1);  
   graphics.position.set(x, y);         
   graphics.direction=randomIntFromInterval(0,360);
   graphics.endFill();        
   graphics.resident=resident;
   residents.push(graphics);
   app.stage.addChild(residents[residents.length-1]);     
}

И соотвественно «рождение» жителя:

       // проверим, есть ли совпадение точек?
       // если возраст от 18..50
       // если полы противоположные
       // то считаем что это "лябовь" и размножаемся
        for (let j = 0; j < residents.length; j++) {   
            if (Math.round(residents[i].position.y)==Math.round(residents[j].position.y) && 
                    Math.round(residents[i].position.x)==Math.round(residents[j].position.x) && i!=j){
                      if (residents[i].resident.age>=18 && residents[i].resident.age<=50){
                        if (residents[j].resident.age>=18 && residents[j].resident.age<=50){
                            if (residents[j].resident.gender==0 && residents[i].resident.gender==1){
                                console.log("-это лябофь!");  
                                x=residents[j].position.x+1;
                                y=residents[j].position.y+1;
                                GenerateNewCitizen(x,y);
                            }
                        }                          
                      }               
            };
        };

И картинка стала выглядеть уже интереснее: жители стали «кучковаться», что логично — в тех местах где жителей больше они и рождаться стали чаще

Второй момент. Нужно как-то выделить возраст жителей. Может быть сделать более «старших» чуть толще?

        if (residents[i].resident.age>0 && residents[i].resident.age<18){
         residents[i].scale._x=1;   
         residents[i].scale._y=1;   
        };
        if (residents[i].resident.age>18 && residents[i].resident.age<50){
         residents[i].scale._x=1.5;   
         residents[i].scale._y=1.5;   
        };        
        if (residents[i].resident.age>50){
         residents[i].scale._x=1.8;   
         residents[i].scale._y=1.8;   
        }; 

Еще нашел ошибку, оказывается не все жители умирали по достижении 120 лет. Поправил:

        // прибавляем всем жителям по году жизни..
        for (let i = 0; i < residents.length; i++) {         
            residents[i].resident.age++;
            if (residents[i].resident.age>120){
                residents.pop(residents[i]); // в 120 лет жизненный путь завершается..
            };
            
        };

После этого жители стали стремительно вымирать после примерно 30-50 прошедших «лет» и на «планете» остались одни трупы:

Гнетущее впечатление, планета заваленная трупами.. Всё таки сделаю чтоб они убирались при смерти, пришлось серьёзно переписать логику, избавившись от «теневого» массива

       // перебираю каждого человека и двигаем его
    for (let i = 0; i < app.stage.children.length; i++) {
        if (app.stage.children[i].resident!==undefined){
            // регулируем размер жителей
            if (app.stage.children[i].resident.age>0 && app.stage.children[i].resident.age<18){
             app.stage.children[i].scale._x=1;   
             app.stage.children[i].scale._y=1;   
            };
            if (app.stage.children[i].resident.age>18 && app.stage.children[i].resident.age<50){
             app.stage.children[i].scale._x=1.5;   
             app.stage.children[i].scale._y=1.5;   
            };        
            if (app.stage.children[i].resident.age>50){
             app.stage.children[i].scale._x=1.8;   
             app.stage.children[i].scale._y=1.8;   
            };                
           //двигаем жителя (кудато идёт) 
            step=false;
            while (step==false){
                pre_y=app.stage.children[i].position.y+Math.sin(app.stage.children[i].direction);
                pre_x=app.stage.children[i].position.x+Math.cos(app.stage.children[i].direction);
                if ((pre_x>=0)&& (pre_x<=screen_width) && (pre_y>=0) && (pre_y<=screen_height)) {
                        step=true;
                } else {
                   app.stage.children[i].direction=randomIntFromInterval(0,360); 
                };

            };
           app.stage.children[i].position.y=app.stage.children[i].position.y+Math.sin(app.stage.children[i].direction);
           app.stage.children[i].position.x=app.stage.children[i].position.x+Math.cos(app.stage.children[i].direction);
            // размножаемся
            // проверим, есть ли совпадение точек?
            // если возраст от 18..50
            // если полы противоположные
            // то считаем что это "лябовь" и размножаемся
             for (let j = 0; j < app.stage.children.length; j++) {
                 if (app.stage.children[j].resident!==undefined){
                    if (Math.round(app.stage.children[i].position.y)==Math.round(app.stage.children[j].position.y) && 
                            Math.round(app.stage.children[i].position.x)==Math.round(app.stage.children[j].position.x) && i!=j){
                              if (app.stage.children[i].resident.age>=18 && app.stage.children[i].resident.age<=50){
                                if (app.stage.children[j].resident.age>=18 && app.stage.children[j].resident.age<=50){
                                    if (app.stage.children[j].resident.gender==0 && app.stage.children[i].resident.gender==1){
                                        console.log("-это лябофь!");  
                                        x=app.stage.children[j].position.x+1;
                                        y=app.stage.children[j].position.y+1;
                                        GenerateNewCitizen(x,y);
                                    }
                                }                          
                              }               
                    };
                     
                 }
             };           
        };

    }

Осталось придумать что-то, что бы позволило не вымирать населению? Может быть повысить «рождаемость»? Пусть иногда рождаются двойни-тройни?

                                        console.log("-это лябофь!");  
                                        for (let z = 0; z < randomIntFromInterval(0,3); z++) {
                                            x=app.stage.children[j].position.x+1;
                                            y=app.stage.children[j].position.y+1;
                                            GenerateNewCitizen(x,y);                                            
                                        };

Не помогло. Нужно разрешить рожать от 16 лет до 55. Плюс не нравится мне, что умирают жители строго по дистежении 120 лет. А если сделать что умирать будут чем больше лет начиная от 70, тем чаще?

        // прибавляем всем жителям по году жизни..
        for (let i = 0; i < app.stage.children.length; i++) {         
            if (app.stage.children[i].resident!==undefined){
                app.stage.children[i].resident.age++;
                if (app.stage.children[i].resident.age>60){
                    if (randomIntFromInterval(121,app.stage.children[i].resident.age)==120){
                        console.log("- умер "+i+" по достижению "+app.stage.children[i].resident.age+" лет");
                        app.stage.removeChild(app.stage.children[i]);                        
                    };
                };
            }            
        };

Уже выглядит красивее, но всё равно жители вымирают..

Нужно попробовать сделать так, чтобы рожали чаще. Если ранее дети рождались, если жители оказались в одной и той же точке, то теперь сделаем, что дети будут рождаться, даже если родители оказались просто рядом..

function DiffuzeCompare(x,y,x1,y1){
    res=false;
     if (Math.abs(x-x1)<=2&&Math.abs(y-y1)<=2){
         res=true;
     }
    return res;
};

                    if (DiffuzeCompare(app.stage.children[i].position.x,app.stage.children[i].position.y,app.stage.children[j].position.x,app.stage.children[j].position.y)==true) {
                              if (app.stage.children[i].resident.age>=16 && app.stage.children[i].resident.age<=55){
                                if (app.stage.children[j].resident.age>=16 && app.stage.children[j].resident.age<=55){
                                    if (app.stage.children[j].resident.gender==0 && app.stage.children[i].resident.gender==1){
                                        console.log("-это лябофь!");  
                                        for (let z = 0; z < randomIntFromInterval(0,3); z++) {
                                            x=app.stage.children[j].position.x+1;
                                            y=app.stage.children[j].position.y+1;
                                            GenerateNewCitizen(x,y);                                            
                                        };
                                    }
                                }                          
                              }                        
                    };

Вот теперь население стабильно стало расти. Теперь сделаем так, чтоб дети рождались только в роддоме:

                                               if (buldings[bb].bulding_type.name=="Роддом"){
                                                     x=randomIntFromInterval(buldings[bb].xx,buldings[bb].xx+buldings[bb].ww);
                                                     y=randomIntFromInterval(buldings[bb].yy,buldings[bb].yy+buldings[bb].hh);
                                                    GenerateNewCitizen(x,y);                                                                                        
                                               }
                                            }  

В итоге получили:

1 42 43 44 45 46 301