bot_plus un automatisme per publicar a mastodon (II)

registre de l'activitat del bot_plus

Per començar el funcionament hem de connectar amb una font rss. Els fitxers que utilitza este sistema de difusió de informació son del format xml, un tipus de fitxer que té un format de dates de fàcil i àgil transmissió com son les cadenes json, matriu d’informació que van com una cadena de dades.

bot i ordinador

Per accedir he utilitzat la classe que daniweb publica en el seu article . Amb això ja podem començar a treballar i filtrar el contingut de la font rss convertida en matriu. Primer obtenim la font

// Obtenim la font XML/RSS 2.0
$feed = new ExportRSS($fitxer , "2.0");
$channel = $feed->get_channel_data();

El segon pas es triar el que vols publicar. I el bot_plus ho fa amb aquestes línies:

    if ( (str_contains($enllac,"noticies")) || 
            (str_contains($enllac,"oratge")) || 
            (str_contains($enllac,"documentals")) || 
            (str_contains($enllac,'esports')) ) {
            if (strpos($enllac,'complets') == false) {
                    $tria = 1;
                    $n++;
            } else {
                    $tria = 0;
            }
    } else { $tria = 0; }

En este pas ja hem triat el contingut de les noticies que volem publicar ja que la web d’àPuntMedia té eixos directoris. El ser una miqueta dotor és molt important per veure com tenen organitzats tant els continguts com les fonts rss. Per exemple, al principi vaig triar l’enllaç que facilita la mateixa web. I em semblava que serie prou, però vaig veure que les publicacions es limitaven al que la redacció tria com a noticies importants i que han d’eixir a la portada. Com que el que vull es publicar tot allò que la redacció publique, arribe o no a la portada, he hagut de mirar el codi font de les planes i esbrinar quines subfonts o microsites de rss utilitzen per afegir les noticies que puguen ser d’interés.

Ara toca generar la cadena que comprovarà si s’ha publicat o no el que trobem a la matriu de la darrera connexió:

// generar la cadena a partir del fitxer de registre (arxiu de dades)
// cadena per trobar la data de les darreres publicades
// si troba la cadena amb strpos NO publica, si no la troba, PUBLICA
// aqui la generava quan era només per un microsite
// $comprovar = shell_exec("cat ".$lloc."/fitxers/dates.txt");
$c = 0;
$n = $j-1;
$w = 0;
$p = 0;
$verifica = 0;
for( $c = 0; $c<$n ; $c++ ) { 
// $rss_ara = $llista[$c]['pub']; 
// activar quan estiga el fitxer complet de strtotime 
$rss_ara =  strtotime($llista[$c]['pub']); 
$rssu_ara = $llista[$c]['enllac']; $rssu_ara = preg_replace('/[^A-Za-z0-9-]/','',$rssu_ara); $rssu_ara = preg_replace('/https/',' ',$rssu_ara); $rsst_ara = $llista[$c]['titol']." ".$llista[$c]['descripcio']." ".$llista[$c]['enllac']." "; if ( ($l_detall == "COMPLET") || ($l_detall == "DETALLAT") ) { // echo "rss_ara: ".$rss_ara."\n"; $log -> lwrite ("Contingut de rss_ara: ".$rss_ara);
}
$verifica = strpos($comprovar,$rss_ara);
$mira_url = strpos($url_hist,$rssu_ara);
if ( ($l_detall == "COMPLET") ) {
// echo "Contingut de verifica num: ".$c." - ".$verifica."\n";
$log -> lwrite ("Contingut de verifica num: ".$c." - ".$verifica);
$log -> lwrite ("Contingut de mira_url num: ".$c."|".$rssu_ara."|".$mira_url);
}

Ràpidament, genera una cadena de les dates publicades que, més tard ordenarà. per això afegeix la cadena de temps amb strtotime . Deprés genera la cadena de l’article seleccionat i compara amb strpos si es troba una dins de l’altra. En cas afirmatiu, no ha de publicar, en cas negatiu passem a la publicació amb el curl com ja vam veure en el primer article

                    $status_data = array(
                      "status" => $publicacio,
                      "language" => $language,
                      "visibility" => $visibilitat
                    );

                    $ch_status = curl_init();
                    curl_setopt($ch_status, CURLOPT_URL, $base_url . "/api/v1/statuses");
                    curl_setopt($ch_status, CURLOPT_POST, 1);
                    curl_setopt($ch_status, CURLOPT_POSTFIELDS, $status_data);
                    curl_setopt($ch_status, CURLOPT_RETURNTRANSFER, true);
                    curl_setopt($ch_status, CURLOPT_HTTPHEADER, $headers);
                    $output_status = json_decode(curl_exec($ch_status));
                    curl_close ($ch_status);
                    $p++;
                    $pt++;
                    sleep($espera+30);

El primer és construir la matriu per enviar les opcions a curl i després indicar-li que connecte amb la url corresponent segons les indicacions de l’API de mastodon.

Després de publicar ens cal enregistrar en els fitxers de control, he optat per no utilitzar una base de dades i així que puga ser més entenedor, la data i les url per evitar repeticions, que no sempre passa.

    if ($p >= 1) {
    // escriu la data de la darrera publicació
    $data_tam = filesize($lloc."/fitxers/data_pub.txt");

// echo "data_tam: ".$data_tam."\n";
if ( $data_tam == 0 ) {
$data_esc = fopen($lloc . "/fitxers/data_pub.txt", "w+") or die("No puc obrir el contador!");
$data_ant = fread($data_esc,filesize("".$lloc ."/fitxers/data_pub.txt"));
// $data_ant = fread($data_esc,"10");
$data_nova = strtotime("now");
// echo "if: ".$data_ant."\n";
// echo "if: ".$data_nova."\n";
} else {
$data_esc = fopen($lloc . "/fitxers/data_pub.txt", "w+") or die("No puc obrir la darrera data!");
$data_ant = fread($data_esc,filesize($lloc . "/fitxers/data_pub.txt"));
$data_nova = strtotime("now");
// echo " else: ".$data_ant."\n";
// echo " else: ".$data_nova."\n";
}

Estes línies s’expliquen per si soles però un resum: obre el fitxer de la darrera publicació que ens permetrà controlar el temps que passa i, si ens ve de gust i ho activem, que el bot indique als seguidors que funciona i està esperan novetats de la font sindicada.

Amb açò tenim ja l’esquema bàsic de com funciona el bot_plus que, evidentment està adaptat a les característiques de les fonts rss del web d’ApuntMedia.

Per a a qui vulga veure els budells d’un programeta fet en php 8.1, que pugau aprendren si teniu ganes, o simplement per si alguna cosa vos és d’utilitat, vos deixe una còpia. Recordeu que primer cal mirar la configuració i, en un temps faré un fitxer d’instal·lació per omplir correctament tots els fitxer de control que calen.

Sigau benèvols que només és una β de un aficionat.

A tindre bon dia i a gaudir.

bot_plus un automatisme per publicar a mastodon (I)

Teclaat d'ordinador

Va ser a primer de desembre que @soctonyo@mastodont.cat va preguntar quan hi hauria un bot per les notícies d’Apunt. I em va picar la curiositat i vaig començar a documentar-me. Com que encara no he arribat a l’habilitat de @spla@mastodont.cat, l’administrador de la instància, programar en python, vaig acudir al que recordava del php. Un llenguatge que és molt útil per a generar respostes dinàmiques a les planes web i, també, funciona el línia de comandaments.

registre de l'activitat del bot_plus

El primer pas de tota documentació és veure que han fet d’altres que ja han recorregut el mateix camí. Soc dels que pensa que no cal inventar la roda cada volta. Amb una miqueta de cerca vaig trobar un model que, en un principi, em va permetre descobrir i aprofitar les característiques de l’API de mastodon. L’autor és groundcat, i el repositori que em va interessar té el nom de mastodon-rss-bot.

Ara, cercant els enllaços per a l’article veig que també en té un per a saludar els comptes que es creen a una instància, cosa que ja funciona i molt bé amb @mastodontcat@mastodont.cat

Tot anava bé fins que vaig veure que el bot triat només en publicava una noticia cada volta i només la primera de la sindicació de notícies (RSS). Per tant, estava al criteri de la redacció que triara com a primera notícia i només que apareguera a la portada o primera plana del RSS per a que es publicara a mastodont.cat. Una quantitat de publicacions, al meu parer, massa incompleta i sota el criteri dels redactors del web.

A partir d’aquí va ser quan vaig començar a crear bot_plus, ja que la base es diu bot i, crec, que ara fa més coses que aniré detallant en els articles.

El primer pas va ser trobar un bon esquema per convertir els fitxers RSS en un text ben codificat – això ho recordarà bé @spla@mastodont.cat, i finalment vaig trobar el camí per que tot es quedara en utf-8 que és el joc de caràcters que utilitza, també, el meu servidor.

Quan vaig ser conscient de les limitacions i vaig entendre el funcionament, vaig anar a fer una cerca més directa i la troballa va ser a la web daniweb, concretament a l’apartat de programació, clar. Es l’article explica com convertir el contingut de planes xml, l’habitual a les fonts de sindicació de notícies (RSS), en una matriu de dades i així poder manipular i treballar amb elles.

Encara que em va costar trobar el camí, finalment vaig fer el següent esquema de directoris per aconseguir el funcionament actual

/bot_plus
| — configuració
|– fitxers
|– gifis
|– lib
|– log
|– proves
|–utils

El php carrega amb facilitat els fitxers dels subdirectoris però hi ha que incloure una utilitat si volem que trobe un fitxer en una carpeta a una carpeta diferent al mateix nivell que on es troba la execució actual. M’explique: un fitxer a utils té dificultats per trobar un altre que es trobe a configuració. La solució que he implementat al funcionar en la línia de comandaments, cli, ha sigut enviar el paràmetre d’ublicació en les ordres d’execució com a argv i arreplagar-ho en cada fitxer que cal amb el següent codi:

// Comprova els arguments, en cas de no existir presenta l'ajuda.
if (!empty($_SERVER["argv"][1])){
$argument = $_SERVER["argv"][1];
} else {
// Presenta l'ajuda
echo "NO HE REBUT la variable";
exit;
}

Amb això ja tenim solucionat com enviar correctament la ubicació per trobar els fitxers que volem i necessitem fer funcionar.
Ara mirem els punts més destacats del bot des del principi.

# indicar l'autor
# indicar la font

// inici del document
$temps = microtime(true);

Ja tenim l’inici amb un rellotge que ens contarà en microsegons, el temps d’execució de determinades tasques i, fins i tot el total del fitxer.

include("configuracio/bot_plus_cfg.php");
include("lib/exportrss.php");
include("utils/bot_plus_funcions.php");
if ($pres_et == 1) {
require_once("utils/bot_plus_etiquetes.php");
}
require_once("class/logger.php");
// inicia el log
$log = new Logging();
//$log->lfile("/var/log/mastodon_bot.log");
$log->lfile("".$f_log."");
//defineix on es troba el fitxer a executar
$lloc = realpath(dirname(FILE));

En les línies de damunt carrega els fitxer de configuració, el que converteix els fitxer rss i les funcions que, a poc a poc, he anat agrupant per no repetir línies de codi que, encara -som a la versió 0.4.1β,- queda per anar netejant.
El primer condicional activa les etiquetes que figuraran en els toots segons el contingut de les paraules i eixa utilitat encara té un gran nombre d’errades i que ja comentaré el motiu més endavant.
La següent inclusió és el fitxer que permet fer un registre o log amb les indicacions que estimes convenients. Les següents línies inicien el fitxer del log. A partir d’este moment, totes les línies que comencen per $log -> lwrite("aquí el que vulgues que aparega"); s’escriuran al fitxer log. Amb això podràs controlar el funcionament, les errades i les necessitats de millora.

La darrera – $lloc – és una variable que serà molt útil per fer utilitats modulars que podràs activar o desactivar a voluntat amb el fitxer de configuració. Això també permetrà que pugues ampliar determinades utilitats que et vinguen al cap. De moment hem cobert la part inicial del fitxer. Anem a les funcions més sensibles que son les de interactuar amb l’API de mastodon per publicar missatges de text i, amb més passos, incloure una imatge en la publicació.

Per començar, necessites tindre instal·lada la llibreria curl del php que et permet connectar amb llocs web i tant enviar com rebre la informació que vulgues obtindre. Una mostra:

$bot_status = curl_init();
curl_setopt($bot_status, CURLOPT_URL, $base_url . "/api/v1/statuses/");
curl_setopt($bot_status, CURLOPT_RETURNTRANSFER, true);
curl_setopt($bot_status, CURLOPT_HTTPHEADER, $headers);
$resposta = (curl_exec($bot_status));
$resposta_json = json_decode(curl_exec($bot_status),true);
curl_close ($bot_status);

Una explicació ràpida de cada línia:

La primera inicia la connexió.
Les tres següents configuren les opcions, quin serà el directori per connectar, si volem que en conteste la connexió i l’enviament de les capçaleres.
Les que inicien amb $resposta obtenen i donen format a la informació obtinguda en format json des del servidor.
Finalment tanquem la connexió.

I a la segona part, revisaré la resta de utilitats necessàries per fer un fitxer modular que permeta ampliacions i execucions segons l’esquema que he seguit.

Fail2ban, el programa per mantindre actualitzat el tallafocs

Un dels elements fonamentals per un servidor connectat a internet és el firewall o tallafocs. La seua funció és limitar l’impacte d’una mala utilització dels usuaris de la xarxa contra el teu ordinador que tant t’ha costat d’instal·lar i configurar. Clar, si vols que la teua informació estiga disponible per als visitants cal que obrigues els ports corresponents als serveis que vulgues compartir, es a dir, obrir el port 80 per al servei http, el 443 per a https (cada volta més imprescindible), el port 25 i 110 per al correu, el 22 si vols tindre accés i administració remota, etcètera. El tallafocs serà qui regule amb quins ports es pot accedir i com han de dirigir-se els paquets d’informació.

Internet és la xarxa mundial i entre els usuaris hi ha que vols provar els seus coneixement o qui vol aprofitar les instal·lacions d’altres per a fer els seus experiments o activitats no autoritzades. Si és delicte o no, cal que ho diga un jutge.

Davant la situació de rebre un atac i identifiques la ip corresponent tens la opció de fer manualment una regla que bloquege eixa adreça d’internet o ip. La regla per a bloquejar una ip a iptables es:

iptables -I INPUT -s xx.xx.xx.xx -j DROP

Ara bé, vull pensar que tens vida i que vols dormir, menjar, caminar i ser amb les persones que estimes. És molt difícil que pugues vigilar vint-i-quatre hores al dia durant cada dia les connexions del teu servidor. I ara? Que podem fer?

Senzill, trobar un programa que ho faça de forma automàtica. I el programa més conegut i més eficient és fail2ban. Pots instal·lar les últimes versions, a hores d’ara va camí de a versió 0.11, o cercar-la al programari de la teua distribució de linux. Està disponible a diversos repositoris com ara les basades en Debian on només cal que utilitzes aquest codi per instal·lar-lo al teu computador:

apt-get install fail2ban

La versió disponible és la 0.10 que representa un canvi amb la 0.8 que era l’anterior més utilitzada. Per exemple, et recomane que utilitzes la utilitat fail2ban-regex per verificar que els filtres, fets amb tota la bona intenció, analitzen correctament les errades al teu servidor.

Un exemple:

fail2ban-regex /var/log/auth.log /etc/fail2ban/filter.d/sshd.conf -v

I com és inevitable, el resultat de la consulta:

De vegades et convé afegir cadenes de filtre per missatges que actualment son ignorats i poden alertar d’activitats problemàtiques.

Per exemple, al meu filtre de sshd he afegit la següent línia:

^%(__prefix_line)sBad protocol version identification.from .$

Evidentment és una decisió de filtratge molt agressiva ja que la connexió no s’ha arribat a establir. Però així estic més tranquil.

Una volta comprovar els filtres a activar cal fer el fitxer jail.local on hi ha que definir els filtres que activaràs:

[sshd]
enabled = true
backend = auto
port = ssh
logpath = %(sshd_log)s
action = iptables-new

En el cas del filtre ssh no cal cap configuració més. Ara bé si vols bloquejar el port adient per a un bloqueig de una mala utilització del servidor web apache, segurament voldràs especificar el port a bloquejar i caldrà afegir aquest tipus de línia:

action = iptables-new[port=http,https]

Amb això bloquejaràs només el port corresponent a l’atac rebut.

Una volta tingues tots els filtres que vulgues activar definits, cal que escrigues:

fail2ban-client reload

Si la resposta es OK tot va bé i endavant.

Una volta en marxa, si vols saber quantes deteccions ha fet cada filtre cal aquesta línia:

fail2ban-client status

per a veure els filtres activats

fail2ban-client status sshd

per veure el nombre de ip detectades, les que encara no han arribat al màxim d’intents, i les bloquejades que ja les han superades.

Si a més de consultar la situació en que es troben els filtres o vols dotorejar sobre les ip, a quina hora s’ha fet el bloqueig, d’on venen i quantes voltes has bloquejat eixa ip, dispose d’una utilitat fail2mysql que permet ingressar a una base de dades la ip, la ubicació geogràfica i la data del primer i del últim registre.

Però això serà un escrit per a un altre dia.