No advertising, no support, no bug fixes, payment in advance.
— AT&T Unix Policy (1984)

Hartes Discard Protokoll

Ich habe verloren. Als ich gestern das OpenBSD unter devnull-as-a-service.com upgegraded habe, musste ich die Kiste durchbooten.

Nachdem ich das Discard Protokoll über den OpenBSD inetd auf Port 9 aktiviert habe, haben ein paar Leute dort dauerhaft Connections geöffnet.

Ich dachte, mal sehen wer längern kann. Client oder Server. Stellte sich heraus: die Clients.

Aber da ich ein guter Verlierer sein kann, Respekt und Gratz.

OpenBSD IPv6

Was ich ja schon immer komisch fand ist, dass die Dokumentation oder auch uch How-Tos im Netz was das Thema OpenBSD und IPv6 angeht echt ultra duerftig ist.

Da ich meine Debian VM auf der ich weechat, mutt, jabber usw laufen habe vor nem Monat ebenfalls auf OpenBSD umgezogen hab, stellte sich mir das Problem schon wieder.

IPv6 mit Router Adverisement (rtadv)

Am komfortablesten ist natuerlich einfach das rtadv den Hosting Providers herzunehmen. In meinem Fall rootbsd.net haben aber nur kleine Anleitungen fuer FreeBSD.

Um den IP Stack auf IPv6 Advertisements antworten zu lassen muss nur /etc/sysctl.conf editiert werden mit

net.inet6.ip6.accept_rtadv=1

Einmal rebooten oder per Hand sysctl net.inet6.ip6.accept_rtadv=1 ausfuehren.

1
2
3
4
5
6
7
8
9
10
11
$ ifconfig
em0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> mtu 1500
        lladdr 00:16:3e:2c:4a:41
        priority: 0
        groups: egress
        media: Ethernet autoselect (1000baseT full-duplex)
        status: active
        inet6 fe80::216:3eff:fe2c:4a41%em0 prefixlen 64 scopeid 0x1
        inet 12.34.56.78 netmask 0xffffff80 broadcast 185.34.0.255
        inet6 2a00:d1e0:1000:3100:dead:beef:4a41 prefixlen 64 autoconf pltime 604729 vltime 2591929
        inet6 2a00:d1e0:1000:3100:dead:beef:df24 prefixlen 64 autoconf autoconfprivacy pltime 18185 vltime 537125

IPv6 mit statischer IP

Wenn der Provider kein Router Advertisment anbietet, aber dafür eine IP assigned und auf diese IP ein eigenens Netz für einen routet.

Konfigurieren der Adressen:

1
2
3
4
5
6
$ vi /etc/hostname.em0
inet 213.95.21.200 255.255.255.0 NONE
inet6 alias 2001:780:3:5::122 64   # Transit IP
inet6 alias 2001:780:132::1 48     # IP aus eigenem Netz
inet6 alias 2001:780:132::2 48     # IP aus eigenem Netz
inet6 alias 2001:780:132::3 48     # IP aus eigenem Netz

Konfiguration des Gateways

1
2
3
vi /etc/mygate 
213.95.21.1
2001:780:3:5::1

Und danach Interface reloaden mit sh /etc/netstart em0.

OpenBSD httpd

Reyk Floeter hat zuletzt begonnen seinen relayd zu forken und einen minimalistischen Webserver daraus zu bauen. Langfristig soll httpd in OpenBSD den erst kürzlich in Base gewanderten nginx ersetzen.

Die Hintergründe dazu kann man gut im BSDNOW Podcast 053 nachhören. Zuerst denkt man so “Was? Noch ein HTTP Daemon?”. Zusammengefasst soll der neue httpd aber genau das werden (und vor allem bleiben) wie nginx angefangen hat. Plain, Free, minimalistisch, einfach. So wurden auch schon mehrere Diffs/Features vom Entwickler abgelehnt.

Konfiguration OpenBSD gemäß sehr straight forward. pf/relayd like. Hab mir nen 5.6 Snapshot vom Mirror meiner Wahl besorgt und das Teil mal ausprobiert.

Nach etwas herumprobieren: grinsen. Comic Sans in den default Error Messages.

Bin mir nicht sicher ob das so bleibt. Die Config Parameter sind wie bei OpenBSD Software zu erwarten gut dokumentiert und eingängig.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
prefork 5

server "default" {
  listen on em0 port 80
  root /var/www/htdocs/default
  directory
}

server "default" {
        listen on em0 port 80
        log syslog
        log access default-access.log
        directory auto index
        connection timeout 30
        connection max requests 120
}

server "httpd1.noqqe.de" {
        listen on 192.168.1.14 port 80
        root "/htdocs/httpd1/"
        log syslog
        directory auto index
}

server "httpd2.noqqe.de" {
        listen on 192.168.1.14 port 80
        root "/htdocs/httpd2/"
        log syslog
        directory auto index
        connection timeout 3600
}

Noch ist das gute Stück nicht Feautre-Complete bzw. Production-Ready. Dinge die noch fehlen, aber kommen werden ist zum Beispiel Basic HTTP Auth. SSL und ein bisschen mit beeswithmachineguns Performance austesten hab ich bisher noch nicht gemacht. curlfor-loop mit time zum Ausprobieren kann man kaum Performance Test nennen ;) Demnächst dann vielleicht.

httpd wird er ab 5.6 in Base mit nginx koexistieren. Portable Version ist ebenfalls geplant. Freu mich drauf.

MacBook

Nachdem ich die letzte Zeit viele Betriebssysteme auf dem Thinkpad ausprobiert haben (FreeBSD, ArchLinux, ElementaryOS, OpenBSD) und nichts mich wirklich befriedigt hat, bin ich wieder zu Debian zurück.

Einige Zeit später bekam ich in der Arbeit in MacBook. Fand wieder gefallen daran. Kaufte MacBook Pro (14. Generation).

Dinge, dich ich bei beiden MacBooks als erstes verändert habe:

  • Dock auf die linke Seite konfiguriert (in der Breite hab ich mehr Platz als in der Länge)
  • Key Repeat und Delay until Repeat Rate für das Keyboard bis zum Anschlag verkürzt. Aber darüber hab ich bereits geflamed.
  • FileVault aktivieren.
  • Natural Scrolling deaktivieren (srsly, was soll das?)
  • German - Eliminate Dead Keys Keyboard Layout installieren
  • Zwischen Fenstern der selben Applikation wechseln mit Apfel + >
  • caffeeine installieren (caffeinate für die Kommandozeile)
  • Homebrew/MacPorts installieren
  • xquartz installieren
  • Hässlichen Terminal-Beep in iTerm2 oder TerminalApp deaktivieren
  • locate aktivieren

Noch weitere Tipps, anyone?

How to do simple and efficient image crawling

Im Rahmen von nichtparasoup ergab es sich, dass wir uns Gedanken über crawling machen mussten.

Bei nichtparasoup sollen zufällig Bilder aus dem Netz wiedergegeben werden um wenn möglich den optimalen Unterhaltungswert für den “Zuschauer” darzustellen. Dabei galt es vier Probleme zu lösen:

  • Möglichst aktuelle Bilder (kein alter Schrott)
  • Niemals ohne Content dastehen
  • Keine Duplicates
  • Möglichst effizientes Crawling

Wie also diese Kriterien am Besten vereinen? Bei allen Quellen die benutzt werden gibt es eine Art “paging”. Also eine fixe Anzahl von Bildern, die pro Request aus der Quelle ausgespuckt werden.

1. Ein Buch lesen

Wir begannen, die Seiten einfach von Anfang bis Ende durchzuscrollen. Seite merken. Wenn alle Bilder gesehen wurden, an gemerkter Stelle weitermachen. Effizient. Aber neuer Content wurde damit komplett ignoriert.

2. Yo Dawg, i heard you like HTTP-GETs

Um neuen Content mitzubekommen, haben wir nach dem ersten Versuch, die gerade durchsuchte Quelle jedes mal wenn wir Bilder brauchten von vorne durchzusuchen. Alle Bilder wurden gleichzeitig zu zwei Listen hinzugefügt. Zur ImageMap und zu einer Blacklist. Die Blacklist hatte den Charme, dass wir ausschliesslich Bilder in die ImageMap aufnahmen, die noch nicht auf der Blacklist waren. Gab es also auf der ersten Seite (neueste Einträge) nicht genügend Bilder um die ImageMap zu füllen, ging der Crawlvorgang so lange weiter, bis man auf unbekannte Bilder stößt. Diese befanden sich jedoch meistens am Ende.

Dem Erfahrenen-Internet-Cralwer wird aufgefallen sein, dass das nicht wirklich effizient ist. Umso länger die nichtparasoup-Instanz läuft, umso größer wird der Gap zwischen dem “neuen” Content und der letzten bekannten Seite. Ineffizient.

3. Lesezeichen

Eine erweiterte Version der zweiten Methodik war es, bei jeden Crawlvorgang die erste Seite zu Crawlen und danach an der letzten bekannten Stelle im “Buch-index” zu springen und dort weiter nach unbekannten Bildern zu suchen.

Aber was ist, wenn die Instanz lange nicht besucht wird? Wenn es auf den Index-Seiten 2,3,4,5,6 bereits neuen Content gibt den wir noch garnicht kennen? Wie können wir wissen bis an welche Stelle neuer Content ist?

4. Short-Term-Memory-Loss

Die Lesezeichen Methodik hat ganz gut funktioniert, bis auf die Schwäche des neuen Contents auf den Seiten 2,3,4,5,6.

Nachfolgendes, kann man sich wie einen Rentner ohne Lesezeichen vorstellen. Er versucht sich die Seite, auf der er im Buch stehengeblieben ist zu merken. “Wo war ich nochmal stehen geblieben?” … “Fang ich das Buch halt nochmal von vorne an.”

Um auch neuen Content gecrawlt zu bekommen, wird das Lesezeichen, welches wir bei jedem Durchlauf pro Quelle setzen, alle 3 Stunden “vergessen”. Alles fängt wieder von vorne an. Wir müssen nicht zu viel Bookkeeping betreiben und verballern auch nicht unendlich viele Requests. Die Implementation war relativ einfach.

Ich bin mir ziemlich sicher, dass es hier akademische Beleuchtungen noch und nöcher gibt, schlaue Menschen bei allen Möglichen Suchmaschinen sich Köpfe zerbrochen haben und entsprechende Papers veröffentlicht haben. Für unsere Zwecke eignet sich diese Vorgehensweise aber sehr gut. Zumindest was die Erfahrungswerte der letzten 3 Monate angeht. Für bessere Vorschläge sind wir aber sehr gern zu haben.

The Phoenix Project

Im Urlaub laß ich ein wunderbares Buch. The Phoenix Project.

Das eBook handelt von Bill Parmer der von heute auf morgen zum Leiter der IT des ~4 Milliarden Dollar Unternehmens befördert wird, in dem er arbeitet.

Wer ITIL, ISO20000 oder ISO27001 kennt, kennt einige Konzepte die hinter Opetations und Development stecken. Das Buch verpackt all die schönen Best Practices und Vorgehensweisen zur Beherschung moderner IT Abteilungen in einen Roman. Eine nerdige, lustige und teils schockierende Story, in der Bill die völlig marode IT im Trial and Error Verfahren trotz immer neuer Rückschläge wieder auf Kurs bringt.

Ich denke es ist großartige Alternative den ganzen trockenen Content obiger Konzepte zu ersparen und trotzdem vermittelt zu bekommen um was es im Dev/Ops Bereich geht.

Jeder der was mit IT zu tun hat: Lesen. Oder gebt es euren Chefs, damit die es lesen.

Mehr BSD, Bye Uberspace

Ab und an passiert es, dass Dinge die einfach funktionieren anfangen mich zu langweilen. So geschehen mit Uberspace. Das CentOS, der Apache2.2, die Sache mit den Domains.

Im Grunde habe ich die 3 Dienste, die ich bei Uberspace nutze (Webserver für Blog, Mail, Domains) nun zu anderen Dienstleistern migriert.

Blog Webserver

Der erste “Dienstleister” bin ich gewissermaßen selbst. Die 1HE Dell Maschine die ich seit einiger Zeit bei meinem alten Arbeitgeber mit OpenBSD betreibe, hostet mit nginx den Blog. Selbige Kiste delivered auch devnull-as-a-service.com und coffeestat.org. Warum also eine extra Lösung.

Mails

Bei Uberspace hatte ich die Mglichkeit die Mails direkt von Qmail über Maildrop umzusortieren und dort meine Tools zu platzieren.

Mein neuer Mailprovider neomailbox.net hat seinen Firmensitz auf den Seychellen, Server in der Schweiz und setzt ebenfalls auf OpenBSD als OS. Nicht weil ich ernsthaft glaube, das ich das bräuchte, sondern weils mir gefällt.

Mit dem Wechsel ändert sich aber die Architektur meines Setups. Statt direkt am IMAP Server arbeiten zu können bin ich nun nur noch Konsument des IMAP Services. Blöd für maildrop-Regeln und Spamfiltering mit bogofilter.

Gerade beim Abschied von Bogofilter tat ich mich schwer, weils so gut und einfach ist. Aber dann entdeckte ich imapfilter.

imapfilter ist primär dazu gedacht Mails zwischen einem oder mehrere IMAP Accounts zu verschieben. Meine maildrop Regeln sind sehr leicht umgesetzt:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
neomailbox = IMAP {
    server = 'neomailbox.net',
    username = 'user',
    password = 'pw',
    ssl = 'ssl3',
}

-- get set of mails from the last day
res = neomailbox.INBOX:is_newer(1)

-- move techmails to Tech/
tech = res:contain_to('tech@openbsd.org') +
       res:contain_cc('tech@openbsd.org') +
       res:contain_from('Cron Daemon <root@') +
       res:contain_from('Charlie Root <root@o0.n0q.org>') +
       res:contain_from('root@z0idberg.') +
       res:contain_from('noc.n0q.org')
tech:move_messages(neomailbox.Tech)

-- spam by vipul razor to Spam/ (offered by neomailbox.net)
-- header: X-SA-Status: Yes
spamvipul = res:contain_field('X-SA-Status', 'Yes')
spamvipul:move_messages(neomailbox.Spam)

Mit den Ergebnissen von vipul razor Antispam war ich aber nicht so 100%ig zufrieden, weshalb ich anfing zu googeln und fand was ich suchte.

Imapfilter piped jede Mail des letzten Tages zu dem lokal laufenden bogofilter.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
-- bogofilter spam mails to Spam
res = neomailbox.INBOX:is_newer(1)
spam = Set {}
unsure = Set {}
  for _, mesg in ipairs(res) do
        mbox, uid = unpack(mesg)
        text = mbox[uid]:fetch_message()
        -- subject = mbox[uid]:fetch_field('subject')
        -- print(subject)
        flag = pipe_to('/usr/bin/bogofilter', text)
        if (flag == 0) then
          table.insert(spam, mesg)
        elseif (flag == 2) then
          table.insert(unsure, mesg)
        end
  end
neomailbox['INBOX']:move_messages(neomailbox['Spam'], spam)

H00ray!

Domains

Relativ unspektakulär, habe ich meine Domains zu inwx.de umgezogen. Preise und Webinterface sind okay. Und falls ich mal Lust habe eine Art DynDNS selbst zu bauen haben die auch gleich eine API.

Alles in allem kann ich mit dem neuen Setup gut Leben. Mehr OpenBSD, weniger Linux.

MongoDB 2.6 Sharded Cluster Performance

MongoDB Cluster wollen nach der Installation wie jede andere DB getestet werden. Performance, Konsistenz bei vielen Writes, usw. Gerade bei Sharding und Indexing über mehrere Knoten verteilt möchte man das schon ausprobieren. Sind die Documents wirklich gleichmässig verteilt?

Alle Zeiten der Auswertung und Interpretation der Ergebnisse spar ich mir jetzt. Der Fokus liegt ersteinmal auf dem “wie messen”.

Write

Der einfachste Weg war das Python Modul pymongo zu benutzen, welches über pip nachinstalliert werden kann.

1
2
3
4
5
6
7
8
import pymongo
m = pymongo.MongoClient('mongodb://user:password@localhost:27017/Database')
i = 0
doc = {'a': 1, 'b': 'foo'}

while (i < 5000000):
        m.Database.testcollection.insert(doc, manipulate=False, w=1)
        i = i + 1

Aufruf im Idealfall mit time python write.py, um auch wirklich die Zeit zu messen. Die 5 Mio erstellten Documents in der Collection testcollection, lassen sich nachher auch für Read-Tests weiterverwenden.

Read

Wie lange es dauert, alle 5 Mio Objekte aus der MongoDB auszulesen ist wahrscheinlich klar. Lange.

1
2
3
4
5
import pymongo
m = pymongo.MongoClient('mongodb://user:password@localhost:27017/Database')
r = m.Database.testcollection.find()
for doc in r:
        print doc["_id"]

Um das komplette Datenset auszugeben: time python readall.py > allids.txt

Read Random Documents

Alle Objekte sequenziell in einem Query ausgeben ist aber ein ziemlich exotischer Use-Case. Näher an der Realität sind kleine Queries die zufällige Dokumente abrufen (gerade wegen des Shardings). Da sowieso schon eine Liste aller ObjectIds existiert allids.txt hab ich dazu einfach ein Python Skript umgebaut dass ich schon hatte.

randompopulation.py wird eine Datei mit Input und die Anzahl der gewünschten Samples übergeben. Mithilfe von linecache ist das auch noch sehr effizient. Die nachfolgende modifizierte Version setzt auch gleich den MongoDB Query ab:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
import random
import sys
import linecache
import pymongo
from bson.objectid import ObjectId

# configuration
population=sys.argv[1]
samplesize=int(sys.argv[2])

m = pymongo.MongoClient('mongodb://user:password@localhost:27017/Database')

# count lines of population file
def file_len(fname):
    with open(fname) as f:
        for i, l in enumerate(f):
            pass
    return i + 1

# set length to value
length=file_len(population)

# get random number with max size
x=0
while (x < samplesize):
        y=(int(random.random() * length))
        r=linecache.getline(population, y).rstrip('\n')
        print list(m.Database.testcollection.find( { "_id": ObjectId(r) } ))
        x = x + 1

Und wirft 9000 zufällige Documents aus den angelegten Datensätzen aus.

1
2
3
4
5
6
7
8
9
10
11
$ time python choose-random-documents.py allids.txt 9000
[{u'a': 1, u'_id': ObjectId('5399a0620ab2ccca7276853b'), u'b': u'foo'}]
[{u'a': 1, u'_id': ObjectId('5399ab530ab2ccca728a2453'), u'b': u'foo'}]
[{u'a': 1, u'_id': ObjectId('5399b0160ab2ccca72aaaf91'), u'b': u'foo'}]
[{u'a': 1, u'_id': ObjectId('5399b60f0ab2ccca72cefcde'), u'b': u'foo'}]
[{u'a': 1, u'_id': ObjectId('5399a0780ab2ccca7277341d'), u'b': u'foo'}]
[{u'a': 1, u'_id': ObjectId('5399b56c0ab2ccca72cabd93'), u'b': u'foo'}]

real    0m6.355s
user    0m3.384s
sys     0m0.512s

Distributed Read / Write

Ein Host mit Queries ist natürlich auch witzlos. Schreiben und Lesen von mehreren Hosts! Für derartige Tasks packe ich gerne mal pssh aus.

$ pssh -h hostlist.txt -t 360 -l user -i 'python choose-random-documents.py allids.txt 25'

und selbes natürlich auch für die Write Tests

$ pssh -h hostlist.txt -t 360 -l user -i 'python write.py'

Nachdem ich in write.py noch ein paar Zeitstempel eingebaut habe, kann ich leicht die Schreibzeiten von den Clients visualisieren.

Die regelmäßigen Ausreißer beunruhigen etwas. Im Histogram visualisiert sieht das aber alles viel unproblematischer aus als im Dotchart. Es sind ja immerhin <50 Ausreißer bei 8 Mio Writes. Vertretbar.

Dataset Distribution

Nachdem alles geschrieben und gelesen ist, kann man sich auch mal anschauen wies in MongoDB aussieht. Status der Chunks anzeigen:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
mongos> sh.status()
{  "_id" : "Database",  "partitioned" : true,  "primary" : "rs0" }
 Database.testcollection
  shard key: { "_id" : "hashed" }
  chunks:
          rs0     8
          rs1     9
  { "_id" : { "$minKey" : 1 } } -->> { "_id" : NumberLong("-8278359716552185568") } on : rs0 Timestamp(2, 26)
  { "_id" : NumberLong("-8278359716552185568") } -->> { "_id" : NumberLong("-7260263158060599530") } on : rs0 Timestamp(2, 27)
  { "_id" : NumberLong("-7260263158060599530") } -->> { "_id" : NumberLong("-6016783570264293634") } on : rs0 Timestamp(2, 16)
  { "_id" : NumberLong("-6016783570264293634") } -->> { "_id" : NumberLong("-4611686018427387902") } on : rs0 Timestamp(2, 17)
  { "_id" : NumberLong("-4611686018427387902") } -->> { "_id" : NumberLong("-3654885303726982419") } on : rs0 Timestamp(2, 24)
  { "_id" : NumberLong("-3654885303726982419") } -->> { "_id" : NumberLong("-2474593789826765065") } on : rs0 Timestamp(2, 25)
  { "_id" : NumberLong("-2474593789826765065") } -->> { "_id" : NumberLong("-1237168844051948825") } on : rs0 Timestamp(2, 18)
  { "_id" : NumberLong("-1237168844051948825") } -->> { "_id" : NumberLong(0) } on : rs0 Timestamp(2, 19)
  { "_id" : NumberLong(0) } -->> { "_id" : NumberLong("960408942766083593") } on : rs1 Timestamp(2, 22)
  { "_id" : NumberLong("960408942766083593") } -->> { "_id" : NumberLong("2141950729934882470") } on : rs1 Timestamp(2, 23)
  { "_id" : NumberLong("2141950729934882470") } -->> { "_id" : NumberLong("3159510070215249954") } on : rs1 Timestamp(2, 20)
  { "_id" : NumberLong("3159510070215249954") } -->> { "_id" : NumberLong("3849612569857039248") } on : rs1 Timestamp(2, 30)
  { "_id" : NumberLong("3849612569857039248") } -->> { "_id" : NumberLong("4611686018427387902") } on : rs1 Timestamp(2, 31)
  { "_id" : NumberLong("4611686018427387902") } -->> { "_id" : NumberLong("5474895056408077106") } on : rs1 Timestamp(2, 28)
  { "_id" : NumberLong("5474895056408077106") } -->> { "_id" : NumberLong("6550645461419446020") } on : rs1 Timestamp(2, 29)
  { "_id" : NumberLong("6550645461419446020") } -->> { "_id" : NumberLong("7856429257149966918") } on : rs1 Timestamp(2, 14)
  { "_id" : NumberLong("7856429257149966918") } -->> { "_id" : { "$maxKey" : 1 } } on : rs1 Timestamp(2, 15)

Und auch wie es um die Verteilung der einzelnen Objekte steht (etwas gekürzt):

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
mongos> db.stats()
{
   "raw" : {
           "rs0/mongo01:27018,mongo02:27018" : {
                   "db" : "Database",
                   "collections" : 3,
                   "objects" : 3458713,
                   "avgObjSize" : 48.00009251996335,
                   "dataSize" : 166018544,
                   "storageSize" : 243331072,
           },
           "rs1/mongo03:27018,mongo04:27018" : {
                   "db" : "Database",
                   "collections" : 3,
                   "objects" : 3458108,
                   "avgObjSize" : 48.00009253614982,
                   "dataSize" : 165989504,
                   "storageSize" : 243331072,
   },
   "objects" : 6916821,
   "avgObjSize" : 48,
   "dataSize" : 332008048,
   "storageSize" : 486662144,
}

Sharded Cluster Visualisierung CC-NC-BY-SA MongoDB: http://docs.mongodb.org/manual/core/sharded-cluster-query-router/

mlmmj und OpenSMTPD unter Debian

Für die Mailingliste der k4cg zieht demnächst um. Weswegen ich mich mit einem dementsprechenden Setup auseinander setzen wollte.

mlmmj

Bisher läuft die ML mit mlmmj. Ich kannte das gute Stück vorher garnicht, macht aber einen sehr netten Eindruck. Einfach gestrickt, wenig Overhead, Plaintext Files ohne viel TamTam. Bei der Konfiguration kann man sich ohne Bedenken von mlmmj-make-ml leiten lassen.

1
2
$ sudo aptitude install mlmmj
$ mlmmj-make-ml

Nachdem die selbsterklärende Installation abgeschlossen ist, noch in /etc/aliases eine Pipe einfügen für den entsprechenden User.

1
k4cg:     "|/usr/bin/mlmmj-receive -L /var/spool/mlmmj/k4cg"

OpenSMTPD

Den aus dem OpenBSD Umfeld entstandenen OpenSMTPD wollte ich mir schon länger ansehen. Für Postfix läge die mlmmj Konfigurationsanleitung zwar bei, aber hat ja irgendwie auch jeder und ist für unsere Zwecke viel zu bloated.

1
$ sudo aptitude install opensmtpd

Die einzige Config, die es bei OpenSMTPD gibt, /etc/smtpd.conf liesst sich schön im Stil von pf.

/etc/smtpd.conf
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
# interfaces to listen
listen on localhost
listen on eth0

# if you edit the file, you have to run "smtpctl update table aliases"
table aliases file:/etc/aliases

# recieve mails only for mailinglist domain and from any host
accept from any for domain "k4cg.org" alias <aliases> deliver to mbox

# other local mailboxes
accept from local for local alias <aliases> deliver to mbox

# allow to sent out mails to subscribed users
accept from local for any relay

Habe etwas mit dem smtpd herumgespielt, gefällt mir richtig gut. Minimal gehalten und selbsterklärend. Danach noch das newaliases Pendant smtpctl update table aliases ausführen. Ansehen will man sich auch mal smtpctl monitor <3

Tests mit Swaks

Gerade bei Mailsetups sind die Testszenarien etwas unschön abzuarbeiten. Das Swiss-Army-Knife-for-SMTP swaks hilft einem, das Zeug nicht jedesmal selbst über telnet eintippern zu müssen.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
$ swaks --server 56.78.90.46 --to k4cg+subscribe@k4cg.org --from noqqe@example.org
=== Connected to 56.78.90.46.
 -> MAIL FROM:<noqqe@example.org>
<-  250 2.0.0: Ok
 -> RCPT TO:<k4cg+subscribe@k4cg.org>
<-  250 2.1.5 Destination address valid: Recipient ok
 -> DATA
<-  354 Enter mail, end with "." on a line by itself
 -> Date: Wed, 28 May 2014 23:12:58 +0200
 -> To: k4cg+subscribe@k4cg.org
 -> From: noqqe@example.org
 -> Subject: test Wed, 28 May 2014 23:12:58 +0200
 -> X-Mailer: swaks v20130209.0 jetmore.org/john/code/swaks/
 ->
 -> This is a test mailing
 ->
 -> .
<-  250 2.0.0: ac3d1ccf Message accepted for delivery
 -> QUIT
<-  221 2.0.0: Bye

Nach Test für subscribe/unsubscribe sollte man ebenfalls überprüfen, ob man nicht unter Umständen ein OpenRelay konfiguriert hat.

1
2
3
4
5
6
$ swaks --server 56.78.90.46 --to irgendwer@gmail.com --from noqqe@example.org
[...]
 -> RCPT TO:<irgendwer@gmail.com>
<** 550 Invalid recipient
 -> QUIT
<-  221 2.0.0: Bye

Versteckte Prozessparameter in UNIX

Passwörter für Datenbanken beispielsweise sind Optionen die sich als Commandline Argument direkt im Aufruf mitgeben lassen. Bei MySQL oder MongoDB ist das angegebene Passwort aber in der Prozessliste durch xxxx ersetzt.

1
2
3
4
5
6
$ mysql -u noqqe -ppassw0rd -h localhost
$ ps auxfww
sshd: noqqe@pts/0
 \_ -bash
     \_ mysql -u noqqe -px xxxxx -h localhost
     \_ ps auxfww

Irgendwie blieb ich die Woche an dieser Tatsache hängen. Verstand ich nicht. Das OS bekommt doch den Aufruf des Programms und das Binary parst die bereits vorher übergebenen Paramter. Ist das Binary nur eine Art Wrapper, der einen neuen Prozess spawnt? Oder Linux Kernel API wie hidepid? Wer filtert hier?

Passwort Parameter in MySQL

Nachdem MySQL ja OpenSource ist, kann man ja mal etwas grepen im Source. Wurde schliesslich auch fündig.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
case 'p':
  if (argument == disabled_my_option)
    argument= (char*) "";     // Don't require password
  if (argument)
  {
    char *start= argument;
    my_free(opt_password);
    opt_password= my_strdup(argument, MYF(MY_FAE));
    while (*argument) *argument++= 'x';     // Destroy argument
    if (*start)
      start[1]=0 ;
    tty_password= 0;
  }
  else
    tty_password= 1;
  break;

Das MySQL Client Binary wird also gestartet, initialisiert und die Variable argument, die aus dem Parameter-Parser von MySQL fällt, kopiert und direkt an der entsprechenden Speicheraddresse mit xen überschrieben.

Im Endeffekt eine coole Lösung, aha-Effekt war da. Bedeutet aber auch, dass beim Start des Programms für eine gewisse Zeit das Passwort in der Prozessliste steht. So lang bis der Argumentenparser an der entsprechenden Stelle angekommen ist und den Memory überschreibt. Ab jetzt also immer -p Parameter ganz am Anfang hinschreiben :P

Nachbau

Hört sich etwas nach zurecht gehackt an, fand ich. Dabei ist die Anpassbarkeit durchaus im C99 Standard vorgesehen.

The parameters argc and argv and the strings pointed to by the argv array shall be modifiable by the program, and retain their last-stored values between program startup and program termination.

C99 Standard

Ausprobieren lässt sich das eigentlich mit einfach ein bisschen C, welches ich mir via StackOverflow-Driven-Development zusammen geklaut habe.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
#include <stdio.h>
#include <stdlib.h>
#include <string.h>

int main(int argc, char **argv) {

    int i = 0;
    int k=0;
    int len = 0;

    len = strlen(argv[0]);
    for(k=0;k<len;k++) {
        argv[0][k] = 'y';
    }

    len = strlen(argv[1]);
    for(i=0;i<len;i++) {
        argv[1][i] = 'x';
    }

    system("ps f");

    return 0;
}

Dabei kann auch der eigentliche Name des Programms überschrieben werden. Total evil-haxx0r.

1
2
3
4
5
6
7
$ gcc hide.c -o hide
$ ./hide tolorlerolero
  PID TTY      STAT   TIME COMMAND
12384 pts/1    Ss     0:01 -bash
23512 pts/1    S+     0:00  \_ yyyyyy xxxxxxxxxxxxx
23513 pts/1    S+     0:00      \_ sh -c ps f
23514 pts/1    R+     0:00          \_ ps f

Again what learned.