Long-Term Accessibility of Software through Web Archives
This is a modal window.
The media could not be loaded, either because the server or network failed or because the format is not supported.
Formal Metadata
Title |
| |
Title of Series | ||
Number of Parts | 22 | |
Author | ||
Contributors | ||
License | CC Attribution - NonCommercial - NoDerivatives 3.0 Germany: You are free to use, copy, distribute and transmit the work or content in unchanged form for any legal and non-commercial purpose as long as the work is attributed to the author in the manner specified by the author or licensor. | |
Identifiers | 10.5446/21904 (DOI) | |
Publisher | ||
Release Date | ||
Language | ||
Production Year | 2017 | |
Production Place | Hannover |
Content Metadata
Subject Area | ||
Genre | ||
Abstract |
|
1
2
9
14
00:00
SoftwareTerm (mathematics)MathematicsForschungszentrum RossendorfRevision controlLatent heatInformationSystem identificationProduct (business)Web serviceOpen sourceBinary fileSource codeIntegrated development environmentComputer hardwareAerodynamicsData miningExtension (kinesiology)Data structureRepresentation (politics)World Wide Web ConsortiumFile formatComputer fileComputer-generated imageryScripting languageVideoconferencingWebsiteMathematical analysisUniform resource locatorInternetworkingWeb pageMotion captureCross-correlationContext awarenessDatabase normalizationHome pageLink (knot theory)IntelInclusion mapFlagMenu (computing)TheoryExecution unitPrototypeStatisticsImage warpingRing (mathematics)SynchronizationSimulationVersion <Informatik>MathematicsFocus (optics)SoftwareInternetLink (knot theory)Home pageWeb pageSearch engine (computing)Router (computing)Server (computing)Computer programMetadataDownloadInformationProduct (category theory)UpdateCategory of beingCodeComponent-based software engineeringSpeciesSet (mathematics)ArmUniform resource locatorCorrelation and dependenceRow (database)WEBARCHIVE <Programm>Direction (geometry)PrototypeOpen sourceEckeRoute of administrationCounterexampleOptimumComputer fileMetreDynamic rangeNetscapePoint (geometry)Data structureInternetdienstComputing platformHigh availabilityEXCELZugriffProxy serverLanding pagePAPWritingGebiet <Mathematik>Bounded setSoftwareproduktGirderPlotterWorld Wide Web ConsortiumBeta functionPhysical quantityApache <Programm>Graph minorStatistikerLecture/ConferenceComputer animation
Transcript: German(auto-generated)
00:00
Ja, dann guten Morgen. Ja, mein Vortrag wird erst mal ein bisschen community unspezifisch wahrscheinlich, weil ich rede weder über Simulationen noch Modellierungen, noch irgendwelche mathematischen Dinge, obwohl ich ein paar Statistiken drin habe. Aber man sieht ja schon, ich komme von verschiedenen Partnern,
00:20
beispielsweise verschiedene Projekte spielen hier rein. Mein Name ist Helge Holzmann, ich bin vom L3S eigentlich, arbeite hier aber stellvertretend für die TEB sozusagen im Projekt FID-Matte und das Projekt Alexandria spielt auch noch mit rein, weil das sozusagen unser Datenlieferant für die Analysen ist, die wir hier gemacht haben und auch mein Hauptprojekt, in dem ich ansonsten arbeite.
00:43
Und so ein bisschen als Hintergrundgeschichte, warum wir das überhaupt gemacht haben und wie das hier reinpasst. Also das alles spielt sich im Kontext von FID-Mathematik ab. Das ist also ein Projekt von der DFG, um einen Fachinformationsdienst für die Mathematik aufzubauen. Und wir haben hier an der TEB ein Unterprojekt davon, was wir sozusagen bearbeiten
01:03
und das ist das Projekt Math Beyond Text. Da geht es also nicht speziell nur um Software, wir haben uns aber ein bisschen den Fokus auf Software gelegt und wollten halt gucken, wie kann man mit Software eigentlich in der mathematischen Literatur umgehen. Und da haben wir uns halt zu Fragen gestellt, wie kann man Software überhaupt zitieren, wie kann man Software referenzieren, das ist ja auch schon in vorherigen Talks hier ein bisschen rausgekommen.
01:25
Wenn ich Software zitiere, habe ich da ja im Prinzip gar nichts von, wenn ich an die zitierte Software nicht mehr rankomme nach langer Zeit. Deshalb muss man diese Software irgendwie langzeit zugreifbar machen. Wir hatten schon das Problem mit den Versionen gehört, speziell Wolfrabens Talk von gestern.
01:42
Das heißt irgendwie, man muss auch die Versionierung bewahren. Wenn eine Version nicht mehr aktuell ist, muss man trotzdem noch Informationen über diese Version bekommen können. Im Idealfall sogar die Version selbst, weil eventuell wird man ja Experimente nachvollziehen können oder nochmal wiederholen können. Und dann stellt sich auch die Frage, welche Information brauche ich überhaupt,
02:02
um so genau wie möglich auf eine bestimmte Version oder auf eine bestimmte Software verweisen zu können. Und darüber hinaus, wenn ich so genaue Informationen wie möglich habe, um auf eine Software zu verweisen, die es aber vielleicht nicht mehr gibt, welche Information brauche ich dann über diese Software, um zu verstehen, was die Software damals getan hat oder was die Software heute noch tut,
02:22
falls ich einfach keinen Zugriff darauf habe, um dieses ganze Experiment, was in irgendeiner Publikation beschrieben ist, nachvollziehen zu können. Und da gibt es verschiedene Challenges, wie natürlich überall. Es dreht sich im Prinzip ziemlich grob darum, will ich eigentlich ein Softwareprodukt referenzieren.
02:42
Wolfram hatte das Container genannt gestern. Oder möchte ich ein bestimmtes, ganz genaues Artifakt, nennen wir es hier, verweisen. Das wäre dann in dem Fall eine Version, wie zum Beispiel, also hier ist mal so eine Hierarchie sozusagen abgebildet mit Excel. Ich hätte das Produkt an sich, ich habe auch Excel 2007, was schon eine Version ist,
03:04
gleichzeitig aber wieder ein Container für ganz viele Unterversionen. Und dann kann sozusagen jedes Patch, jeder Bugfix, noch wieder eine kleine Minor Version Änderung ganz hinten an der Stelle mit sich bringen, die eventuell entscheidend ist tatsächlich. Dann ist noch hier die Frage, wie kann ich einen bestimmten Zustand einer Software überhaupt identifizieren?
03:23
Das ist nicht immer so schön wie mit so einer Versionsnummer, wie hier oben in dem Beispiel, sondern gerade in Open Source Software wird diese Version vielleicht nicht immer mitgepflegt. Wenn man eigene Software entwickelt, vergibt man häufig gar keine Version. Trotzdem ist die Software vielleicht irgendwo online, wird geupdatet. Wenn man das Ganze auf einer Plattform wie GitHub macht, hat man ganz nett diese Chars,
03:42
die ziemlich genau einen Commit beschreiben. Das hat man aber bei proprietärer Software zum Beispiel gar nicht. Also da gibt es überall Challenges. Und dann wieder mal die Challenge der Verfügbarkeit. Wie greife ich auf eine Software zu? Wie greife ich auf Binaries zu? Auf die kann ich vielleicht gar nicht immer zugreifen, weil es einfach um proprietäre Software geht, die von einem Unternehmen entwickelt wird,
04:04
was seine Software nicht rausgibt an uns, weil man keine Lizenz erwerben kann oder einfach keine Lizenz hat. Und eventuell gibt es dieses Unternehmen auch gar nicht mehr oder es gibt die Entwickler gar nicht mehr. Und ich kann auf die Software gar nicht mehr zugreifen. Die andere Sache ist, wo greife ich überhaupt auf die Software zu? Habe ich die Software runtergeladen? Habe ich sie irgendwo gekauft?
04:20
Das müsste der Dienst, der für das Archivieren zuständig ist, ja genauso tun. Also das sind alles so die Challenges, mit denen man da zu tun hat. Und am Ende sind wir zu dem Schluss gekommen, dass Software archivieren eigentlich nicht komplett möglich ist. Das kann man sich allein daran klar machen, dass jemand hat in einer Publikation eine Software verwendet.
04:41
Er hat diese Software selbst nicht mehr. Es war eine seltene Software. Das Unternehmen, was diese Software entwickelt hat, gibt es nicht mehr. Und ich komme an die Software einfach nicht mehr ran. In dem Fall ist es einfach unmöglich, diese Software zu archivieren. Das wäre so der drastische Fall. Es gibt aber natürlich auch abgeschwächte Fälle. Zum Beispiel ist es schon eine ziemlich starke Challenge, jede einzelne Version zu archivieren. Und wenn ich eine Version nicht archiviert habe, kann das genau die Version sein, die in einer Publikation benutzt wird.
05:04
Weiterhin gibt es dann Legal Questions. Also habe ich überhaupt eine Lizenz, um eine Software zu archivieren? Darf ich diese Software als Bibliothek bereithalten? Und wenn ich sie bereithalte, darf ich sie wieder rausgeben, ohne dass die Kunden eine Lizenz erwerben? Dann ist wiederum die Frage, können sie eine Lizenz erwerben?
05:21
Also da gibt es auch viele Fragen. Und jetzt kann man natürlich sagen, wenn Software archivieren sowieso nicht komplett möglich ist, wieso sollten wir es überhaupt probieren? Wieso erweitern wir nicht einfach unsere Metadaten dahingehend, dass sie so aussagekräftig sind, dass ich die Software an sich gar nicht brauche? Und dann kommt man aber auch zu ganz vielen Möglichkeiten, die man da in diese Metadatenstrukturen reinstecken kann.
05:42
Wolfram hat da so ein bisschen schon was gezeigt in seiner Liste mit, ich weiß gar nicht wie viel das waren, 50, 70 Metadaten auf dieser einen Seite. Und man braucht natürlich andere Metadaten als bei Publikationen. Das kann man sich auch relativ einfach klar machen, weil eine Publikation ist häufig schon allein durch den Titel eindeutig zu identifizieren. Wenn es nicht über den Titel geht, dann geht es über den Autor und da hinzukommt noch der Verlag und schon hat man eigentlich die Publikation.
06:06
Und eine Publikation ist fest, die wurde einmal publiziert, ich komme an diesen Stand so ran und da steht alles drin, was zu der Publikation gehört. Bei Software ist das nicht so. Software ist dynamisch, Software entwickelt sich eigentlich die ganze Zeit weiter und es gibt nicht den einen Autor. Der einen Autor ist häufig eine Firma oder so etwas wie Apache oder Mozilla oder größere Open Source Organisationen, die dahinter stehen.
06:26
Es gibt aber hunderte oder teilweise tausende Kontributoren. Diese Kontributoren ändern sich, das können Hauptkontributoren sein, die wieder ausscheiden aus dem Projekt und dann stellt sich die Frage, auf welche verweise ich da überhaupt? Das Gleiche ist mit Versionen. Wenn ich auf eine Version verweise, stellt sich hinterher die Frage, was bringt mir das überhaupt?
06:43
Was habe ich jetzt davon, wenn ich weiß, der hat die Software in der Version 3.5.7 benutzt. Wenn ich diese Version nicht habe und nichts über diese Version weiß, weiß ich nicht, wo der Unterschied zu 3.5.6 oder 3.5.8 ist. Und deshalb, Betadaten sind niemals allumfassend und allein aus dem Grund werden sie niemals ausreichend sein.
07:04
Es kann immer wieder ein neuer Autor kommen, der eine bestimmte Eigenart der Software benutzt, die ich nicht abgebildet habe. Wir sind dazu in eine Lösung gekommen und das sind die Web-Archive und die wollen wir in den ganzen Prozess mit einbeziehen. Weil wir uns einfach überlegt haben, im Web ist im Prinzip alles verfügbar.
07:22
Da sind alle Metadaten verfügbar, wenn auch nicht unbedingt strukturiert. Aber heutzutage ist es so, dass jeder mit dem Web arbeitet und was nicht im Web ist, das weiß man selbst eigentlich auch nicht. Es sei denn, man tritt in Kontakt mit dem Softwareautor und man hat die Software selbst entwickelt. Aber wenn man es dann nicht irgendwo im Web niederschreibt, ist das Wissen eigentlich sowieso verloren. Das heißt, alle Metadaten, die ich irgendwie brauche, sind auf jeden Fall da.
07:43
Und selbst wenn man jetzt argumentiert, wie bekomme ich die da strukturiert raus, da kann man sich noch Gedanken darüber machen. Aber erstmal ist wichtig, dass ich diese Metadaten überhaupt abspeichere. Beziehungsweise alles, was im Web über diese Software da ist, sollte ich jetzt sichern, bevor es halt nicht mehr da ist. Und es hat sich gezeigt in der Analysen, dass das eigentlich eine relativ umfassende Repräsentation der Software ist.
08:06
Und wir bezeichnen es sogar als Surrogate of the Software. Also man kann es wirklich als Stellvertreter ansehen. Weil in vielen Fällen ist tatsächlich Software im Web verfügbar, wenn es eben um Open Source Software geht. Oder ich habe den Source Code, den ich mir komplieren kann. Oder ich habe auf jeden Fall so viele Informationen, dass wenn ich das Experiment gar nicht selbst wiederholen möchte,
08:24
dass ich es wenigstens komplett nachvollziehen kann, weil ich komplette Beschreibungen über die Software finde. Ich finde Bugfixreports, ich finde Weiß, was in welcher Version gefixed wurde. Sowas ist alles im Web da. Und hinterher kann man immer noch beigehen und auf dynamische Art Metadaten extrahieren, um diese Kollektion, die man in so einem Webarchiv hat, näher zu beschreiben, mit Metadaten, wenn man das denn möchte.
08:45
Deshalb ganz kurz nur, was ist ein Webarchiv? Es ist ja jetzt hier in mehreren Talks schon mal kurz angeklungen und wurde auch schon mal gezeigt. Und speziell diese Bilder habt ihr auch am ersten Tag schon gesehen. Das ist die Wayback Machine. Und das ist so das, was die meisten mit Webarchiven verbinden. Es gibt da tatsächlich ganz viele Organisationen, die Webarchivierung durchführen.
09:03
Ein voran ist das Internet Archive, aber da gibt es auch andere. Mittlerweile viele Nationalbibliotheken. Das UK Web Archive gehört zum Beispiel zur British National Library. Die IRPC ist das Consortium, was dahinter steht. Und ja, am Ende fällt alles auf kleine Dateien zurück bzw. große Dateien im sogenannten Walk-Format,
09:24
wo alles das Wissen gespeichert ist. Und die Möglichkeit darauf zuzugreifen ist eigentlich diese Wayback Machine. Und die benutzen auch fast alle. Also entwickelt wird sich vom Internet Archive. Die benutzen auch die anderen Webarchive. Und hier funktioniert das so, man gibt eine Webadresse ein und sieht dann hier diesen Überblick über archivierte Versionen.
09:41
Man kann dann über diese archivierten Versionen auf die alte Seite zugreifen. Das hier ist ein Beispiel von New York Times. Und hier sieht man schon, so kann es aussehen, wenn die Seite relativ allumfassend archiviert wurde. Am ersten Tag hatten wir hier das Beispiel, wo da irgendwie zwei Punkte waren und da unten noch mal ein Punkt. Und alles dazwischen war frei. Das hier ist jetzt so das Gegenbeispiel, das Optimum, was wir eigentlich erreichen wollen. Was kann natürlich nicht für alle Seiten erreicht werden.
10:03
Ja, und wenn man sich jetzt hier auswählt, welches Datum ich da sehen möchte. Ich habe hier jetzt mal das Datum rausgenommen kurz nachdem Barack Obama gewählt wurde. Und jetzt sieht man halt, was die New York Times damals über die Wahl berichtet hat. Ja, und das sind im Prinzip erstmal grobe Webarchive. Aber wir sind gerade noch überhaupt in der Forschung, wie man besser auf Webarchive zugreifen kann.
10:24
Und was man mit Webarchiven noch weiteres machen kann. Das passiert alles in dem Kontext von dem Alexandria Projekt, was ich da am Anfang kurz gezeigt habe. Und ja, das spezielle, was ich hier jetzt präsentiere, ist eine gemeinsame Arbeit vom L3S, von der TIB. Und auch zusammen mit dem Zentralblatt, speziell den Leuten vom SWMAT und der SWMAT-Plattform.
10:45
Und unsere Idee war eben, dass man, wie ich das eben schon gesagt habe, das Web und das Wissen, was im Web über eine Software verfügbar ist, als Stellvertreter für diese Software betrachtet. Weil das ist etwas, was sich archivieren kann, anders als die Software. Und dann haben wir uns halt für eine kleine Analyse ein paar Fragen gestellt.
11:02
Nämlich, wie gut ist Software überhaupt repräsentiert im Internet? Dient das wirklich als Ersatz für Software? Welche Informationen kann ich da rausbekommen? Und auch, wenn wir noch nicht aktiv anfangen, Software-Webseiten zu archivieren, was ist denn heute schon da? Was kann ich vielleicht über alte Publikationen tatsächlich aus dem Web noch wieder erfahren?
11:21
Und für die Analyse sind wir erstmal rangegangen mit SWMAT. Das war sozusagen unser Datensatz, um einen Einstiegspunkt in dieses Webarchiv zu haben. Weil, wie schon gezeigt, in der Webarchive, man braucht im Prinzip immer eine konkrete URL. Und das Problem mit URLs ist, dass die sich auch über die Zeit ändern. Und deshalb ist das sicher nicht der ideale Einstiegspunkt. Mittlerweile gibt es auch eine Beta von der Webarchive, wo man tatsächlich suchen kann.
11:43
Wir entwickeln auch eigene Suchmaschinen für Webarchive. Trotzdem, der Standardweg und die APIs der Webarchive laufen alle so, dass man eine konkrete URL angeben muss. Und da haben wir jetzt eben SWMAT genommen. So sieht SWMAT aus. Wurde hier auch schon ein paar Mal gezeigt. Und SWMAT hat im Prinzip eine so eine Seite pro Software, Produkt oder Container.
12:04
Und hier ist eine kleine Beschreibung darüber. Hier sind so ein paar Metadaten. Und Wolfram hat das ja schon ganz gut erklärt, oder war es davor? In einem der vorherigen Talks habe ich schon erklärt, dass es nach diesem publikationsbasierten Ansatz aufgebaut ist. Das heißt, es werden im Prinzip die Publikationen zuerst durchgescannt nach Software.
12:23
Und dann darauf basierend werden diese Container in SWMAT zu einer Software aufgebaut. Und deshalb hat man ganz schön zu jeder Software alle Publikationen, aus denen die Software erkannt wurde oder in denen die Software erkannt wurde. Und das war sozusagen unser Ausgangspunkt. Das haben wir einmal komplett uns gespeichert als kleinen Datensatz.
12:42
Das waren über 12.000 Records. Und ausgehend von denen haben wir andere Datensätze extrahiert. Nämlich erstmal die URLs. Das hat man hier gesehen. Hier ist immer die URL angegeben. Weiterhin die Top 100 Publikationen. Also man kann hier noch weiterschalten. Man sieht da jetzt bei der Software Singular gibt es 41 Seiten.
13:00
Wir haben die Top 100 immer genommen. Und dazu haben wir vom Internet Archive aus der Wayback Machine die Metadaten zu den archivierten Webseiten gecroylt. Zu diesen 12.000 Produkten. Und zwar einmal zu dem Zeitpunkt der Top Publikation einer Software. Also man kann die Publikationen hier nach den meisten Referenzen sortieren.
13:21
Nicht wie häufig wurde die Software referenziert, sondern wie häufig wurde der Artikel referenziert, der die Software referenziert. Und dann zum anderen haben wir noch die späteste archivierte Version der Webseite genommen. Und dazu jeweils die Metadaten heruntergeladen. Und dann einen fünfter Datensatz.
13:42
Waren es vier? Einen fünfter Datensatz, den wir noch mit einbezogen haben. Der stammt aus dem Alexandria Kontext. Deshalb gab es den auch nur fürs deutsche Web. Den hatten wir nicht fürs gesamte Web verfügbar. Es ist ja nicht immer gesagt, dass alle Seiten, die da auf sb.mat liegen, irgendwo im deutschen Web. Also unter de liegen.
14:02
Und ja, das deutsche Web haben wir jedenfalls komplett verfügbar. Über 18 Jahre. Hier lokal. Das wurde uns vom Internet Archive zur Verfügung gestellt. Und innerhalb dieses Webs konnten wir deshalb ein paar mehr Analysen machen. Und eine davon ist diese hier. Wo wir uns einfach immer nur mal die Top-Publikationen sozusagen genommen haben.
14:23
Aus den Top 100. Und geguckt haben, bzw. aus den Top 100 haben wir geguckt, wann gibt es die meisten Publikationen zu einer Software? In welchem Jahr? Und das ist in diesem Plot hier Jahr Null. Und dann, wenn es die zweitmeisten gibt. Nein, das ist falsch. Die meisten Publikationen in einem Jahr, das ist Jahr Null.
14:42
Und dann ein Jahr danach, zwei Jahre danach, bzw. ein Jahr davor, zwei Jahre davor. Und in den gleichen Jahren haben wir die Links aus dem deutschen Web, die in die Webseite hinein zeigen. Also die zu der Webseite linken. Uns einmal aufsummiert und das in Korrelation gesetzt zu den Referenzen auf die Software.
15:03
Und was man hier ganz nett sieht, ist, dass tatsächlich in Links zu Software-Webseiten die Software an sich ziemlich gut ...approximieren kann man vielleicht sagen, ich weiß es nicht. Also ziemlich gut diese Software repräsentieren. Das heißt, in dem Jahr, in dem viele Publikationen auf eine Software verwenden,
15:22
in dem Jahr wird im Web auch häufig auf diese Software verlinkt. Was schon mal ein ganz netter Anhaltspunkt war, um zu sagen, ja es ist tatsächlich eine Art Ersatz für die eigentliche Software. Und dann haben wir uns die Homepages, nachdem wir die gekreut haben, von diesen Software-Produkten alle Links auf den Software-Webseiten analysiert.
15:42
Das waren hauptsächlich die Links, die irgendwo in der Navigation sind. Also wenn man sich so eine Homepage von der Software vorstellt, hat man irgendwo eine Navigationsleiste und die zeigt eigentlich auf alle weiteren Unterseiten. Und die haben wir nach einfachen Mustern in diesen URLs analysiert und probiert etwas zu klassifizieren. Nämlich zu sagen, das zeigt irgendwo auf GitHub oder das zeigt auf eine URL,
16:05
die eine Dokumentation oder ein Manual beschreibt. Und haben danach das in diese fünf Kategorien einsortiert, nämlich Dokumentation, Publikation, Artifakte, Sourcecode und Updates, um einfach zu sehen, was ist eigentlich von einer Software verfügbar.
16:21
Und hier ist wichtig, dass man da ein bisschen unterscheidet. Sourcecode zum Beispiel bedeutet hier nicht, dass die Software an sich Open Source ist. Es kann einfach nur sein, dass die Software andere Open Source Bibliotheken verwendet. In meisten Fällen ist sie dann selbst auch Open Source, aber auch nicht immer. Jedenfalls ist das eine reine Link-Analyse. Wir haben einfach nur geguckt, verweist die Software irgendwie auf Sourcecode.
16:45
Und ja, hier sind so ein paar interessante Ergebnisse rausgekommen, die ich hier mal mit so kleinen Sprechblasen angezeigt habe. Zum Beispiel ist hier ganz interessant dieser vierte Balken. Nee, der dritte Balken von links ist das. Das sind die Artifakte. Das heißt, zu wie viel der Softwareprodukte, die wir analysiert haben,
17:03
gibt es tatsächlich Downloads in irgendeiner Form. Das kann ja kein Sourcecode sein, den man selbst kompilieren muss, oder es können auch Binary sein. Und hier sieht man, der ist eigentlich immer so an dritter Stelle, während er hier bei den häufig zitierten Softwareprodukten auf einmal hochschießt. Das sieht man noch besser hier drüben in den normalisierten Werten.
17:23
Das heißt, Software, die sehr häufig referenziert wird, bietet tatsächlich auch Downloads an. Jetzt kann man umgekehrt sagen, wenn man eine Software nicht zum Download anbietet, wird sie nicht so häufig referenziert. Vielleicht ist das tatsächlich so. Das muss allerdings noch mal genauer analysiert werden. Außerdem haben wir herausgefunden, dass ungefähr 60% der Software tatsächlich auf Dokumentation verweist, was sehr wertvoll eigentlich ist.
17:43
Denn in den wenigsten Fällen möchte man wahrscheinlich ein Experiment wirklich noch mal nachlaufen lassen, also die Software wirklich sich beschaffen und, so wie es in der Publikation beschrieben ist, noch mal durchführen. In den meisten Fällen möchte man eigentlich nur Hintergrundwissen zu der Publikation haben und die Software besser verstehen.
18:01
Da ist es schon ziemlich gut, dass wir für 60% aus diesen Seiten die Dokumentation rauskriegen können, und das in den meisten Fällen sogar zeitlich. Außerdem gibt es nur zu 30% Sourcecode. Das ist aber gar nicht so ein schlechter Wert, wenn man sich überlegt, dass wir gesamt SWMAT betrachtet haben und das eben über 12.000 Produkte waren
18:20
und viele davon auch proprietär. Das heißt, wir haben uns ja nicht nur auf Open Source Software beschränkt. Und dann 30% davon tatsächlich Open Source ist nicht so ein schlechter Wert. Dann haben wir noch in der zweiten Analyse das Ganze mit dem Internet Archive, mit den Metadaten aus dem Internet Archive in Verbindung gesetzt und geguckt, was ist denn tatsächlich archiviert.
18:40
Und hier haben wir zum Beispiel genommen, also 2013 zeigt an, die Anzahl der Software, die in 2013 die meisten Publikationen hatte, die auf diese Software verweisen, muss man mal sagen. Und dann haben wir geguckt, wie viele von denen sind eigentlich auch im Internet Archive verfügbar. Nicht unbedingt in dem gleichen Jahr, aber allgemein, wie viele von denen werden schon archiviert werden,
19:00
also vom Internet Archive irgendwie in deren Crawls mit in Betracht gezogen. Und da sieht man jetzt hier an diesen orange-rötlichen Balken, dass das ungefähr tatsächlich die Hälfte ist, die schon mit einbezogen wird, was nicht so ein schlechter Wert ist, weil die sich natürlich größtenteils auf die großen Seiten fokussieren
19:22
und es sich bei Software-Webseiten nicht unbedingt um die großen Webseiten handelt, die häufig besucht werden. Was jetzt schade daran ist, ist genau dieser rote Anteil, das sind nämlich die Seiten, die theoretisch archiviert werden sollten, es aber nicht dürfen, weil es eine Robots TXT auf den Servern gibt, die das explizit verbietet.
19:40
Das heißt, in den Fällen hat man eigentlich keine Chance, die zu archivieren, obwohl man es eigentlich könnte, aber die Webseitenbetreiber wollen das tatsächlich nicht. Was schade ist, und hier muss man vielleicht auch noch ein bisschen Arbeit leisten, um das Ganze bekannter zu machen und klarer zu machen, dass die das doch ausdrücklich erlauben sollten. Viele machen das, weil sie bestimmte Seiten nicht von Suchmaschinen gecrawlt haben möchten,
20:01
allerdings könnte man dann wiederum ausschließen, dass es für Webarchive erlaubt wäre, was auch wiederum viele nicht wissen. Also da muss ein bisschen Aufklärung sich ja noch geleistet werden. Und wenn man das dann aber noch wieder abzieht, hat man hier noch ungefähr 40% der Webseiten, die tatsächlich heutzutage schon im Webarchiv des Internet Archives verfügbar sind. Und dann haben wir geguckt, wie viele von denen sind tatsächlich in diesem Jahr verfügbar,
20:22
als es die Top-Publikation gab, und haben dann herausgefunden, dass das noch mal etwas mehr als die Hälfte ist, die es tatsächlich damals schon gab. Das heißt, zu der Top-Publikation von so knapp 30% jeder Software kann ich von damals, egal wann die waren, man sieht ja, das bleibt ungefähr stabil, sehen,
20:41
wie sah diese Software damals aus bzw. wie war sie im Internet dargestellt, repräsentiert durch Dokumentationen usw. Und dann haben wir noch, das ist der dunkelblaue Balken, mal geguckt, wie viel hat sich von diesen Webseiten überhaupt verändert, von damals, als die Top-Publikation war, bis heute. Und da sieht man ja, dass es aus den Seiten, die damals verfügbar waren, nämlich das hellblaue, fast alle.
21:01
Also es ist wirklich ein Verlust, wenn man die Software-Webseiten nicht archiviert und dann geht das Wissen verloren, weil die Dokumentationen werden einfach weiterentwickelt und die alten Dokumentationen sind häufig dann einfach nicht mehr da. Weiterhin haben wir noch geguckt, wenn in dem Jahr Null, in dem eben diese Top-Publikation war, wenn die Webseite in dem Jahr nicht archiviert wurde, wann ist sie denn dann archiviert?
21:23
Und was ganz interessant ist, dass da diese Form zu sehen ist, das heißt, es ist relativ dicht danach dann doch archiviert. Wenn es nicht in dem Jahr ist, dann in den meisten Fällen doch ein Jahr danach oder maximal zwei. Aber das muss natürlich noch verbessert werden. Also zu den Conclusions.
21:40
Erstmal hat sich gezeigt, das Web stellt Software ziemlich gut schon da mit allem, was im Web über eine Software verfügbar ist. Das heißt, man kann es wirklich sozusagen als Stellvertreter betrachten. Und was ziemlich gut zu sehen war, eine sehr große Anzahl der Software-Webseiten bietet tatsächlich Dokumentationen und teilweise auch Artifakte.
22:01
Also die jetzt nicht zu archivieren wäre wirklich einfach schade, weil sie morgen vielleicht nicht mehr da sind oder verändert sind. Und jemand, der heute seine Publikation schreibt mit der Version, die er heute runtergeladen hat, wäre dann nicht mehr nachzuvollziehen einfach. Ja, dann, was ich ja gesagt hatte, ungefähr 50 Prozent sind tatsächlich im Internetarchiv verfügbar. Wir arbeiten gerade an Methoden, um das aktiv zu verbessern.
22:25
Und diese Methoden wollen wir auch speziell auf den mathematischen Softwarebereich hinschneiden erst mal. Und ja, weitere Details zu der Analyse sind hier in dem Paper. Das haben wir letztes Jahr zur TPDL veröffentlicht und war da tatsächlich unter den zehn Toppapern.
22:42
Also es ist anscheinend auch in der Digital Libraries Community Interesse an diesem Gebiet da. Und obwohl das eine der Communities ist, die am meisten so Richtung Webarchive forscht, zeigt sich doch, dass eigentlich vielen noch nicht klar ist, was man mit Webarchiven alles machen kann. Viele forschen in die Richtung, wie kann ich besser auf ein Webarchiv zugreifen,
23:01
wie kann ich ein Webarchiv vielleicht analysieren. Aber das so zu verwenden als Ersatz für irgendwas anderes, was ich in der echten Welt nicht archivieren kann, ist vielleicht auch ein ganz netter Anwendungsfall. Und unser Roadmap jetzt für den weiteren Verlauf des Projektes ist eigentlich so, wir haben einen Prototypen schon entwickelt, der aus SWMAT die Publikationen
23:22
auf die Software-Webseiten im Internetarchiv verweist, die es zu der Zeit schon gab. Man hat ja eben gesehen, wie viele das sind. Und da haben wir einen Prototypen entwickelt, der so aussieht. Wir blenden da im Prinzip hinter den Publikationen so kleine Icons ein, die darstellen, ob es eine archivierte Version gibt oder nicht. Und wenn man auf diese Icons klickt, kommt man auf so ein Portal, was richtig darstellt,
23:43
also hier oben steht dann die Software und welche Software es hier immer handelt, in einer Publikation und man sieht dazu die Webseite zu dem Publikationsdatum. Schade ist natürlich, das Publikationsdatum ist nicht immer das Datum, oder sogar in den seltensten Fällen, das Datum der Software, die in dem Paper tatsächlich benutzt wurde, weil das Paper erst ein Jahr später rauskommt
24:04
oder eine alte Version benutzt wird und weiß es ja einfach nicht. Es ist allerdings das Genaueste, was wir wissen zu dem Zeitpunkt, wenn nichts genaueres in dem Paper angegeben ist. Und deshalb das Beste, was wir derzeit tun können. Und wir arbeiten, wie gesagt, daran, das noch zu verbessern. Und die Arbeit sieht eigentlich so aus, dass wir, wir haben ein Konzept entwickelt,
24:22
das nennt sich Microarchives. Das heißt, wir wollen kleine Webarchive schaffen, die speziell zugeschnitten sind auf ein bestimmtes Produkt, auf eine bestimmte Sammlung von Webseiten. Und so eine Kollektion von Webseiten kann dann zum Beispiel eine Software beschreiben. Das heißt, das wären alle Webseiten, die sich um eine Software drehen, die auf verschiedene Arten und Weisen gesammelt werden könnten.
24:43
Das können sowohl die Softwareautoren machen, als auch die Autoren von Papern, als auch Verlege. Im Prinzip müsste das eine große Sammlung sein, aber wir wollen es nicht auf eine dieser Gruppen beschränken, weil dann hat man das Problem, wenn es der Softwareautor nicht tut, kann ich als Paperautor diese Software nicht vernünftig referenzieren. So muss ich auch diese Möglichkeit haben, so eine Kollektion zu erstellen.
25:01
Und das Ganze soll eigentlich so laufen, dass man eine Möglichkeit hat, Software on demand zu archivieren. Das heißt, ich möchte Software jetzt in meiner Publikation benutzen, da müsste ich auch die Möglichkeit haben, jetzt diesen Stand im Web archivieren zu können. Und das würde dann langsam dazu führen, dass immer mehr Software zu den Zeitpunkten tatsächlich verfügbar ist. Und man kann natürlich weitergehen und das als diese Landing Pages zu betrachten,
25:25
die Wolfram auch in seinem Talk erwähnt hatte, und die mit eindeutigen Identifern zu versehen, auf die man dann wiederum verweisen kann in seinem Paper. Das heißt, man hat dann nicht nur eine Zuordnung über das Publikationsdatum, sondern hat dann tatsächlich auch eine Zuordnung zu einer bestimmten Version,
25:41
selbst wenn man diese Version nicht bezeichnen kann, aber zu einem Stand, der im Web beschrieben ist. Und hinterher kann man dann natürlich noch weitergehen und gucken, was kann man aus diesen Webarchiven wiederum herausholen. Wie kann ich diese Webarchiven meinen? Kann ich vielleicht die ganze Versionshistorie aus einem Webarchiv wieder extrahieren? Kann ich die Autoren finden? Kann ich sozusagen Anfragen an so einem Webarchiv stellen und sagen,
26:01
ich habe diese Komponente einer Software benutzt? Welche Autoren haben an dieser Software mitgearbeitet, um denen auch entsprechend Credit zu geben? Ja, das sind alles so Ideen, an denen gearbeitet wird, aber das Grundlegende ist, wir müssen erstmal diese Webarchive aufbauen. Und dann kann man sehen, was man damit macht, und daran arbeiten wir derzeit.
26:21
Und ja, auf den Seiten findet ihr noch mehr Informationen, oder auf meiner Webseite, da findet ihr die Publikation auch. Dann vielen Dank.