We're sorry but this page doesn't work properly without JavaScript enabled. Please enable it to continue.
Feedback

Daten - Was sind Daten

00:00

Formal Metadata

Title
Daten - Was sind Daten
Title of Series
Number of Parts
79
Author
License
CC Attribution 4.0 International:
You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal purpose as long as the work is attributed to the author in the manner specified by the author or licensor.
Identifiers
Publisher
Release Date
Language
Production Year2023
Production PlaceHeinrich-Heine-Universität Düsseldorf

Content Metadata

Subject Area
Genre
Abstract
In diesem Video lernst du, was Daten überhaupt sind und in welche Gruppen du sie einteilen kannst. Du lernst numerische und kategoriale Daten sowie strukturierte und unstrukturierte Daten kennen. Außerdem siehst du, wie Buchstaben und Bilder numerisch repräsentiert werden können Lernziele: Du sortierst Daten anhand von Beispielen in metrische und kategoriale Daten ein Du sortierst Daten anhand von Beispielen in strukturierte und unstrukturierte Daten ein Du erklärst, wie Bilder im Computer dargestellt werden Du wandelst ASCII-kodierten Text in Zeichen um
Keywords
JSONXMLComputer animation
Smartphone
Computer scienceComputer animation
NumberKategoriale Daten
Computer animation
Physical quantityCodeFaculty (division)Kategoriale DatenASCIIInformationZahl
STXBridging (networking)ZahlZifferTableComputer animation
Physical quantitySpecial markUnicodeCode
Escape characterSTXString (computer science)Table
Route of administrationCW-KomplexAbbildung <Physik>Computer animation
Table (information)Data typeStrukturierte DatenLecture/Conference
MathematicsNatural numberString (computer science)Category of beingTable (information)Computer animation
PixelZahlPhysical quantityNumberMeeting/Interview
PixelDrawing
PixelEckeLecture/ConferenceComputer animation
Physical quantityPixel
Diagram
Kategoriale DatenJSON
Strukturierte Daten
ASCIIComputer fileComputer animation
XMLComputer animation
Transcript: German(auto-generated)
Daten begegnen uns überall im Leben. Jeden Tag werden Wetterdaten erhoben, unsere Smartphones verwenden mobile Daten und laut Datenschutzgrundverordnung sollen unsere persönlichen Daten geschützt werden. Doch was sind Daten überhaupt?
In der Informatik handelt es sich bei Daten um Informationseinheiten. Daten können dabei in metrische und kategoriale Daten unterschieden werden. Als metrische oder auch numerische Daten bezeichnen wir vereinfacht gesagt Zahlen. Ob natürliche Zahlen, zum Beispiel 1, 2, 3, 4,
ganze Zahlen, minus 2, minus 1, 0, 1 oder Kommazahlen, 1, 2, 3, 4, 5, 6, 7. Im Gegensatz zu metrischen Daten kann man mit kategorialen Daten nicht rechnen. Kategoriale Daten sind entweder eine Kategorie, also zum Beispiel die Fakultäten der HHU,
oder eine Skala, zum Beispiel eine Bewertung von 1,0 bis 5,0 einer Klausur. Bei dieser Skala ist nur die Reihenfolge der Werte wichtig, nicht die Werte selber. Es ist also vollkommen egal, dass es in der Notenskala einen Sprung von 4,0 zu 5,0 gibt. Auch die Zeichen eines Textes sind kategoriale Daten.
Im Computer wird ein Zeichen in der Grundkodierung ASCII als Zahl zwischen 0 und 127 gespeichert. ASCII steht für American Standard Code for Information Interchange. Eine Kodierung ist hier eine Tabelle, die jedem Zeichen einen Zahlenwert zuordnet. Der zugeteilte Zahlenwert ist im Grunde bedeutungslos
und muss nur konsistent für dasselbe Zeichen verwendet werden. Die ASCII-Kodierung enthält die lateinischen Groß- und Kleinbuchstaben, Ziffern und Satzzeichen. Dabei wird ein kleines A durch die Zahl 97 und ein großes A durch die Zahl 65 repräsentiert. Die Ziffer 7 wird mit einer 55 dargestellt,
und ein Punkt hat die Zahl 46. Die ASCII-Tabelle enthält aber auch nicht darstellbare Zeichen, genannt Steuerungszeichen, wie das Tabulator-Zeichen mit der 9. Die Sonderzeichen einiger Sprachen, wie zum Beispiel die deutschen Umlaute, sind nicht enthalten.
Heutzutage wird die erweiterte Kodierung Unicode verbenutzt, die zwar mehr Speicherplatzprozeichen verbraucht, aber dafür auch sämtliche Sonderzeichen aller Sprachen und Emojis darstellen kann. Inzwischen enthält Unicode etwa 145.000 Zeichen. Die ASCII-Tabelle ist dabei integriert, so dass sich der Zahlenwert für zum Beispiel ein kleines A nicht geändert hat.
Durch eine Aneinanderreihung einzelner Zeichen entstehen sogenannte Strings. Da die Zeichen eines Strings auch Lehr- und Satzzeichen beinhalten, sind Strings daher nicht nur einzelne Wörter wie KI, sondern auch ganze Texte wie Herzlich willkommen in der Vorlesung KI für alle. Schön, dass ihr da seid.
In den späteren Anwendungen wollen wir aber auch komplexere Daten abbilden können. Wir unterscheiden zwischen strukturierten und unstrukturierten Daten. Strukturierte Daten sind in einem festgelegten Format erstellt. Ein Beispiel dafür sind Daten in Tabellen. Tabellen bestehen aus Zeilen und Spalten,
bei denen jede Zeile für ein Datenobjekt steht und jede Spalte für Eigenschaften dieses Objekts, sogenannte Features. Features können dabei verschiedene Datentypen haben. In dieser Tabelle beinhaltet jede Zeile die Daten eines Studierenden. In der ersten Zeile zum Beispiel von Anna Fischer mit Matrikelnummer 1234567 und Studienfachphilosophie.
Hier werden Matrikelnummer als natürliche Zahlen dargestellt, Namen als Strings und das Feature Studienfach beinhaltet Kategorien. Dieses Schema ist für alle Studierenden gleich. Das heißt, der erste Wert ist immer eine Matrikelnummer usw.
Unter unstrukturierten Daten verstehen wir Daten, die keine normalisierte feste Struktur aufweisen. Darunter fallen Bilder, Texte und ähnliche Daten. Damit diese verarbeitet werden können, muss ihnen erst noch eine Art Struktur gegeben werden. Bei Bildern ist dies zum Beispiel durch Raster möglich. Dabei wird ein Bild in Zeilen und Spalten aufgeteilt.
Jedes dadurch entstandene Kästchen wird als Pixel bezeichnet und je nach Anwendung durch einen oder mehrere Zahlenwerte repräsentiert. Bei sogenannten Grayscale-Bildern, also Graustufenbildern, wird ein Pixel durch eine Zahl zwischen 0 und 255 dargestellt,
die die Intensität des Lichts angibt. Dabei steht 0 für kein Licht, also schwarz, und 255 für nur Licht, also weiß. Die Zahlen dazwischen sind Abstufungen von grau. Da es insgesamt 256 mögliche Pixelwerte gibt, können auch nur 256 verschiedene Graustufen angezeigt werden.
Das ursprüngliche Schmetterlingsbild besitzt über 300.000 Pixel. Wenn wir jetzt in der Kopfgegend des Schmetterlings in das Bild hereinzoomen, erhalten wir diesen Teilabschnitt mit 5 Zeilen und 5 Spalten und damit insgesamt 25 Pixeln, bei denen man klar das Raster erkennen kann.
Zum Beispiel hat das Pixel in der linken oberen Ecke den Wert 250, das daneben den Wert 176 und so weiter. Um Farbbilder darzustellen, reichen Lichtintensitäten nicht aus. Bei RGB-Bildern wird jedes Pixel durch 3 Zahlenwerte zwischen 0 und 255 dargestellt.
Dabei steht der erste Wert für Rot, R, der zweite für Grün, G, und der dritte für Blau, B. Diese 3 Farben bezeichnen wir auch als Grundfarben. Je niedriger der Zahlenwert für eine Grundfarbe, desto weniger Anteile hat diese an der resultierenden Farbe.
Zum Beispiel hat reines Blau den Wert 00255, reines Orange den Wert 255 128 0, schwarz den Wert 00 und weiß den Wert 255 255 255. Da jede Kombination von Rot, Grün und Blau Werten eine neue Farbe angibt,
können insgesamt 256 x 256 x 256 verschiedene Farben angezeigt werden, also mehr als 16 Millionen. In diesem Video habt ihr gelernt, was wir unter metrischen und kategorialen Daten verstehen,
was wir unter unstrukturierten und strukturierten Daten verstehen, wie Textkodierung funktioniert und wie Bilder im Computer dargestellt werden können.