Daten - Was sind Daten
This is a modal window.
The media could not be loaded, either because the server or network failed or because the format is not supported.
Formal Metadata
Title |
| |
Title of Series | ||
Number of Parts | 79 | |
Author | 0009-0005-7056-1932 (ORCID) | |
License | CC Attribution 4.0 International: You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal purpose as long as the work is attributed to the author in the manner specified by the author or licensor. | |
Identifiers | 10.5446/65537 (DOI) | |
Publisher | ||
Release Date | ||
Language | ||
Production Year | 2023 | |
Production Place | Heinrich-Heine-Universität Düsseldorf |
Content Metadata
Subject Area | ||
Genre | ||
Abstract |
| |
Keywords |
12
17
18
34
36
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
56
58
59
61
63
66
67
68
69
71
74
75
78
79
00:00
JSONXMLComputer animation
00:11
Smartphone
00:20
Computer scienceComputer animation
00:25
NumberKategoriale Daten
00:36
Computer animation
00:49
Physical quantityCodeFaculty (division)Kategoriale DatenASCIIInformationZahl
01:46
STXBridging (networking)ZahlZifferTableComputer animation
02:14
Physical quantitySpecial markUnicodeCode
02:41
Escape characterSTXString (computer science)Table
02:56
Route of administrationCW-KomplexAbbildung <Physik>Computer animation
03:07
Table (information)Data typeStrukturierte DatenLecture/Conference
03:32
MathematicsNatural numberString (computer science)Category of beingTable (information)Computer animation
04:01
PixelZahlPhysical quantityNumberMeeting/Interview
05:03
PixelDrawing
05:08
PixelEckeLecture/ConferenceComputer animation
05:31
Physical quantityPixel
06:01
Diagram
06:19
Kategoriale DatenJSON
06:38
Strukturierte Daten
06:52
ASCIIComputer fileComputer animation
07:05
XMLComputer animation
Transcript: German(auto-generated)
00:06
Daten begegnen uns überall im Leben. Jeden Tag werden Wetterdaten erhoben, unsere Smartphones verwenden mobile Daten und laut Datenschutzgrundverordnung sollen unsere persönlichen Daten geschützt werden. Doch was sind Daten überhaupt?
00:21
In der Informatik handelt es sich bei Daten um Informationseinheiten. Daten können dabei in metrische und kategoriale Daten unterschieden werden. Als metrische oder auch numerische Daten bezeichnen wir vereinfacht gesagt Zahlen. Ob natürliche Zahlen, zum Beispiel 1, 2, 3, 4,
00:40
ganze Zahlen, minus 2, minus 1, 0, 1 oder Kommazahlen, 1, 2, 3, 4, 5, 6, 7. Im Gegensatz zu metrischen Daten kann man mit kategorialen Daten nicht rechnen. Kategoriale Daten sind entweder eine Kategorie, also zum Beispiel die Fakultäten der HHU,
01:01
oder eine Skala, zum Beispiel eine Bewertung von 1,0 bis 5,0 einer Klausur. Bei dieser Skala ist nur die Reihenfolge der Werte wichtig, nicht die Werte selber. Es ist also vollkommen egal, dass es in der Notenskala einen Sprung von 4,0 zu 5,0 gibt. Auch die Zeichen eines Textes sind kategoriale Daten.
01:22
Im Computer wird ein Zeichen in der Grundkodierung ASCII als Zahl zwischen 0 und 127 gespeichert. ASCII steht für American Standard Code for Information Interchange. Eine Kodierung ist hier eine Tabelle, die jedem Zeichen einen Zahlenwert zuordnet. Der zugeteilte Zahlenwert ist im Grunde bedeutungslos
01:42
und muss nur konsistent für dasselbe Zeichen verwendet werden. Die ASCII-Kodierung enthält die lateinischen Groß- und Kleinbuchstaben, Ziffern und Satzzeichen. Dabei wird ein kleines A durch die Zahl 97 und ein großes A durch die Zahl 65 repräsentiert. Die Ziffer 7 wird mit einer 55 dargestellt,
02:03
und ein Punkt hat die Zahl 46. Die ASCII-Tabelle enthält aber auch nicht darstellbare Zeichen, genannt Steuerungszeichen, wie das Tabulator-Zeichen mit der 9. Die Sonderzeichen einiger Sprachen, wie zum Beispiel die deutschen Umlaute, sind nicht enthalten.
02:20
Heutzutage wird die erweiterte Kodierung Unicode verbenutzt, die zwar mehr Speicherplatzprozeichen verbraucht, aber dafür auch sämtliche Sonderzeichen aller Sprachen und Emojis darstellen kann. Inzwischen enthält Unicode etwa 145.000 Zeichen. Die ASCII-Tabelle ist dabei integriert, so dass sich der Zahlenwert für zum Beispiel ein kleines A nicht geändert hat.
02:44
Durch eine Aneinanderreihung einzelner Zeichen entstehen sogenannte Strings. Da die Zeichen eines Strings auch Lehr- und Satzzeichen beinhalten, sind Strings daher nicht nur einzelne Wörter wie KI, sondern auch ganze Texte wie Herzlich willkommen in der Vorlesung KI für alle. Schön, dass ihr da seid.
03:02
In den späteren Anwendungen wollen wir aber auch komplexere Daten abbilden können. Wir unterscheiden zwischen strukturierten und unstrukturierten Daten. Strukturierte Daten sind in einem festgelegten Format erstellt. Ein Beispiel dafür sind Daten in Tabellen. Tabellen bestehen aus Zeilen und Spalten,
03:21
bei denen jede Zeile für ein Datenobjekt steht und jede Spalte für Eigenschaften dieses Objekts, sogenannte Features. Features können dabei verschiedene Datentypen haben. In dieser Tabelle beinhaltet jede Zeile die Daten eines Studierenden. In der ersten Zeile zum Beispiel von Anna Fischer mit Matrikelnummer 1234567 und Studienfachphilosophie.
03:45
Hier werden Matrikelnummer als natürliche Zahlen dargestellt, Namen als Strings und das Feature Studienfach beinhaltet Kategorien. Dieses Schema ist für alle Studierenden gleich. Das heißt, der erste Wert ist immer eine Matrikelnummer usw.
04:01
Unter unstrukturierten Daten verstehen wir Daten, die keine normalisierte feste Struktur aufweisen. Darunter fallen Bilder, Texte und ähnliche Daten. Damit diese verarbeitet werden können, muss ihnen erst noch eine Art Struktur gegeben werden. Bei Bildern ist dies zum Beispiel durch Raster möglich. Dabei wird ein Bild in Zeilen und Spalten aufgeteilt.
04:24
Jedes dadurch entstandene Kästchen wird als Pixel bezeichnet und je nach Anwendung durch einen oder mehrere Zahlenwerte repräsentiert. Bei sogenannten Grayscale-Bildern, also Graustufenbildern, wird ein Pixel durch eine Zahl zwischen 0 und 255 dargestellt,
04:41
die die Intensität des Lichts angibt. Dabei steht 0 für kein Licht, also schwarz, und 255 für nur Licht, also weiß. Die Zahlen dazwischen sind Abstufungen von grau. Da es insgesamt 256 mögliche Pixelwerte gibt, können auch nur 256 verschiedene Graustufen angezeigt werden.
05:04
Das ursprüngliche Schmetterlingsbild besitzt über 300.000 Pixel. Wenn wir jetzt in der Kopfgegend des Schmetterlings in das Bild hereinzoomen, erhalten wir diesen Teilabschnitt mit 5 Zeilen und 5 Spalten und damit insgesamt 25 Pixeln, bei denen man klar das Raster erkennen kann.
05:22
Zum Beispiel hat das Pixel in der linken oberen Ecke den Wert 250, das daneben den Wert 176 und so weiter. Um Farbbilder darzustellen, reichen Lichtintensitäten nicht aus. Bei RGB-Bildern wird jedes Pixel durch 3 Zahlenwerte zwischen 0 und 255 dargestellt.
05:42
Dabei steht der erste Wert für Rot, R, der zweite für Grün, G, und der dritte für Blau, B. Diese 3 Farben bezeichnen wir auch als Grundfarben. Je niedriger der Zahlenwert für eine Grundfarbe, desto weniger Anteile hat diese an der resultierenden Farbe.
06:01
Zum Beispiel hat reines Blau den Wert 00255, reines Orange den Wert 255 128 0, schwarz den Wert 00 und weiß den Wert 255 255 255. Da jede Kombination von Rot, Grün und Blau Werten eine neue Farbe angibt,
06:24
können insgesamt 256 x 256 x 256 verschiedene Farben angezeigt werden, also mehr als 16 Millionen. In diesem Video habt ihr gelernt, was wir unter metrischen und kategorialen Daten verstehen,
06:42
was wir unter unstrukturierten und strukturierten Daten verstehen, wie Textkodierung funktioniert und wie Bilder im Computer dargestellt werden können.