[Logo der Universität] Mathematisches Institut
Publizieren im Internet mit META-Informationen
down Was sind META-Tags?
down Aufbau eines META-Tags
down Welche Suchmaschinen lesen META-Angaben?
down META-Angaben nach dem Dublin Core-Standard
down META-Angaben für das Math-Net
down META-Angaben für ht://Dig
down Anweisungen für Robots
down Welche META-Angaben soll ich verwenden?
down META-Tags als Browser-Anweisung
down Diverse andere META-Informationen
down Externe Informationen zu META-Tags
top top

Was sind META-Tags?

Mit META-Tag ist der HTML-Steuerbefehl <META> gemeint. META-Tags stehen immer zwischen <HEAD> und </HEAD> im Kopf der HTML-Datei und können zwei Funktionen haben:
  • Sie geben automatischen Suchmaschinen (auch Robots oder Spider genannt) Informationen über das HTML-Dokument. (z.B. Autor, Inhalt, ...)
    Diese Tags sind optional, wiederholbar und können in beliebiger Reihenfolge auftreten.
  • Sie können Anweisungen für Browser beinhalten (z.B. automatischer Aufruf einer neuen Seite).
Beispiel einer HTML-Seite mit META-Informationen für Suchmaschinen:

<HTML>
  <HEAD>
  ...
    <META NAME="keywords" CONTENT="Kaffee, Kuchen, Limonade">
    <META NAME="author" CONTENT="Tobias Langhammer">
  ...
  </HEAD>
<BODY>

(siehe auch down Welche META-Angaben soll ich verwenden?)

Wie von HTML gewohnt ist die Groß- und Kleinschreibung der META-Tags und deren Attribute beliebig, sie sollte aber aus Gründen der Konvertierbarkeit einheitlich sein.
top top

Aufbau eines META-Tags

Der HTML 4.0 Standard beschreibt lediglich den grundsätzlichen Aufbau eines META-Tags, die META-Angaben sind aber nicht standardisiert.

Die wichtigsten Attribute sind:
  • NAME="Typ der Information"
  • HTTP-EQUIV="Browser-Anweisung"
  • CONTENT="Information oder Parameter für Browser-Anweisung"

Beispiel für eine Suchmaschinen-Information:

  <META NAME="keywords" CONTENT="Kaffee, Kuchen, Limonade">

Angabe von Schlüsselwörtern, die den Inhalt beschreiben und von Robots ausgelesen werden können.

Im Inhalt des CONTENT-Attributs können auch Zeilenumbrüche vorkommen. Es muß jedoch damit gerechet werden, daß diese bei der Auswertung ignoriert werden.

Beispiel für eine Browser-Anweisung:


  <META HTTP-EQUIV="refresh" CONTENT="5; http://www.uni-bayreuth.de">

Nach 5 Sekunden automatischer Aufruf der neuen Adresse "http://www.uni-bayreuth.de".

top top

Welche Suchmaschinen lesen META-Angaben?

Einen vollständigen Test der meistbenutzten Suchmaschinen im Internet findet man unter http://searchenginewatch.internet.com/webmasters/features.html. Welche von diesen META-Informationen ausliest, zeigt die folgende Tabelle.

Search
Engine

AltaVista

Excite

HotBot

InfoSeek

Lycos

Northern
Light

Web
Crawler

ht://Dig

META Tag
Support

Ja

Nein

Ja

Ja

teilw.

teilw.

Nein

Ja


Einige Suchanbieter haben sich entschlossen, keine META-Tags auszulesen. Der Grund ist der häufige Mißbrauch. So meinen einige, ihre Hompage in den Suchdiensten nach oben pushen zu können, wenn sie ein Mammutaufgebot irgendwo aufgeschnappter META-Angaben verwenden.


Altavista (http://www.altavista.digital.com) und Infoseek (http://www.infoseek.com):

Es werden folgende Tags erkannt:

  <META NAME="description" CONTENT="We specialize in grooming pink poodles.">
  <META NAME="keywords" CONTENT="pet grooming, Palo Alto, dog">


(vgl. http://altavista.digital.com/av/content/addurl_meta.htm und http://www.infoseek.com/Help?pg=meta_tag.html&sv=IS&lk=noframes). Existieren keine META-Tags, werden die ersten Zeilen des Dokuments gelesen. Bei Frames sollten die META-Tags in der Datei sein, die den <FRAMESET>-Tag beinhaltet. Ein <NOFRAMES>-Block kann den Inhalt zusätzlich beschreiben.




Excite (http://www.excite.com) und Lycos (http://www.lycos.com):

Der Robot liest ...
  • ...aus obigen Gründen leider keine META-Tags. Sowohl der Robot von Excite als auch der von Infoseek orientieren sich allein am Inhalt der HTML-Seite.
  • ... bei Framesets den Text zwischen <NOFRAME> und </NOFRAME>.
(vgl. http://www.excite.com/Info/listing.html und http://www.lycos.de/search/addasite.html).
Excite prüft zusätzlich, ob eine Datei namens "robots.txt" vorhanden ist. Diese kann Robots den Zutritt auf Seiten verweigern. Sinnvoll kann das sein, wenn die Site noch im Aufbau ist und noch nicht offiziell abrufbar sein soll. Der Inhalt von "robots.txt" ist im Robots Exclution Standard festgelegt (http://info.webcrawler.com/mak/projects/robots/norobots.html).



HotBot (http://www.hotbot.com)

HotBot unterstützt nur das META-Tag keywords und sucht sonst im wesentlichen im Titel und im Dokument (vgl. http://www.hotbot.com/help/questions/question2.asp).


Fireball (http://www.fireball.de):

Fireball unterstützt die META-Tags
audience, author, copyright, description, expires, keywords, page-topic, page-type, publisher und robots
sowie die analogen Dublin Core-Elemente
DC.Creator, DC.Contributor, DC.Description, DC.Subject und DC.Publisher
(vgl. http://www.fireball.de/meta_daten.html ).


ht://Dig (http://btr0xw.rz.uni-bayreuth.de/htdig/search.html):

ht://Dig läuft als lokale Suchmaschine im Netz der Universität Bayreuth. Siehe auch Abschnitt down META-Angaben für ht://Dig.

top top

META-Angaben nach dem Dublin Core-Standard

Dublin-Core (DC) ist ein zum Teil noch in Entwicklung steckendes Projekt, das META-Informationen strukturieren und standardisieren will (siehe http://purl.org/metadata/dublin_core). Von Interesse ist dies für Veröffentlichungen im Math-Net, da das Math-Net auf das "Subject Classification Scheme" mittels Dublin Core-Elementen aufbaut (siehe auch down META-Angaben für das Math-Net).

Leider lesen zur Zeit noch die wenigsten Suchmaschinen (außer den Suchmaschinen des Math-Net) DC-Informationen aus.

Die META-Angabe nach Dublin Core ist mit den Initialen "DC." gekennzeichnet. Groß- und Kleinschreibung sind in HTML zwar unerheblich, sollten aber in Hinblick auf Konvertierbarkeit eingehalten werden. Jedes Element ist optional und wiederholbar. META-Daten in DC können in beliebiger Reihenfolge stehen.
Die META-Daten zerfallen in drei Gruppen:
  1. Beschreibung des Inhalts:
    Title, Subject, Description, Source, Language, Relation, Coverage
  2. geistiges Eigentum:
    Creator, Publisher, Contributer, Rights
  3. Realisierung:
    Date, Type, Format, Identifier

Beschreibung:

Title:
Name des Dokuments

Creator:
Autor, Ersteller

Subject:
stichpunktartige Beschreibung des Themas und des Inhalts des Dokuments

Description:
Beschreibung in Textform. Sie beinhaltet eine Zusammenfassung bei dokumentarischen Quellen bzw. eine Inhaltsbeschreibung bei visuellen Quellen.

Publisher:
verantwortliche Person bzw. Institution für die Veröffentlichung (z.B. Mathematisches Institut).

Contributor:
Personen, die außer dem Autor noch zu dem Dokument beigetragen haben

Date:
Erstellungs- oder Verfügbarkeitsdatum des Dokuments
Empfohlen ist die Angabe in der vom W3-Konsortium vorgeschlagenen Form (
http://www.w3.org/TR/NOTE-datetime).

  • Jahr:
    YYYY (z.B. 1997)
  • Jahr und Monat:
    YYYY-MM (z.B. 1997-07)
  • Komplettes Datum:
    YYYY-MM-DD (z.B. 1997-07-16)
  • Komplettes Datum mit Stunden und Minuten:
    YYYY-MM-DDThh:mmTZD (z.B. 1997-07-16T19:20+01:00)
  • Komplettes Datum mit Stunden, Minuten und Sekunden:
    YYYY-MM-DDThh:mm:ssTZD (z.B. 1997-07-16T19:20:30+01:00)
  • Komplettes Datum mit Stunden, Minuten, Sekunden und Dezimalbruch einer Sekunde
    YYYY-MM-DDThh:mm:ss.sTZD (z.B. 1997-07-16T19:20:30.45+01:00)
wobei:
YYYY = 4-stelliges Jahr
MM = 2-stelliger Monat (01=Januar, usw.)
DD = 2-stelliger Tag des Monats (01 bis 31)
hh = 2-stellige Stunde (00 bis 23) (am/pm NICHT erlaubt)
mm = 2-stellige Minute (00 bis 59)
ss = 2-stellige Sekunde (00 bis 59)
s = eine oder mehrere Stellen für Dezimalbruch einer Sekunde
TZD = Zeitzone (Z oder +hh:mm or -hh:mm)


Type:
die Kategorie (z.B. Homepage, Arbeitspapier, Artikel...)
Diese sollte Bestandteil einer numerierten Liste sein, die zur Zeit noch von einer DC-Arbeitsgruppe erstellt wird.

Format:
Datentyp
Die Typ-Liste ist ebenfalls noch in Entwicklung. Inwieweit hier die im Internet gebräuchlichen MIME-Types verwendet werden können, ist im Standard noch nicht festgelegt. Ein Vorschlag ist hier die Verwendung des Qualifiers IMT (Internet Media Type).

Beispiel: <META NAME="DC.Format" CONTENT="(SCHEME=IMT) text/html">

MIME-Typ-Bezeichnungen ("Multipurpose Internet Mail Extentions") sind ein Internetstandard zur Kennzeichnung eines Dateityps. Sie bestehen aus den Teilen "Kategorie/Unterkategorie" (siehe RFC 2046).

Hier eine Auswahl möglicher Mime-Typen:
text/html (.htm, .html) HTML text
application/msword (.doc) Microsoft Word document
application/pdf (.pdf) Adobe Portable Document Format
application/postscript (.ai, .eps, .ps) PostScript
application/powerpoint (.ppt) PowerPoint document
application/rtf (.rtf) Rich Type Format document
application/wordperfect5.1 Wordperfect 5.1 document
application/x-compress: (.Z) compressed document
application/x-gzip: (.gz) gzipped document
application/x-latex (.latex) LaTex document
application/x-zip-compressed: (.tar.Z) zipped document
image/gif (.gif) GIF image
image/jpeg (.jpeg, .jpe, .jpg) JPEG image
text/plain (.txt) plain text
text/x-sgml (.sgml, .sgm) sgml text


Identifier:
Zeichenkette zur Identifikation, z.B. eine URL oder eine ISBN-Nummer

Source:
Angaben von sekundären Quellen (kann wieder Date, Creator, ... als Elemente enthalten)

Language:
Kürzel der Sprache des Dokuments (nach RFC 1766), z.B. de, en, es, fr

Relation:
Beziehung zu anderen Dokumenten, z.B. IsVersionOf, IsPartOf, IsFormatOf
Auch für Relation wird von einer DC-Arbeitsgruppe noch eine numerierte Liste aller Möglichkeiten erstellt.

Coverage:
Angaben über geographischen (Regionen, Orte, Koordinaten) bzw. zeitlichen (http://www.w3.org/TR/NOTE-datetime) Gültigkeitsbereich für das Dokument

Rights:
rechtliche Angaben



Beispiel:

<HEAD>
<META NAME="DC.Title" CONTENT="Mathematisches Institut/META-Informationen">
<META NAME="DC.Creator" CONTENT="Robert Baier, Tobias Langhammer">
<META NAME="DC.Subject" CONTENT="HTML, META, Dublin Core">
<META NAME="DC.Description"
CONTENT="Ueberblick über die Verwendung von META-Tags">
<META NAME="DC.Publisher" CONTENT="Mathematisches Institut">
<META NAME="DC.Contributor" CONTENT="Reiner Kaffee">
<META NAME="DC.Date" CONTENT="1998-04-30">
<!-- <META NAME="DC.Type" CONTENT=""> -->
<META NAME="DC.Format" CONTENT="(SCHEME=IMT) text/html"> Ist noch nicht Standard!
<META NAME="DC.Identifier" CONTENT="http://www.math.uni.bayreuth.de/infos/">
<META NAME="DC.Source" CONTENT="HTML-Referenz">
<META NAME="DC.Language" CONTENT="de">
<!-- <META NAME="DC.Relation" CONTENT=""> -->
<META NAME="DC.Coverage" CONTENT="Europe">
<META NAME="DC.Rights" CONTENT="Alle Rechte liegen beim Autor">
... andere Angaben im Dateikopf ...
</HEAD>
top top

META-Angaben für das Math-Net

Um Veröffentlichungen im Math-Net von Indexierungs- und Suchwerkzeugen auslesbar zu machen wird zur Zeit ein META-Standard erarbeitet, der sich streng an Dublin-Core orientiert.

Zur Klassifizierung von WWW-Seiten auf Servern Mathematischer Institutionen dient das Subject Classification Scheme. Für bestimmte Dokumenttypen wurden bereits META-Daten zur genaueren Beschreibung festgelegt. (http://elib.zib.de/math-net/metadata.html)



Beispiel: die Angabe der MSC-Klassifikation:


Primäre MSC-Klassifikation(en) der Arbeit:

  <META NAME="DC.Subject.MscPrimary" CONTENT="(SCHEME=msc91) 35Q40">

Sekundäre MSC-Klassifikation(en) der Arbeit:

  <META NAME="DC.Subject.MscSecondary" CONTENT="(SCHEME=msc91) 35Q15">

Wird als Vereinigung von MscPrimary und MscSecondary gesetzt:

  <META NAME="DC.Subject.Msc" CONTENT="(SCHEME=msc91) 35Q99">

top top

META-Angaben für ht://Dig

ht://Dig ist ein Such-Roboter für kleine Domains und Intranetze. Da ht://Dig für die lokale Suche im WWW der Universität Bayreuth verwendet wird, sind die von ihm ausgelesenen META-Informationen von besonderem Interesse. Eine genaue Beschreibung finden Sie unter http://www.htdig.org/meta.html

Folgende META-Tags werden von ht://Dig erkannt:
  • htdig-keywords
    durch Blanks getrennte Liste von Schlagwörtern
  • htdig-noindex
    Seite wird nicht ausgewertet
  • htdig-email
    Adresse, an die ht://Dig eine Mitteilung schicken soll, wenn z.B. die Seite aufgrund eines "expires"-Verfalldatums veraltet
  • htdig-notification-date
    Datum, an dem die Mitteilung geschickt werden soll
  • htdig-email-subject
    Betreff-Zeile der Mitteilung (optional)
(vgl. http://www.htdig.org/meta.html).

Beispiel:

<HTML>
<HEAD>
<META NAME="htdig-keywords" CONTENT="phone telephone online electronic directory">
<META NAME="htdig-email" CONTENT="pat.user@nowhere.net">
<TITLE>Some document title</TITLE>
</HEAD>
<BODY>
Body of document
</BODY>
</HTML>
top top

Anweisungen für Robots:

Anweisungen als META-Tags:

Seite soll nicht ausgewertet werden:

  <META NAME="robots" CONTENT="noindex">

Seite soll ausgewertet werden:

  <META NAME="robots" CONTENT="index">

Links der Seite sollen nicht weiter verfolgt werden:

  <META NAME="robots" CONTENT="nofollow">

Links der Seite sollen verfolgt werden:

  <META NAME="robots" CONTENT="follow">


Anweisungen in robots.txt:

(siehe auch http://info.webcrawler.com/mak/projects/robots/norobots.html)

Durch Anweisungen in der Datei "robots.txt" kann das Auslesen von Verzeichnissen und Dateien durch Robots verhindert werden.


Es gibt zwei Anweisungen:

Beschränken für bestimmte Robots:

User-Agent: Robot-Name     (wird als Robot-Name "*" angegeben, gilt die Beschränkung für alle Robots)


Angabe einer Datei bzw. eines Verzeichnisses (mit allen Unterverzeichnissen), das gesperrt werden soll:

Disallow: Verzeichnis[Datei]


Kommentar:

# Kommentar
top top

Welche META-Angaben soll ich verwenden?

Die nun folgenden META-Daten entsprechen keinem Standard, werden aber im Internet sehr häufig verwendet.

Beschreibung, Author, Stichwörter:



Hier einige Beispiele:
<HEAD>
<META NAME="description" CONTENT="Dieser Beschreibungstext soll einem
Anwender im Suchdienst bei Auffinden dieser Datei erscheinen">
<META NAME="author" CONTENT="Ihr Name">
<META NAME="keywords" CONTENT="HTML, META-Informationen,
Suchprogramme, HTTP-Protokoll">
<META NAME="date" CONTENT="1998-04-30T08:49:37+00:00">
... andere Angaben im Dateikopf ...
</HEAD>
Bemerkung: Umlaute, Sonderzeichen,... sollten maskiert werden. (z.B. &quot; für ")

Sprachen:

mit dem Attribut LANG kann man bei mehreren keywords-Angaben die Sprache unterscheiden.

  <META NAME="keywords" LANG="de" CONTENT="Ferien, Griechenland, Sonnenschein">

Verwendet werden die Sprachkürzel nach RFC 1766.

z.B.:
de deutsch
en englisch
en-us US-Englisch
fr französisch

top top

META-Tags als Browser-Anweisung

MIME-Type Angabe:

MIME-Typ-Bezeichnungen sind ein Internetstandard zur Kennzeichnung eines Dateityps. Sie bestehen aus den Teilen "Kategorie/Unterkategorie".
Wie man explizit einen MIME-Type angeben kann, sieht man am folgenden Beispiel.
Wichtig ist die Angabe des Zeichensatzes hinter "text/html", wenn im Dokument die Umlaute nicht maskiert sind.
(siehe auch down META-Angaben zu MIME-Typen nach dem Dublin Core-Standard bzw. RFC 2046)

Beispiel:

<HEAD>
<META HTTP-EQUIV="content-type" CONTENT="text/html; charset=iso-8859-1">

<META HTTP-EQUIV="Content-Script-Type" CONTENT="text/javascript">
<META HTTP-EQUIV="Content-Style-Type" CONTENT="text/css">
... andere Angaben im Dateikopf ...
</HEAD>

Datei von Originaladresse laden

Damit eine Datei nicht aus dem Browser-Cache, sondern von der Original-URL geladen wird, kann folgender META-Tag verwendet werden:
<HEAD>
<META HTTP-EQUIV="expires" CONTENT="0">
... andere Angaben im Dateikopf ...
</HEAD>
Um einen definitiven Zeitpunkt anzugeben, an dem die Seite zu aktualisieren ist, kann man die Zeit gemäß dem folgenden Beispiel angeben:

  CONTENT="Sat, 14 Dec 1998 12:00:00 GMT"


Automatisches Weiterleiten zu einer anderen Adresse (forwarding)

Im folgenden Beispiel gibt die 5 die Anzahl der Sekunden an, die bis zum Weiterleiten vergehen soll.
<HEAD>
<META HTTP-EQUIV="refresh" CONTENT="5; URL=http://www.teamone.de/selfhtml/">
... andere Angaben im Dateikopf ...
</HEAD>

META-Angaben in einer Profil-Datei

Beispiel:
<HEAD PROFILE="http://meine.org/profil.rdf">
<META NAME="Kategorie" CONTENT="A.1.B">
</HEAD>
In der Profil-Datei "profil.rdf" können weitere META-Informationen abgelegt werden. Noch gibt es keinen Standard, wie das aussehen soll.

top top

Diverse andere META-Informationen

Sprache des Dateiinhalts:

Beispiel:

  <META HTTP-EQUIV="content-language" CONTENT="de">


Angabe des HTML-Editors

Beispiel:

<META NAME="generator" CONTENT="MS Frontpage 2.0">
<META NAME="generator" CONTENT="Netscape Composer">

Anweisung an den Netscape-Browser: nicht den normalen lokalen Browser-Cache benutzen, sondern den angegebenen externen Cache

Beispiel:
<META HTTP-EQUIV="ext-cache" CONTENT="name=/some/path/index.db; instructions=user instructions">

Cookie setzen (Netscape)

Beispiel:
<META HTTP-EQUIV="set-cookie" CONTENT="cookievalue=xxx;expires=friday, 31-dec-99 23:59:59 gmt; path=/;">

Anweisung an den Proxy-Agenten: Datei bitte nicht auf Proxy-Server speichern!

Beispiel:
<META HTTP-EQUIV="pragma" CONTENT="no-cache">

An Such-Robot: Bitte nach 20 Tagen erneut vorbeikommen und Datei neu auslesen!

Beispiel:
<META NAME="revisit-after" CONTENT="20 days">
top top

Externe Informationen zu META-Tags

Hier finden Sie eine Übersicht der wichtigsten Seiten zum Thema META-Informationen im Internet

Suchmaschinen

META-Tag Anleitungen

Dublin Core

Math-Net

Request For Comments (RFC)

Sonstiges

top top


© [email-adress]
[Seitenzähler] zuletzt modifiziert: 10.07.2006