Wissenschaft
Menschen Wissenschaft Politik Mystery Kriminalfälle Spiritualität Verschwörungen Technologie Ufologie Natur Umfragen Unterhaltung
weitere Rubriken
PhilosophieTräumeOrteEsoterikLiteraturAstronomieHelpdeskGruppenGamingFilmeMusikClashVerbesserungenAllmysteryEnglish
Diskussions-Übersichten
BesuchtTeilgenommenAlleNeueGeschlossenLesenswertSchlüsselwörter
Schiebe oft benutzte Tabs in die Navigationsleiste (zurücksetzen).

Formel erklären

38 Beiträge ▪ Schlüsselwörter: Formel, Wortschatz, Hintze ▪ Abonnieren: Feed E-Mail

Formel erklären

10.01.2015 um 02:23
Zitat von NoumenonNoumenon schrieb:Hm... Ich klicke auf deinen Link und sehe...
Wieder was gelernt:

Google Books erlaubt anderen Leuten andere Seiten.


1x zitiertmelden

Formel erklären

10.01.2015 um 02:42
@perttivalkonen
Zitat von perttivalkonenperttivalkonen schrieb:Google Books erlaubt anderen Leuten andere Seiten.
Ja, zum Teil...


melden

Formel erklären

01.11.2022 um 21:24
Zwar alles andere als aktuell hier, aber vielleicht interessiert es ja mal irgendwen irgendwann wieder :D



ErklrungOriginal anzeigen (0,4 MB)

StatOriginal anzeigen (0,4 MB)


melden

Formel erklären

03.11.2022 um 11:58
@Lonny

Herzlichen Dank! Ja, mich interressiert das noch immer. Hast Du das irgendwo ausm Net? Da würd mich die Quelle / ein Link freuen. Der Buchtitel steht ja da, is auch hilfreich.

Danke nochmal.


melden

Formel erklären

03.11.2022 um 13:00
Das freut mich, dass es Dich noch interessiert. Ich habe es auf der Seite vom De Gruyter Verlag heruntergeladen. Da kann man sich die PDF entweder kaufen oder mit einem Uniaccount einwählen und herunterladen.

https://www.degruyter.com/document/doi/10.1524/zaes.1975.102.jg.100/pdf


melden

Formel erklären

05.11.2022 um 23:21
@perttivalkonen
Verzeih´mir die blöde Frage, aber wofür genau braucht man denn das?


melden

Formel erklären

06.11.2022 um 01:14
@skagerak

Von Shakespeare sind ne Menge Stücke überliefert. Bei einigen gibt es allerdings Zweifel, ob sie wirklich von ihm stammen. Wie will man das überprüfen? Eine Möglichkeit besteht darin, den Wortschatz eines fraglichen Werkes mit dem der anderen, sicheren Werke zu vergleichen. Zum einen kann man die Wortwahl prüfen, also wenn es für einen Ausdruck Synonyme gibt, welche davon verwendete Shakespeare bevorzugt, welche selten oder gar nicht. Eine andere Möglichkeit ist es, die Größe, den Umfang des aktiven Wortschatzes zu bestimmen. Nun verwendet ja niemand in einem Text alle Vokabeln, die er kennt und aktiv verwendet. Aber dennoch sollte sich ein hoher Wortschatz von einem niedrigen Wortschatz dadurch unterscheiden lassen, daß in einem sagenwirmal 1000 Wörter langem Text bei hohem Wortschatz mehr verschiedene Vokabeln verwendet werden als in einem gleich langen Text, verfaßt von einem Menschen mit niedrigerem aktivem Wortschatz.

Nun sind aber miteinander abzugleichende Texte oft nicht gleich lang. Kann man die trotzdem miteinander vergleichen?

Am einfachsten wäre es ja, wenn bei Wortschatzumfang X in einem Text von 1000 Wörtern 300 verschiedene Vokabeln vorkommen, daß dann bei nem Text von 2000 Wörtern eben 600 unterschiedliche Vokabeln begegnen. Aber so linear funktioniert es nicht. Je länger ein Text wird, desto weniger neue Vokabeln kommen hinzu.

Deswegen haben verschiedene Forscher versucht, eine "Wortschatzformel" zu kreieren, mit der man bei unterschiedlich langen Texten, aber gleichem Wortschatzumfang stets ein und den selben Wert errechnen kann, bei unterschiedlich hohem Wortschatz aber auf unterschiedliche Werte.

Vor Jahren habe ich mal für mich selbst versucht, so eine Formel zu entwickeln, hab schließlich auch eine gefunden, mit der ich leidlich zufrieden war. Erst danach habe ich in Erfahrung gebracht, daß andere ebenfalls eine solche Formel gesucht und entwickelt haben. In der Forschung werden die auch angewandt, in recht verschiedenen Bereichen, etwa bei altägyptischen Texten. Ich selber habe über den Wortschatz neutestamentlicher Schriften, vor allem der Paulusbriefe gearbeitet.

Da gibt es zum Beispiel unter den Briefen des NT dreizehn Stück, die vorgeben, von Paulus zu sein. Schon seit langem, ein paar Jahrhunderte, wird dies bezweifelt, und zwar so, daß einige von Paulus stammen, einige jedoch nicht. Zumeist wird dies an inhaltlichen Punkten festgemacht. Allgemein gelten
Römer
1.&2. Korinther
Galater
Philipper
1. Thessalonicher
Philemon

als echt (Homologumena), hingegen
Epheser
Kolosser
2. Thessalonicher

sowie die sogenannten Pastoralbriefe
1.&2. Timotheus
Titus

für nicht von Paulus stammend (Antilegomena).

Hier reicht bereits der simple Abgleich von Textlänge und Vokabelmenge jedes Briefes, um zu erkennen, daß zwar Epheser, Kolosser und 2.Thessalonicher zu den Homologumena passen, die drei Pastoralbriefe hingegen nicht. Diese zeigen einen deutlich höheren Wortschatz, der zum Wortschatz der übrigen Briefe des NT
1.&2. Petrus
Jakobus
Judas
Hebräer
passen (außer den Johannesbriefen, die einen weit niedrigeren Wortschatz aufweisen). Hier mal eine von mir erstellte Grafik, waagerecht die Textlänge, senkrecht die Vokabelzahl:

WortschatzBriefeMinusJoOriginal anzeigen (0,4 MB)

Man sieht förmlich zwei Bogenlinien, um die herum sich die Briefe in zwei Gruppen konzentrieren. Und man sieht an der Bogenform auch schon, daß mit zunehmender Textlänge die Zahl neu hinzukommender Vokabeln immer langsamer ansteigt.

Und man kann sehen, die Timotheusbriefe sowie der Titusbrief stammen nicht von Paulus, ihr Wortschatz ist zu hoch. Ebenso kann man übrigens sehen, daß die Petrusbriefe sowie die von Jakobus und Judas nicht von galiläischen Fischern verfaßt wurden, deren Bildung hinter der eines Paulus zurückgestanden hat und also ebenfalls nicht aus der Hand von Petrus, Jakobus und Judas stammen.

Ach ja, mit so einer Wortschatzanalyse konnte ein dem Shakespeare zugeschriebenes Werk als unshakespearisch aufgezeigt werden, ein anderes, ihm nicht zugesprochenes hingegen als shakespearisch.


1x verlinktmelden

Formel erklären

06.11.2022 um 02:01
Wow, danke für diesen interessanten Einblick. Bei der Grafik musste ich jetzt doch öfter mal hin und hergucken und mir gedanklich das, was als unecht und echt gilt, merken. Interessant finde ich, dass Galater und Epheser recht nah beieinanderliegen, obwohl du schreibst, dass eine gilt als von Paulus stammend und das andere nicht. Das würde man ja so jetzt nicht aus der Grafik erkennen können, aber mit diesen Wortschatzindices dann ja vermutlich schon.

Vielleicht sollten wir noch eben mal den Hintze-Index für alle Texte bestimmen und plotten :-)


melden

Formel erklären

06.11.2022 um 02:06
Insgesamt haben drei verschiedene Forscher eine je eigene Wortschatzformel entwickelt. Wie genau diese sind - und wie genau die meinige - habe ich mal zu überprüfen versucht, indem ich sie mit Grimms Hänsel und Gretel abgeglichen habe. Dazu habe ich das Märchen komplett ausgezählt, und zwar fortlaufend. Nach meiner Zählung kommen auf 2600 Wörter 606 verschiedene Vokabeln. Auf halber Höhe, also nach 1300 Wörtern, waren es erst 354 Vokabeln. Letztlich habe ich für jede Textlänge, also von 1 bis 2600 Wörter, die jeweilige erreichte Vokabellänge ermittelt. Das ergab folgende Grafik:

Wortschatzformel-HnselGretel-001

OK, der Bogen ist nicht so hübsch gleichmäßig. Ungefähr in der Mitte ist er abgeflacht, da kamen weniger neue Vokabeln hinzu. Kurz darauf kamen vermehrt neue Vokabeln hinzu, und dann gehts wieder bogenförmig weiter. Da, wo es flacher wid, da geht es gerade darum, daß Hänsel und Gretel zum zweiten Male im Wald ausgesetzt werden sollen, diesmal mit Erfolg. Klar, daß hier zumeist die selben Vokabeln verwendet werden wie bei der Erzählung des ersten Versuchs. Und kurz danach kommt eine neue Szene mit vielen neuen Vokabeln: sie finden das Hexenhaus.

Um einen schöneren Bogen zu bekommen habe ich das Märchen "vervielfacht". Ich habe einfach ein Stück vorne abgeschnitten und hinten rangehängt, dann erneut ausgezählt. Dann wieder vorne was ab und hinten ran, wieder und wieder. Dann hab ich alle Ergebnisse zusammengezählt und durch die Anzahl der "Versionen" geteilt. So erhielt ich einen Mittelwert des Vokabelanstiegs beim H&G-Wortschatz, und der sieht so aus:

Wortschatzformel-HnselGretel-002

Nn habe ich mit den Formeln der drei Forscher sowie mit meiner den Wert berechnet, den der Wortschatz von Hänsel und Gretel ergibt. Dann habe ich für alle anderen Textlängen (1...2599) mithilfe dieses Wertes berechnet, wie viele Vokabeln ein entsprechend kürzerer Text gleichen Wortschatzes haben müßte. Auch dies ergab Bogenlinien. Wenn die Formel gut ist, muß diese Bogenlinie mit der Bogenlinie der tatsächlich ausgezählten Vokabeln pro Textlänge übereinstimmen. Das Ergebnis sieht nun so aus:

Wortschatzformel-HnselGretel-004Original anzeigen (0,2 MB)

Also die Formel von Herdan und Guiraud weichen ja mal grottenschlecht vom tatsächlichen Befund ab. Hintzes und meine Formel kommen mit ihren Vorhersagen weit näher an den Befund heran. Und ja, klar: Hinzes sogar deutlich besser als meines.

Dafür aber ist Hintzes Formel weit komplizierter aufgebaut als die von Guiraud, Herdan und mir, und während letztgenannte nur die Zahl der Wörter (Token) und Vokabeln (Types) benötigen, muß für Hintzes Formel auch die Zahl der Hapax Legomena erfaßt werden, also jener Vokabeln, die nur ein einziges Mal in einem Text vorkommen. Bei der "Stiftung Wortschatzformeltest" hätte ich nicht nur den Platz Zwei (auch noch weit abgeschlagen vor Drei und Vier), ich wäre der "Preis-Leistungs-Sieger" geworden. :cool:


1x zitiertmelden

Formel erklären

06.11.2022 um 03:06
In der Tat! Deine Formel scheint wirklich gut zu sein. Bin beeindruckt. Meine Gratulation zum guten zweiten Platz! Du hast aber nicht einfach die Differenz zwischen Herdans und Guirauds gebildet und auf die eine raufaddiert oder abgezogen? :D Vielleicht solltest du deine Formel mal irgendwo publizieren und anderen Menschen und auch der Nachwelt zur Verfügung stellen!

Ich musste öfter an dieses Zitat von Richard Feynman gerade denken 'Science is like sex: sometimes something useful comes out, but that is not the reason we are doing it. '

Außerdem habe ich mich gefragt, ob es wohl solche Methoden waren, mit denen man geschlussfolgert hat, dass Herr Höcke von der AFD und der Autor Landolf Ladig wahrscheinlich identisch sind.


3x zitiertmelden

Formel erklären

06.11.2022 um 04:02
Zitat von LonnyLonny schrieb:Du hast aber nicht einfach die Differenz zwischen Herdans und Guirauds gebildet und auf die eine raufaddiert oder abgezogen?
Korrektur: die halbierte Diefferenz meinte ich


melden

Formel erklären

06.11.2022 um 04:50
@perttivalkonen

Danke für den Beitrag hier: Beitrag von perttivalkonen (Seite 2). Ich habe mir noch nie Gedanken gemacht über statistische Methoden zur Überprüfung des Ursprungs einer AUtorenschaft. Das ist echt interessant.

Zu deinem anderen Beitrag habe ich noch eine Frage:
Zitat von perttivalkonenperttivalkonen schrieb:Also die Formel von Herdan und Guiraud weichen ja mal grottenschlecht vom tatsächlichen Befund ab. Hintzes und meine Formel kommen mit ihren Vorhersagen weit näher an den Befund heran. Und ja, klar: Hinzes sogar deutlich besser als meines.
Hast du den Vergleich zwischen deiner und den anderen Modellen auch noch mit anderen Texten durchgeführt?


1x zitiertmelden

Formel erklären

06.11.2022 um 13:42
Zitat von LonnyLonny schrieb:Du hast aber nicht einfach die Differenz zwischen Herdans und Guirauds gebildet und auf die eine raufaddiert oder abgezogen? :D
Nein, habe ich nicht. Wie gesagt, ich hatte meine Formel gebildet, bevor ich von den anderen wußte. Sie ist allerdings auch recht simpel.

Allerdings habe ich irgendwann mal mit Guirauds und Herdans schlechtem Ergebnis herumgespielt. Bildet man den Mittelwert der mit Guirauds und Herdans Formel ermittelten Vokabelzahl pro Textlänge und Wortschatz, ist das so erzielte Ergebnis sogar noch etwas besser als das mit meiner Formel errrechnete. Und zwar sowohl in der Form "(Guiraud + Herdan) /2" als auch in der "sqrt (Guiraud * Herdan)". Das sieht dann so aus (alle Grafiken sind nochmal größer zu sehen, wenn sie in nem eigenen Fenster / Tab geöffnet werden):

Wortschatzformel-HnselGretel-005Original anzeigen (0,2 MB)

Is wirklich schon arg eng beieinander, kann man kaum noch auseinanderhalten.

Allerdings funktioniert das nur mit einer umständlichen Umrechnung; beim Abgleich zweier unterschiedlich langer Texte kann man nicht einfach die Wortschatzwerte der Formeln jener beiden zusammenrechnen und den Mittelwert bilden. Insofern bleibt meiner bei fast gleich genauen Ergebnissen doch weit einfacher händelbar.
Zitat von LonnyLonny schrieb:Vielleicht solltest du deine Formel mal irgendwo publizieren und anderen Menschen und auch der Nachwelt zur Verfügung stellen!
Ich werd sie hier später noch einstellen, den Ehrgeiz des Publizierens hab ich nicht (mehr).
Zitat von mojorisinmojorisin schrieb:Hast du den Vergleich zwischen deiner und den anderen Modellen auch noch mit anderen Texten durchgeführt?
Ja, in Sachen NT-Texte. Ich stell es mal vor:

WSF-NT-001

Das sind nochmals die einzelnen NT-Schriften. Nach rechts werden die Texte länger, nach oben vokabelreicher. Rot sind hier die meisten Paulusbriefe, die echten wie drei der von Späteren verfaßten, braun sind die drei nicht von Paulus verfaßten Pastoralbriefe, grün die übrigen Briefe, die wegen des allgemeinen Adressaten (Paulus schreibt an konkrete Gemeinden oder Personen) "katholische Briefe" genannt werden (katholisch heißt "allgemein"). Ganz ohne nähere Berechnung kann man erkennen, daß die rot markierten Briefe einen recht gleich hohen Wortschatz haben müssen, sowie daß die Pastoral- und katholischen Briefe ebenfalls einen vergleichbaren Wortschatz aufweisen, höher als der der Paulinen.

Blau sind die johanneischen Schriften, also die drei Johannesbriefe (hier als ein Text zusammengefaßt, der linke blaue Punkt), das Johannesevangelium (Punkt rechts) und die Offenbarung des Johannes, die Apokalypse (Punkt Mitte). Gelb sind die sog. synoptischen Evangelien sowie die Apostelgeschichte, von unten nach oben bzw. von links nach rechts Markus, Matthäus, Lukas (Apostelgeschichte), Lukas (Evangelium). Auch hier sieht man, daß die blauen und die gelben Punkte je für sich leidlich eng beieinander liegen in Sachen Wortschatz. Das Matthäusevangelium scheint den niedrigsten Wortschatz unter den Synoptikern zu haben, auch inhaltlich wirkt das Evangelium als das "Hebräischste", am stärksten am jüdischen Glaubenshintergrund interessierte. Der Verfasser mag ein Jude gewesen sein, für den Griechisch (alle NT-Schriften sind griechisch verfaßt) nicht die Muttersprache war, sodaß sein Wortschatz entsprechend eingeschränkt war. Für die johanneischen Schriften gilt dies deutlich erkennbar. Allerdings ist ebenfalls deutlich erkennbar, daß der Verfasser des Johannesevangeliums und der der Apokalypse nicht die selbe Person sein können, zu stark weicht der Wortschatz ab.

So weit lassen sich die Wortschatzeinstufungen bereits rein visuell erkennen.

Nun habe ich mal für jede NT-Schrift mit den verschiedenen Formeln den jeweiligen Wortschatzwert berechnet und anschließend wie bei Hänsel und Gretel damit ausgerechnet, wie viel Vokabeln eine bestimmte NT-Schrift haben müßte, wenn sie länger oder kürzer gewesen wäre. Daraus ergaben sich wieder diese Bogenlinien, und sinnigerweise sollten Bogenlinien von Texten ungefähr gleichen Wortschatzes auch ungefähr gleich nahe beieinanderliegen.

Leider konnte ich dies nicht für Hintze durchrechnen, denn für dessen Formel werden auch die Hapaxlegomena benötigt. Die weiß ich natürlich nicht für den Fall, daß der Römerbrief doppelt oder fünf mal so lang geworden wäre. Könnt ich mit Hintzes Formel zwar extrapolieren - aber nur, wenn ich dann schon weiß, wie viele verschiedene Vokabeln jener längere Römerbrief hätte. Einen der beiden Werte muß ich also vorher schon wissen, um den je anderen berechnen zu können. Daher muß Hintze bei diesem Abgleich außen vor bleiben.

So, hier dann die Zusammenschauen:

WSF-NT-002-ValkonenOriginal anzeigen (0,4 MB)

Deutlich erkennbar liegen bei Extrapolation mit meiner Formel die Wortschätze der (braun) Pastoralbriefe und der (grün) katholischen Briefe dicht beieinander, ebenso die Paulusbriefe (ohne Pastoral). Die beiden (gelb) Lukaswerke (Apostelgeschichte und Evangelium) liegen untereinander näher als mit Markus und vor allem Matthäus. Lukas gilt auch sonst als einer der gebildetsten bzw. des Griechischen Mächtigsten, was sich hier bestätigt. Er liegt ziemlich in der Mitte der roten, der paulinischen Linien; auch Paulus hatte einen hohen Bildungsstand. Beim Corpus Johanneum (blau) liegen Evangelium und Briefe eng beieinander, die Offenbarung hingegen deutlich davon abgesetzt.

Zum deutlicheren Sehen habe ich mal die Paulusbriefe (rot), die Pastoralbriefe (braun) und die katholischen Briefe (grün) separat wiedergegeben, wobei ich nur noch die Linien des je höchsten und niedrigsten Wortschatzes eingetragen habe. Bei den Pastoralbriefen reichte eine Linie, die liegen geradezu exakt "aufeinander".

WSF-NT-003-ValkonenOriginal anzeigen (0,2 MB)

WSF-NT-004-Valkonen

WSF-NT-005-ValkonenOriginal anzeigen (0,2 MB)

Die Zusammenhänge bzw. Unterschiede der synoptischen (gelb) und johanneischen (blau) Schriften mit ihren extrapolierten Linien sind auch so im Liniengewirr der Gesamtgrafik gut zu erkennen.

Bei Guiraud nun ergibt sich in der Gesamtschau dieses Bild:

WSF-NT-006-GuiraudOriginal anzeigen (0,4 MB)

Hier liegen die Linien nicht mehr so hübsch nach Farben sortiert beieinander, sondern arg gemischt. Und das widerspricht schon mal der rein visuellen Einschätzung (die Gesamtgrafik ohne Linien am Anfang). Nach Guiraud wäre der Wortschatz zweier Paulusbriefe niedriger als der der Offenbarung des Johannes, einer (roter Punkt ganz links unten) läge sogar bei dem des Johannesevangeliums (rechter blauer Punkt). - Hier ist etwas offenkundig falsch.

Was man hier bereits sehen kann: vor allem lange Texte haben nach Guiraud einen hohen Wortschatz, kurze Texte eher einen niedrigen Wortschatz. Besonders gut zu sehen ist das, wenn ich auch für Guiraud die Paulinen (rot), die Pastoral- (braun) und die katholischen Briefe (grün) je für sich zeige:

WSF-NT-007-GuiraudOriginal anzeigen (0,3 MB)

WSF-NT-008-GuiraudOriginal anzeigen (0,2 MB)

WSF-NT-009-GuiraudOriginal anzeigen (0,2 MB)

Eigentlich sollte die Textlänge keine Rolle spielen, einen wie hohen Wortschatz der Verfasser besitzt. Es sollte gemeinhin eher vermischt sein. Aber deutlich erkennbar ist dies bei Guiraud "sauber sortiert". Und das kann schlicht nicht stimmen.

Bei Herdan nun verhält es sich genau anders herum. Je kürzer ein Text ist, desto höher der Wortschatz. Ich erspare mir einzelne Kommentierungen und stell einfach die Grafiken ein:

WSF-NT-010-HerdanOriginal anzeigen (0,4 MB)

WSF-NT-011-HerdanOriginal anzeigen (0,3 MB)

WSF-NT-012-HerdanOriginal anzeigen (0,2 MB)

WSF-NT-013-HerdanOriginal anzeigen (0,2 MB)

Nehme ich hingegen wieder einen der Mittelwerte von Guiraud und Herdan, kommt wieder eine Situation ähnlich wie mit meiner Formel zustande, die der ersten visuellen Einschätzung des Wortschatz-Befundes der Schriften des NT entspricht.

WSF-NT-014-GuiHerOriginal anzeigen (0,4 MB)

WSF-NT-015-GuiHerOriginal anzeigen (0,2 MB)

WSF-NT-016-GuiHerOriginal anzeigen (0,1 MB)

WSF-NT-017-GuiHerOriginal anzeigen (0,2 MB)


So, da hab ich ziemlich lange dran gesessen, ich mach erst mal Pause.


1x verlinktmelden

Formel erklären

06.11.2022 um 14:13
Zitat von LonnyLonny schrieb:Außerdem habe ich mich gefragt, ob es wohl solche Methoden waren, mit denen man geschlussfolgert hat, dass Herr Höcke von der AFD und der Autor Landolf Ladig wahrscheinlich identisch sind.
Diese Frage habe ich mir bezüglich so mancher wissenschaftlicher Veröffentlichungen aber auch einfacher Abschlussarbeiten im Hinblick auf Ghostwriter gestellt.

@perttivalkonen
Kann es sein dass der Wortschatz von Personen (Erwachsenen) innerhalb weniger Jahre stark zunimmt? Beispielsweise durch viel lesen und predigen? Könnte da nicht auch ein Text, der einige Jahre später geschrieben wurde, bei der Analyse ein anderes Ergebnis erbringen als ein früherer Text?


1x zitiertmelden

Formel erklären

06.11.2022 um 17:34
Zitat von BettmanBettman schrieb:Kann es sein dass der Wortschatz von Personen (Erwachsenen) innerhalb weniger Jahre stark zunimmt?
Sowohl ja als auch nein.

Wir Menschen haben zwei Wortschätze. Den aktiven und den passiven. Der passive Wortschatz ist der, den man versteht, der aktive der, den man beim Sprechen benutzt. So wächst der passive geradezu unaufhörlich an (solange ein Mensch aufnahmebereit, interessiert ist), aber der aktive Wortschatz wächst letztlich nur mit dem Bedarf an erweiterter Mitteilung. Wenn ein Mensch ein Fachgebiet erlernt und dann darin arbeitet, wenn er ein Themenfeld interessenmäßig für sich erschließt und mit anderen darüber kommuniziert, wenn sich sein soziales Umfeld ändert, er mit Menschen anderer sozialer Bereiche oder Kulturen zu tun hat usw. In solchen Fällen kann sich der aktive Wortschatz erweitern, aber genauso kann er bei nun nicht mehr Benötigtem auch verarmen und im Schnitt also gleich hoch bleiben. Vor allem aber bleibt er nach dem eher kurzfristigen Anwachsen anschließend wieder jahre- wenn nicht gar jahrzehntelang in etwa gleich hoch.

Während der passive Wortschatz also ein ganzes Leben lang stark ansteigen kann - wiewohl, je nach Lebensumständen, nicht muß, bleibt der aktive Wortschatz eines erwachsenen Menschen weit ausgeglichener. Vor allem in früheren Zeiten und Gesellschaften, wo der aktive Wortschatz mit heutigen Verhältnissen verglichen geradezu "konstant" blieb.
Zitat von BettmanBettman schrieb:Könnte da nicht auch ein Text, der einige Jahre später geschrieben wurde, bei der Analyse ein anderes Ergebnis erbringen als ein früherer Text?
Allenfalls graduell.

Weitaus größer und für die Forschung problematischer sind die Wortschatz-Unterschiede einer einzelnen Person bei uterschiedlichen Kommunikationsarten. Meine Examensarbeit wird einen deutlich größeren Wortschatz anzeigen als das Märchen, das ich für ein Kind schreibe. Bei einem Interview rede ich gestelzter, ausformulierter als in der Kneipe mit Freunden. Bei Paulusbriefen oder bei Shakespearewerken dagegen liegt ein sehr vergleichbarer kommunikativer Kontext vor, hier sollte sich der Wortschatzwert von Texten weit stärker ähneln bei ein und der selben Person.


melden

Formel erklären

06.11.2022 um 22:05
So, nu was zu den Formeln.

Bei einem Text nennt man die einzelnen Wörter, aus denen ein Text besteht, Token. Ein Text von tausend Wörtern Länge hat also 1000 Token. Die verschiedenen Vokabeln, die dabei verwendet werden, die werden Types genannt. Gelegentlich ist noch wichtig zu berücksichtigen, wie oft ein type vorkommt. Ein nur einmal verwendeter Type heißt hapax legomenon. Zweifach verwendet: dis legomenon, dreifach tris legomenon...

Wie ich schon sagte, steigt die Zahl der verwendeten Vokabeln nicht linear mit der Textlänge an. So erreicht meine Hänsel-und-Gretel-Auszählung 250 Types bei einer Textlänge von 652 Token. Nun finden sich bei doppelter Textlänge in Wörtern, also bei 1304 Token, nicht mal eben 500 verwendete verschiedene Vokabeln, nicht 500 Types, sondern nur 354.

Guyraud nun sagt, bei Verdoppelung der Token verdoppelt sich nicht die Zahl der Types, sondern das Quadrat der Types-Zahl.

Types²/Token

So weit ich weiß, rechnet man Guiraud allerdings als

Types/sqrt(Token)

Mit anderen Worten: Verdoppelt sich die Typeszahl, vervierfacht sich die Tokenzahl, dreifache Vokabelmenge, neunfache Textlänge.

Meine Hänsel-und-Gretel-Auszählung hat 606 Types auf 2600 Token. Bei einem Viertel (650) Token müßten es nach Guiraud also 303 Types sein. Sind aber 253, fünfzig weniger. Selbst bei 1300 Token kommt man mit Guiraud noch auf 429 statt auf realiter 397 Types, noch immer 32 zu viel.

Herdan setzt auf Logarithmen. Bei ihm lautet die Formel

log(Types)/log(Token)

Damit gerechnet käme Herdan für einen Hänsel-und-Gretelwortschatz-Text von 650 Wörtern Länge auf 196 Vokabeln, 47 zu wenig, und bei 1300 Wörtern Länge auf 345, also 52 weniger als ausgezählt.

Hintze nun hat die umfangreichste Formel.

(Token/Types-((4*Hapaxlegomena-Dislegomena)/(4*Hapaxlegomena-2*Dislegomena)))/sqrt(Token)*100

Hintze berücksichtigt nicht nur die Wörterzahl und Vokabelmenge, sondern unter den Vokabeln die Zahl der je einmal vorkommenden sowie die der je zweimal vorkommenden.

Statt der realen 253 Vokabeln nach 650 Wörtern ergibt die Umrechnung mit Hintzes Formel eine Voraussage von 245 Vokabeln, gerade mal 8 weniger, und bei 1300 Token bietet er 390 statt 397 Types, 7 zu wenig. Nicht mal mehr 2% Abweichung.

Bei meiner Suche nach einer Formel für den Vokabelanstieg bei Textverlängerung dachte ich als erstes an 50% Vokabelaufschlaag bei 100% Textlängenaufschlag. Mir fiel nämlich auf, daß der Galaterbrief mit 2220 Wörtern fast exakt halb so lang ist wie der 2. Korintherbrief mit 4448, und die 792 Vokabeln des 2.Kor. waren nur knapp mehr als das Anderthalbfache der 526 Vokabeln von Gal. Ebenso beim Philipperbrief und Römerbrief. Letzterer ist etwas mehr als 2*2 mal so lang (7094 gegen 1624 Token) und hat gut 1,5*1,5 mal so viel Types (1068 gegen 448). Die Abweichungen bei anderen Paulusbriefen waren mir aber zu groß, und so suchte ich weiter. Und kam schließlich auf

Types³/Token²

oder

Types/Token2/3

Mit dieser Formel berechne ich für 1/4 Hänsel und Gretel 240 statt der "echten" 253 Types voraus, und für die Texthälfte 382 statt 397. Eine Abweichung von 13 bzw. 15 Types.

Addiert man nun die falschen Typesangaben von Guiraud und Herdan und halbiert das Ergebnis, erhält man für 650 Token 249 Types und für 1300 Token 387 Types. Multipliziert man dagegen und zieht die Wurzel aus dem Ergebnis, erhält man 244 und 384 Types. Beides dichter als meine Werte an 253 und 397.

Immerhin kann ich für mich verbuchen, die Berechnungen der beiden auf diese Weise miteinander verbunden zu haben, um eine bessere Näherung zu erhalten.


melden

Formel erklären

07.11.2022 um 05:55
@perttivalkonen

Danke für deine Erklärungen hier. Das sieht nach ner Menge Arbeit aus. Wenni ich es also recht verstehe ersucht man ein statistisches Modell zu entwerfen das ein Vorhersage der zu erwartenden Types beschriebt als eine Funktion der Textlänge. Dazu hat man einen Skalierungsparameter mit der man die Kurve an verschiedenen Datensätze fitten kann.

Ich habe eine Vergleichsstudie gefunden (2015) die verschiedene Type-Token Models vergleicht. Vielleicht ist diese von Interesse für dich: https://www.tandfonline.com/doi/pdf/10.1080/09296174.2014.974456?needAccess=true
(Falls schon bekannt einfach ignorieren)
Einige von dir genannten Modelle finden sich dort auch. Die Modelle werden anhand einer Auswahl an historischer Texte evaluiert.

Eine weitere Abhandlung beschäftigt sich mit anderen statistischen Methoden zur Klassifizierung der Autorenschaft biblischer Text:
https://core.ac.uk/download/pdf/36984712.pdf

Generell denke ich dass in Zukunft vermehrt Machine Learning Algorithmen für solche Aufgaben eingesetzt werden. Vielleicht ein interessantes Buch in dieser Hinischt ist: https://link.springer.com/book/10.1007/978-3-030-53360-1 (Nicht kostenlos verfügbar.)

Interessantes Foschungsgebiet jedenfalls, auch für Statistikbegeisterte :)


melden

Formel erklären

07.11.2022 um 12:48
@mojorisin

Danke für die Hinweise / Links, especially die PDF.

Ja, es gibt da diverse Methoden derErfassung von Wortschatz, Eigenarten etc. eines Textes und dessen Verfassers. Mir hatte es vor allem die rein quantitative Erfassung des Wortschatzes, also der Wortschatzumfang angetan. Das hängt mit dem Diskos von Phaistos zusammen. Über den stolpert man ja immer wieder mal, auch im GreWi-Bereich. Auch mich fasziniert der. Ihn zu entziffern, diesen Ehrgeiz hatte ich natürlich nie, dazu fehlen mir dann doch zu viele Grundlagen. Aber ich dachte, vielleicht kann man ja herausfinden, wie groß der Gesamtzeichensatz der Phaistos-Schrift ist.

Zu der Zeit hatte ich bereits das etwas angegraute Buch "Statistik des neutestamentlichen Wortschatzes" von Robert Morgenthaler gelesen sowie die ersten Versuche eines Abgleichs von Vokabelmenge und Textlänge in Wörtern unternommen, war aber nicht über die grobe Regel "Verdopplung der Textmenge - Veranderthalbfachung der Vokabelmenge" hinausgekommen. Beim Phaistos-Diskos dachte ich mir, so eine Wortschatzanalyse müßte doch auch für Zeichensätze funktionieren. Dazu aber müßte ich ja erst einmal die Wortschatzbestimmung "knacken", um sie dann auf den Phaistos-Zeichensatz anzuwenden.

Und so widme ich mich hauptsächlich dieser rein numerischen Wortschatzanalyse im Bereich der Lexikostatistik.

Der Gedanke in Sachen Phaistos ist der.

Unser Alphabet hat 26 Buchstaben, 30, wenn wir Umlaute und deutsches S mitnehmen. Wie lang muß ein Text werden, bis 1/4 oder 1/2 des gesamten Zeichensatzes Verwendet wurde? Andere Schriftsysteme verwenden einen Satz mit einer anderen Buchstabenmenge, wiederum andere verwenden Silbenschrift, ebenfalls mit ner bestimmten Zeichenmenge. Bei welcher Textlänge werden dann dort wie viel Prozent des Zeichensatzes verwendet? Die Folge neuer Types muß am Anfang recht schnell erfolgen, aber irgendwann muß es im Mittel immer länger dauern, bis ein neues Zeichen vorkommt. Lassen sich diese einzelnen Abstände nutzen, um den Umfang des Zeichensatzes herauszufinden?

Dies könnte helfen herauszufinden, ob es sich bei der Phaistosschrift um eine Einlaut-Schrift handelt (eher nicht, allein auf dem Diskos kommen schon zu viele verschiedene Zeichen vor), um eine Silbenschrift, eine "Zweilaut"-Schrift wie das Äthiopische (Konsonant mit nachfolgendem Vokal) oder eine Ideogrammschrift (quasi ganze Wörter).


melden

Ähnliche Diskussionen
Themen
Beiträge
Letzte Antwort
Wissenschaft: Absolute Minimum Geschwindigkeit
Wissenschaft, 196 Beiträge, am 08.04.2021 von mastermind2020
noname am 03.08.2019, Seite: 1 2 3 4 5 6 7 8 9 10
196
am 08.04.2021 »
Wissenschaft: Wie funktioniert die Formel von Chaostheorie?
Wissenschaft, 30 Beiträge, am 08.04.2006 von UffTaTa
Forgoden am 06.04.2006, Seite: 1 2
30
am 08.04.2006 »
Wissenschaft: Ableitung von Formeln!
Wissenschaft, 62 Beiträge, am 17.05.2003 von ar_ok_frithr
eraser am 03.03.2003, Seite: 1 2 3 4
62
am 17.05.2003 »