ERSTELLEN EINER REFERENZDATASET

Wie bereits erwähnt, gab es vor diesem Projekt keinen gekennzeichneten Datensatz für Gruppenmeinungsspam. Um unsere Methode zu bewerten, haben wir einen beschrifteten Datensatz mit Experten erstellt. Meinungs-Spam und Kennzeichnungsfähigkeit: Die Einstufung des Begriffs "Spam" ist schwierig. Für die Recherche im Web, in E-Mails, in Blogs und sogar in sozialen Spams sind zur Kennzeichnung Erkennungsdaten mit manuell gekennzeichneten Daten erforderlich.
 Aufgrund dieser inhärenten Natur der Probleme ist die Erstellung eines manuell beschrifteten Datensatzes mit Hilfe von Experten die beste Lösung für Goldstandards. Wir haben auch einen Spam-Datensatz für Gruppenmeinungen mit Experten erstellt. Amazon-Datensatz: Bei dieser Untersuchung wurden Produktbewertungen von Amazon [14] verwendet, die auch bei der ursprünglichen Durchforstung im Jahr 2006 verwendet wurden. Aktualisierungen wurden Anfang 2010 vorgenommen.
Für unsere Studie haben wir nur Rezensionen von hergestellten Produkten verwendet, die 53.469 Rezensenten, 109.518 Rezensionen und 39.392 Produkte umfassen. Jede Überprüfung bestand aus Titel, Inhalt, Sternebewertung, Veröffentlichungsdatum und der Anzahl hilfreicher Rückmeldungen. Mining-Kandidaten-Spammer-Gruppen: Wir verwenden hier häufiges Itemset-Mining (FIM). In unserem Kontext ist eine Menge von Elementen, ich ist die Menge aller Reviewer-IDs in unserer Datenbank. Jede Transaktion ist die Menge der Prüfer-IDs, die ein bestimmtes Produkt überprüft haben.
Jedes Produkt generiert eine Transaktion mit Prüfer-IDs. Durch das Mining häufiger Elementgruppen finden wir Gruppen von Prüfern, die mehrere Produkte zusammen geprüft haben. Wir haben 7052 Kandidatengruppen mit minsup_c (Minimum Support Support) = 3 und mindestens 2 Elementen (Prüfer-IDs) pro Artikelgruppe (Gruppe) gefunden, d. H. Jede Gruppe muss an mindestens 3 Produkten zusammengearbeitet haben. Elementgruppen (Gruppen) mit einer niedrigeren Unterstützung als dieser sind wahrscheinlich auf zufällige Zufälle und nicht auf echte Korrelation zurückzuführen, und eine sehr geringe Unterstützung verursacht auch eine kombinatorische Explosion, da die Anzahl der häufigen Elementmengen für FIM exponentiell ansteigt
FIM, die an Reviewer-IDs arbeiten, kann auch sockpupierte IDs finden, die Gruppen bilden, wenn die IDs min-up-c-Zeiten verwendet werden, um Reviews zu veröffentlichen. Spam-Signale für Meinungen: Wir haben frühere Recherchen zu Meinungs-Spam und Richtlinien auf Verbraucherseiten wie Consumerist.com, lifehacker.com und Consumer earch.com3 überprüft und aus diesen Quellen eine Liste von Spam-Indikatoren oder -Signalen gesammelt, z.
(i) null Vorbehalte hat,
(ii) (ii) voll von leeren Adjektiven,
(iii) (iii) rein glühendes Lob ohne Abstriche,
(iv) (iv) innerhalb einer kurzen Zeitspanne voneinander gelassen werden usw. Diese Signale wurden unseren Richtern gegeben. Wir glauben, dass diese Signale (und die unten beschriebenen zusätzlichen Informationen) ihre Beurteilung verbessern, anstatt sie zu beeinflussen, da die Beurteilung von Spam-Überprüfungen und Überprüfern sehr herausfordernd ist. Es ist für jedermann schwierig, eine große Anzahl möglicher Signale ohne wesentliche Vorerfahrungen zu kennen. Diese Signale im Internet und in Forschungsarbeiten wurden von Experten mit umfangreichen Erfahrungen und Domänenwissen zusammengestellt.
Wir haben auch unsere Richter daran erinnert, dass diese Signale nach eigenem Ermessen verwendet werden sollten, und ermutigten sie, ihre eigenen Signale zu verwenden. Um die Arbeitsbelastung der Juroren weiter zu reduzieren, haben wir für jede Gruppe auch 4 zusätzliche Informationen bereitgestellt, die für einige der oben genannten Signale erforderlich sind: Bewertungen mit Veröffentlichungsterminen jedes einzelnen Gruppenmitglieds, Liste der von jedem Mitglied geprüften Produkte, Bewertungen von Produkte, die von Nicht-Gruppenmitgliedern gegeben wurden, und ob Gruppenbewertungen mit AVP (Amazon Verified Purchase) markiert wurden. Amazon markiert jede Überprüfung mit AVP, wenn der Prüfer das Produkt tatsächlich gekauft hat. Den Richtern wurde auch der Zugriff auf unsere Datenbank zur Abfrage nach ihren Bedürfnissen gewährt.

Comments

Popular posts from this blog

Die Paarungsfamilie

STANLEY SHOWGROUNDS MASTER PLAN

Familienproblemlösung