ERSTELLEN EINER REFERENZDATASET FÜR EINKAUFEN UND PRODUKTÜBERPRÜFUNG

Wie bereits erwähnt, gab es vor diesem Projekt keinen gekennzeichneten Datensatz für Gruppenmeinungsspam. Um unsere Methode zu bewerten, haben wir einen beschrifteten Datensatz mit Experten erstellt. Meinungen zu Spam und Kennzeichnungsfähigkeit: Die Einstufung des Begriffs "Spam" ist schwierig. Für die Recherche im Web, in E-Mails, in Blogs und sogar in sozialen Spams sind zur Kennzeichnung Erkennungsdaten mit manuell gekennzeichneten Daten erforderlich. Aufgrund dieser inhärenten Natur der Probleme ist die Erstellung eines manuell beschrifteten Datensatzes mit Hilfe von Experten die beste Lösung für Goldstandards. Wir haben auch einen Spam-Datensatz für Gruppenmeinungen mit Experten erstellt. Amazon-Datensatz: Bei dieser Untersuchung wurden Produktbewertungen von Amazon verwendet, die auch in verwendet wurden. Die ursprüngliche Durchforstung wurde im Jahr 2006 durchgeführt. Die Aktualisierungen wurden Anfang 2010 vorgenommen.
Für unsere Studie haben wir nur Rezensionen von hergestellten Produkten verwendet, die 53.469 Rezensenten, 109.518 Rezensionen und 39.392 Produkte umfassen. Jede Überprüfung bestand aus Titel, Inhalt, Sternebewertung, Veröffentlichungsdatum und der Anzahl hilfreicher Rückmeldungen. Mining-Kandidaten-Spammer-Gruppen: Wir verwenden hier häufiges Item-Mining (FIM). In unserem Kontext, einer Reihe von Elementen, bin ich die Menge aller Reviewer-IDs in unserer Datenbank. Jede Transaktion ist die Menge der Prüfer-IDs, die ein bestimmtes Produkt überprüft haben. Somit generiert jedes Produkt eine Transaktion mit Prüfer-IDs. Durch das Mining häufiger Elementgruppen finden wir Gruppen von Prüfern, die mehrere Produkte zusammen geprüft haben. Wir haben 7052 Kandidatengruppen mit minsup_c (Minimum Support Support) = 3 und mindestens 2 Elementen (Prüfer-IDs) pro Artikelgruppe (Gruppe) gefunden, d. H. Jede Gruppe muss an mindestens 3 Produkten zusammengearbeitet haben. Elementgruppen (Gruppen) mit einer geringeren Unterstützung als diese sind wahrscheinlich eher auf eine zufällige Chance als auf eine echte Korrelation zurückzuführen, und eine sehr geringe Unterstützung verursacht auch eine kombinatorische Explosion, da die Anzahl der häufigen Elementgruppen für FIM exponentiell ansteigt, wenn FIM auf Reviewer-IDs arbeitet find sock-maskierte ids, die Gruppen bilden, wenn die ids-Zeiten verwendet werden, um Reviews zu veröffentlichen. Spam-Signale für Meinungen: Wir haben frühere Recherchen zu Meinungs-Spam und Richtlinien auf Verbraucherseiten wie consumerist.com, lifehacker.com und consumerearch.com3 überprüft und aus diesen Quellen eine Liste von Spam-Indikatoren oder -signalen zusammengestellt, z.
(i) null Vorbehalte hat,
(ii) voller leerer Adjektive,
(iii) rein glühendes Lob ohne Abstriche,
(iv) innerhalb einer kurzen Zeitspanne voneinander verlassen werden usw. Diese Signale wurden unseren Richtern gegeben. Wir glauben, dass diese Signale (und die unten beschriebenen zusätzlichen Informationen) ihre Beurteilung verbessern, anstatt sie zu beeinflussen, da die Beurteilung von Spam-Überprüfungen und Überprüfern sehr herausfordernd ist. Es ist für jedermann schwierig, eine große Anzahl möglicher Signale ohne wesentliche Vorerfahrungen zu kennen. Diese Signale im Internet und in Forschungsarbeiten wurden von Experten mit umfangreichen Erfahrungen und Domänenwissen zusammengestellt. Wir haben auch unsere Richter daran erinnert, dass diese Signale nach eigenem Ermessen verwendet werden sollten, und ermutigten sie, ihre eigenen Signale zu verwenden. Um die Arbeitsbelastung der Juroren weiter zu reduzieren, haben wir für jede Gruppe auch 4 zusätzliche Informationen bereitgestellt, die für einige der oben genannten Signale erforderlich sind: Bewertungen mit Veröffentlichungsterminen jedes einzelnen Gruppenmitglieds, Liste der von jedem Mitglied geprüften Produkte, Bewertungen von Produkte, die von Nicht-Gruppenmitgliedern gegeben wurden, und ob Gruppenbewertungen mit AVP (Amazon Verified Purchase) markiert wurden. Amazon markiert jede Überprüfung mit AVP, wenn der Prüfer das Produkt tatsächlich gekauft hat. Den Richtern wurde auch der Zugriff auf unsere Datenbank zur Abfrage nach ihren Bedürfnissen gewährt. Kennzeichnung: Wir haben 8 Sachverständige angestellt: Mitarbeiter von Rediff Shopping und eBay.in, um unsere Kandidatengruppen zu kennzeichnen. Die Juroren verfügten aufgrund ihrer Arbeit im Online-Shopping über Fachwissen in Rückmeldungen und Bewertungen von Produkten. Da es zu viele Muster gab (oder Kandidatengruppen), gelang es unseren Richtern nur, 2431 davon als "Spam", "Nicht-Spam" oder "Borderline" zu bezeichnen. Die Richter sollten isoliert arbeiten, um Vorurteile zu vermeiden. Die Etikettierung dauerte etwa 8 Wochen. Wir haben Amazon Mechanical Turk (MTurk) nicht für diese Etikettierungsaufgabe verwendet, da MTurk normalerweise für einfache Aufgaben verwendet wird, die menschliches Urteilsvermögen erfordern. Unsere Aufgabe ist jedoch sehr anspruchsvoll, zeitaufwändig und erfordert auch den Zugriff auf unsere Datenbank. Außerdem brauchten wir Richter mit guten Kenntnissen der Bewertungsdomäne. Daher glauben wir, dass MTurk nicht geeignet war

Comments

Popular posts from this blog

Die Paarungsfamilie

STANLEY SHOWGROUNDS MASTER PLAN

Familienproblemlösung